yanqianglifei 2020-03-03
第一章:
四.Local模式
仅仅本机运行
Local[k]代表有几个线程在跑
Local[*]代表跑满
五.spark使用
1.bin/spark-submit 参数,可以用来提交任务
参数如下
--master 指定Master的地址,默认为Local --class: 你的应用的启动类 (如 org.apache.spark.examples.SparkPi) --deploy-mode: 是否发布你的驱动到worker节点(cluster) 或者作为一个本地客户端 (client) (default: client)* --conf: 任意的Spark配置属性, 格式key=value. 如果值包含空格,可以加引号“key=value” application-jar: 打包好的应用jar,包含依赖. 这个URL在集群中全局可见。 比如hdfs:// 共享存储系统, 如果是 file:// path, 那么所有的节点的path都包含同样的jar application-arguments: 传给main()方法的参数 --executor-memory 1G 指定每个executor可用内存为1G --total-executor-cores 2 指定每个executor使用的cup核数为2个
执行如下
bin/spark-submit --class org.apache.spark.examples.SparkPi --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.1.jar 100
2.bin/spark-shell,进入命令行环境,默认很多东西会创建好,比如sc变量
jsp命令查看java运行的程序
spark-shell提示的,网址,比如hadoop102:4040,是查看网页版的程序运行状态器,即Spark Jobs
yarn application -list,查看应用id
六.WordCount程序
1.load
2.flat
3.group
4.聚合
5.打印