ahbbwangpei 2020-04-02
demo
spark 在不使用mllib的情况下,可以使用python的数据分析。
使用方法如下
代码可以运行
eclipse添加 window--preferences---pydev----interpreters---python interpreter
1、环境变量
SPARK_HOME=C:\spark-2.3.1-bin-hadoop2.6
SPARK_LOCAL_IP=本机ip/localhost
2、jar包
libraries中添加
C:\spark-2.3.1-bin-hadoop2.6\python
C:\spark-2.3.1-bin-hadoop2.6\python\lib\*
3、代码
# coding=UTF-8 import findspark findspark.init() from pyspark import SparkContext def show(x): print(x) sc = SparkContext("local", "First App") lines = sc.textFile("../../../words").cache() words=lines.flatMap(lambda line:line.split(" "),True) pairWords = words.map(lambda word : (word,1),True) result = pairWords.reduceByKey(lambda v1,v2:v1+v2, 3) result.foreach(lambda x:show(x)) result.saveAsTextFile("../../../wc-result2")
代码执行(eclipse 可直接运行,集群提交如下)
$SPARK_HOME/bin/spark-submit firstapp.py