Jupyter配置Spark开发环境

hanyingjun 2016-10-09

兄弟连大数据培训(www.lampbrother.net

)和大家一起探究Jupyter配置

Spark

开发环境

简介

为Jupyter配置Spark开发环境,可以安装全家桶–SparkKernel或Toree,也可按需安装相关组件。

考虑到一般人更喜欢一步到位,并且Toree将会代替SparkKernel,故直接且仅需安装Toree即可,不过下面还是给出了所有的安装方法。

SparkKernel的安装

参照SparkKernel支持的语言,安装好SparkKernel后,其默认可以支持Scala,Python,R,SQL,对应的Spark实现分别是ScalawithSpark,PythonwithPySpark,RWithSparkR,SparkSQL。

参照上述链接,要切换语言时,只需简单的在语句前面加上%%scala/%%pyspark即可。当然,什么都不加时,默认语言为Scala。

另外,启动Jupyter后,可直接在http://localhost:4040/jobs/监控所有作业。

SparkKernel(旧的项目)

参照下面的安装步骤进行即可,就是有些繁琐。

GettingStartedwiththeSparkKernel

GuidetoIntegratingtheSparkKernelwithJupyter

Toree(新项目)

根据SparkKernel的介绍,自从SparkKernel变成Apache的孵化项目后,其最新仓库已经迁移到了incubator-toree。

安装时,参照QuickStartWhatisApacheToree,仅需两条命令即可完成安装。

pipinstalltoree

jupytertoreeinstall--spark_home=your-spark-home12

值得注意的是:

Toree虽然还在孵化中,但已经能完成上述SparkKernel的全部功能,即可支持PySpark,SparkSQL等。

该kernel安装在/usr/local/share/jupyter/kernels/apache_toree_scala目录下

Spark组件单独安装

除了安装上面的方法安装Spark的全家桶外,还可以按需对各组件进行安装。

ScalaKernel的安装

参照jupyter-scala安装即可。

PySpark的安装

PySpark:HowtoinstallandIntegratewiththeJupyterNotebook

IntegrateApacheSparkwithlatestIPythonNotebook(Jupyter4.x)

RunningSparkApplicationsUsingIPythonandJupyterNotebooks

相关推荐