博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
PyCharm+Eclipse共用Anaconda的数据科学环境
阅读量:4993 次
发布时间:2019-06-12

本文共 1273 字,大约阅读时间需要 4 分钟。

1.安装anaconda2

  安装好之后,本地python环境就采用anaconda自带的python2.7的环境。

2.安装py4j

  在本地ctrl+r打开控制台后,直接使用pip安装py4j,因为anaconda默认是安装了pip的,当然也可以使用conda安装。

  安装命令:pip install py4j

  如果不安装py4j可能出现的问题?

     答:因为Spark的Python版本的API依赖于py4j,如果不安装运行程序会抛出如下错误。

     

3.配置环境变量

  配置PyCharm的环境变量主要配置两个变量一个是SPARK_HOME,另外一个是PYTHONPATH。

(1).先打开Run Configurations

(创建一个项目,项目或python文件的左上角有该选项)
  

(2).编辑Environment variables

    
或者按下面的方式展开

菜单:File-->Settings (图来源于互联网~这里我用的是python2)

    

(3).在Environment variables下增加spark和python的环境

  增加SPARK_HOME目录与PYTHONPATH目录。

  - SPARK_HOME:Spark安装目录

  - PYTHONPATH:Spark安装目录下的Python目录

    

4.复制pyspark的包

编写Spark程序,复制pyspark的包,增加代码显示功能

为了让我们在PyCharm编写Spark程序时有代码提示和补全功能,需要将Spark的pyspark导入到Python中。在Spark的程序中有Python的包,叫做pyspark

pyspark包

Python导入第三方的包也很容易,只需要把相应的模块导入到指定的文件夹就可以了。

windows中将pyspark拷贝到Python的site-packages目录下(这里使用的是anaconda)

 

5.测试代码

import sysfrom operator import addfrom pyspark import SparkContext
logFile = "D:\\BigData\\Workspace\\PycharmProjects\\MachineLearning1\\word.txt" sc = SparkContext("local", "PythonWordCount") logData = sc.textFile(logFile).cache() numAs = logData.filter(lambda s: 'a' in s).count() numBs = logData.filter(lambda s: 'b' in s).count() print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

 

 

转载于:https://www.cnblogs.com/jackchen-Net/p/6932754.html

你可能感兴趣的文章
Mysql命令集
查看>>
记java应用linux服务单个CPU使用率100%分析
查看>>
将文件字节输出流写入到文本中
查看>>
Linux编程之给你的程序开后门
查看>>
Ubuntu下Hadoop的安装和配置
查看>>
VS2010中生成遇到的 web.config 问题
查看>>
Nginx安装部署(反向代理与负载均衡)
查看>>
2018年最新小程序一键智能生成平台限时限量销售!
查看>>
集合遍历过程iterator, 添加删除元素报异常
查看>>
echarts一些笔记
查看>>
最长上升子序列
查看>>
Java-面向对象
查看>>
salesforce 零基础学习(四十四)实现checkbox列表简单过滤功能
查看>>
Android 异步下载
查看>>
c# 中 利用 CookieContainer 对 Cookie 进行序列化和反序列化校验
查看>>
Leetcode 743. Closest Leaf in a Binary Tree
查看>>
如何用Java实现反转排序
查看>>
自己动手写字符串库函数 一(C语言实现) 分类: C语言学习 ...
查看>>
说说接口封装
查看>>
Linux Supervisor的安装与使用入门---SuSE
查看>>