当前Spark官网的最新版本尚未直接支持Python 3.x版本,经过一番折腾,集合网上各种说明,整理了如下的PySpark升级Python 3.x的步骤 (经实际操作可成功升级):
配置环境: 操作系统:CentOS Linux release 7.4.1708(Core)JAVA: 1.8.0_151Hadoop: 3.0.0Spark: 2.2.1Python: 3.6.4 配置步骤: 1. 使用 python –V 检查当前版本号,centos7默认配置的应该是python 2.x 2. 安装gcc,用于编译Python源码 yum install gcc 3. 安装zlib相关依赖包 yum -y install zlib* 4. 在Python官网https://www.python.org/ftp/python/下载最新版本的Python,我下载的是3.6.4 5. 解压下载下来的python安装包:tar –zxvf Python-3.6.4.tgz 6. 进入 Python-3.6.4 文件夹:cd Python-3.6.4 7. 修改 Modules/Setup.dist:vi Modules/Setup.dist #zlib zlibmodule.c -I ( p r e f i x ) / i n c l u d e − L (prefix)/include -L (prefix)/include−L(exec_prefix)/lib–lz 把这行注释去掉 8. 编译安装 ./configure make all make install 9. 查看安装后Python3的版本号:python3 –V 10. 配置Spark使用python3启动: 修改环境配置文件:vi ~/.bashrc,添加如下的环境变量设置 export PYSPARK_PYTHON=python3 保存后,使文件生效:source ~/.bashrc 11. 启动pyspark,看是否已经使用最新版本的python
