Pyspark(下)

    科技2022-07-17  131

    上传测试文件HDFS目录

    本地运行pyspark程序 进入pysaprk

    查看当前运行模式

    读取本地文件并显示项数

    读取HDFS文件

    在Hadoop YARN运行pysaprk 修改yarn文件yarn-site.xml

    修改yarn-env.sh sudo gedit /usr/local/hadoop/etc/hadoop/yarn-env.sh

    ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201004212743399.png#pic_center)

    声明,由于版本问题,我把java1.8皇城java1了,其他配置不变

    HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop pyspark --master yarn --deploy-mode client

    查看当前运行模式

    读取本地文件并显示项数

    读取HDFS文件

    Spark伪分布版安装 添加spark到系统环境变量

    配置slaves

    ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201005141952948.png#pic_center)

    spark-shell

    进入Hadoop的sbin目录执行./start-all.sh启动 使用jps看下进程信息 进入spark的sbin目录下执行./start-all.sh启动spark, 启动后,jps查看最新进程

    ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201005142513318.png#pic_center)

    http://localhost:8080,进入spark的web控制台页面

    使用命令./bin/spark-shell启动SparkContex

    通过访问http://localhost:4040进入spark-shell web控制台页面

    关闭Spark

    关闭Hadoop

    重命名 为避免与Hadoop的命令冲突: 进入/usr/local/spark/sbin start-all.sh文件改名为: start-all-spark.sh stop-all.sh文件改名为: stop-all-spark.sh

    ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201005150426821.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0NhbmR5bHg=,size_16,color_FFFFFF,t_70#pic_center)

    在Spark Stand alone运行pyspark 启动hadoop

    启动Spark Stand alone

    在Spark Standalone运行pyspark pyspark --master spark://master:7077

    http://localhost:8080/

    查看当前运行模式

    读取本地文件并显示项数

    读取HDFS文件

    Processed: 0.011, SQL: 8