Spark SQL 集成Hive(二)

    科技2025-07-06  23

    Spark SQL 集成Hive(二)

    1. 背景

    Hive可以看做是一个转换器,将SQL转换为mapreduce或者spark程序Spark SQL也可以看成一个转换器,将SQL转换为spark程序Hive集成Spark SQL有几种集成方式,一种是直接使用Spark SQL替代Hive,SQL是Spark SQL,程序转换也是Spark 程序,唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种另外一种集成方式就是SQL还是hive,但执行引擎变成了Spark。这种集成也比较简单,适合此前就使用hive内部执行是mapreduce,现在想要切换到spark执行的业务团队。

    2. 集成步骤

    2.1. 环境准备

    Spark 2.4.4centos 7.xjdk 1.8mysql 5.7.31 注意先创建一个允许跨ip访问的账号,否则会spark会链接补上mysql进行元数据的读写操作注意,尽量不要使用root用户操作,实际企业生产基本不会使用root账号进行业务操作,权限太高,风险太高

    2.2 集成

    创建mysql账号创建hive-site.xml文件,并将这个文件放入spark安装目录的conf目录下启动mysql服务启动spark 服务启动spark thriftserver sbin/start-thriftserver.sh --master spark://doit01:7077 --executor-memory 2g --total-executor-cores 6 --driver-class-path /root/doit/mysql-connector-java-5.1.49.jar 启动beeline bin/beeline -u jdbc:hive2://doit01:10000 spark 8080端口查看 执行sql查询数据 show databases;

    因为启动了JDBC服务,可以使用代码或者其他客户端连接JDBC服务, 执行sql查询,sql查询最后转换为spark程序运行查看spark 网页端,可以看到这里有2个job,因为使用了排序,所以第一次job是排序需要采样,读取文件;第二个job就是真正的数据处理,中间发生了shuffle,因为需要对数据进行排序处理 结构图 spark集群启动,各个节点向master节点汇报自己的信息(硬件资源等信息)mysql启动,准备对外服务输入start-thriftserver命令,其实就是通过spark submit向spark集群提交了一个application,这时候,master会检查集群中还有哪些资源可以用,安排这个程序进入队列。如果资源足够,就会返回可以执行这个application的worker节点信息,对应executor就会向driver进行反向注册。这时候application就会分发到executor上运行当thriftserver启动之后,其实就相当于对外启动了一个可以通过jdbc连接自己的服务beeline客户端启动,当输入sql语句并提交之后。beeline就会通过jdbc方式连接到thrifserver,并把sql代码提交。driver接收到这些sql代码之后,就会通过sql解析器,优化器,执行器将sql转换为针对dataframe的操作,再转换为针对RDD的操作。中间就是logical plan、anylysed logical plan、pgysical plan等阶段做优化,最后变成可执行的经过优化后的物理计划。最后这些物理执行计划通过DAG scheduler转换为taskset,然后提交给task scheduler。taskscheduler根据任务执行阶段stage,通过序列化将这些task调度给不同的executor执行。最后这些task在不同的executor执行task以及执行结束后,会向driver汇报进度和结果信息。任务完全结束后,driver会把信号告诉master,进行资源回收。
    Processed: 0.010, SQL: 9