Spark SQL 集成Hive（二）

科技2025-07-06 61

Spark SQL 集成Hive（二）

1. 背景

Hive可以看做是一个转换器，将SQL转换为mapreduce或者spark程序Spark SQL也可以看成一个转换器，将SQL转换为spark程序Hive集成Spark SQL有几种集成方式，一种是直接使用Spark SQL替代Hive，SQL是Spark SQL，程序转换也是Spark 程序，唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种另外一种集成方式就是SQL还是hive，但执行引擎变成了Spark。这种集成也比较简单，适合此前就使用hive内部执行是mapreduce，现在想要切换到spark执行的业务团队。

2. 集成步骤

2.1. 环境准备

Spark 2.4.4centos 7.xjdk 1.8mysql 5.7.31 注意先创建一个允许跨ip访问的账号，否则会spark会链接补上mysql进行元数据的读写操作注意，尽量不要使用root用户操作，实际企业生产基本不会使用root账号进行业务操作，权限太高，风险太高

2.2 集成

创建mysql账号创建hive-site.xml文件，并将这个文件放入spark安装目录的conf目录下启动mysql服务启动spark 服务启动spark thriftserver sbin/start-thriftserver.sh --master spark://doit01:7077 --executor-memory 2g --total-executor-cores 6 --driver-class-path /root/doit/mysql-connector-java-5.1.49.jar 启动beeline bin/beeline -u jdbc:hive2://doit01:10000 spark 8080端口查看执行sql查询数据 show databases;

因为启动了JDBC服务，可以使用代码或者其他客户端连接JDBC服务，执行sql查询，sql查询最后转换为spark程序运行查看spark 网页端，可以看到这里有2个job，因为使用了排序，所以第一次job是排序需要采样，读取文件；第二个job就是真正的数据处理，中间发生了shuffle，因为需要对数据进行排序处理结构图 spark集群启动，各个节点向master节点汇报自己的信息（硬件资源等信息）mysql启动，准备对外服务输入start-thriftserver命令，其实就是通过spark submit向spark集群提交了一个application，这时候，master会检查集群中还有哪些资源可以用，安排这个程序进入队列。如果资源足够，就会返回可以执行这个application的worker节点信息，对应executor就会向driver进行反向注册。这时候application就会分发到executor上运行当thriftserver启动之后，其实就相当于对外启动了一个可以通过jdbc连接自己的服务beeline客户端启动，当输入sql语句并提交之后。beeline就会通过jdbc方式连接到thrifserver，并把sql代码提交。driver接收到这些sql代码之后，就会通过sql解析器，优化器，执行器将sql转换为针对dataframe的操作，再转换为针对RDD的操作。中间就是logical plan、anylysed logical plan、pgysical plan等阶段做优化，最后变成可执行的经过优化后的物理计划。最后这些物理执行计划通过DAG scheduler转换为taskset，然后提交给task scheduler。taskscheduler根据任务执行阶段stage，通过序列化将这些task调度给不同的executor执行。最后这些task在不同的executor执行task以及执行结束后，会向driver汇报进度和结果信息。任务完全结束后，driver会把信号告诉master，进行资源回收。

Processed: 0.021, SQL: 8