SparkSQL01
1、sparksql和sparkcore cache策略的区别 DataSet默认缓存策略:MEMORY_AND_DISK 绿在:InMemoryTableScan sparksql cache 是eager的,sparkcore是lazy的 sparksql uncache是eager的,sparkcore是eager的
语法 cache table tablename uncache table tablename
spark.table("tablename").cache 是lazy的
val df = spark.sql("select * from emp")
df.cache() // lazy
df.show() // 这才在storage里有效
2、从1.5,cache变成一个eager的算子 3、dataframe1.3版本出来的,dataset是1.6版本出来的
SparkSQL03
1、外部数据源API从哪个版本提出? 1.2 2、hadoop和aws做兼容,哪个版本开始的? 3、2.X之前,入口点是sqlContext、HiveContext,2.X后合并到SparkSession 3、spark.read.format 实现原理。加分点