面试题-SparkSQL

    科技2024-12-20  6

    SparkSQL01

    1、sparksql和sparkcore cache策略的区别 DataSet默认缓存策略:MEMORY_AND_DISK 绿在:InMemoryTableScan sparksql cache 是eager的,sparkcore是lazy的 sparksql uncache是eager的,sparkcore是eager的

    语法 cache table tablename uncache table tablename

    spark.table("tablename").cache 是lazy的 val df = spark.sql("select * from emp") df.cache() // lazy df.show() // 这才在storage里有效

    2、从1.5,cache变成一个eager的算子 3、dataframe1.3版本出来的,dataset是1.6版本出来的

    SparkSQL03

    1、外部数据源API从哪个版本提出? 1.2 2、hadoop和aws做兼容,哪个版本开始的? 3、2.X之前,入口点是sqlContext、HiveContext,2.X后合并到SparkSession 3、spark.read.format 实现原理。加分点

    Processed: 0.034, SQL: 8