项目流程

    科技2022-07-12  138

    项目流程:

    技术选型:

    采集数据:Flume      存储平台:HDFS          基础设施:HIVE          运算引擎:SPARK SQL  

    资源调度:YARN      任务调度:AZKABAN   元数据管理:ATLAS

    分层设计:

    ODS层:对应着外部数据源ETL到数仓体系之后的表!

    DWD层:数仓明细层;一般是对ODS层的表按主题进行加工和划分;本层中记录的还是明细数据;

    DWS层:数仓汇总层;

    ADS层:应用层,主要是一些结果报表!

    分层的意义:

    数据管理更清晰!运算复用度更高!需求开发更快捷!便于解耦底层业务(数据)变化!

    分层详解:

    ODS层

    数据内容:存放flume采集过来的原始日志

    存储格式:以json格式文本文件存储

    存储周期:3个月

    DWD层

    数据内容:对ODS层数据做ETL处理后的扁平化明细数据

    存储格式:以orc/parquet文件格式存储

    存储周期:6个月

    DWS层

    数据内容:根据主题分析需求,从DWD中轻度聚合后的数据

    存储格式:以ORC/PARQUET文件格式存储

    存储周期:1年

    ADS层

    数据内容:根据业务人员需求,从DWS计算出来的报表

    存储格式:以ORC/PARQUET文件格式存储

    存储周期:3年

    DIM层

    存储各种维表

    Processed: 0.011, SQL: 8