大数据生态系统

科技2024-08-22 99

大数据：历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题

新技术：传统方式与技术无法处理大量、种类繁多的数据，需要新的技术解决新的问题。

技术人员：有了问题，有了解决问题的技术，需要大量懂技术的人解决问题。

最佳实践：解决问题的方法，途径有很多，寻找最好的解决方法。

商业模式：有了最好的解决办法，同行业可以复用，不同行业可以借鉴，便形成了商业模式。

新技术

HADOOP HDFS: 海量数据存储。 YARN: 集群资源调度。 MapReduce: 历史数据离线计算。 Hive:海量数据仓库。 Hbase:海量数据快速查询数据库。 Zookeeper:集群组件协调。 Impala:是一个能查询存储在Hadoop的HDFS和HBase中的PB级数据的交互式查询引擎。 Kudu:是一个既能够支持高吞吐批处理，又能够满足低延时随机读取的综合组件 Sqoop:数据同步组件（关系型数据库与hadoop同步）。 Flume :海量数据收集。 Kafka:消息总线。 Oozie:工作流协调。 Azkaban: 工作流协调。 Zeppelin: 数据可视化。 Hue: 数据可视化。 Flink:实时计算引擎。 Kylin: 分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析。 Elasticsearch: 是一个分布式多用户能力的全文搜索引擎。 Logstash: 一个开源数据搜集引擎。 Kibana: 一个开源的分析和可视化平台。

SPARK SparkCore:Spark 核心组件 SparkSQL:高效数仓SQL引擎 Spark Streaming: 实时计算引擎 Structured: 实时计算引擎2.0 Spark MLlib:机器学习引擎 Spark GraphX:图计算引擎

Processed: 0.023, SQL: 9