hadoop是什么?
1、hadoop是apache旗下的一款项目 2、解决了大数据集的存储和计算分析 3、使用java编写的,所以可以跨平台 4、开源的 5、运行在廉价的机器上,机器宕机是常态 ,容错度高 6、利用集群的cpu并发计算,性能好
hadoop的核心模块
1、command:hadoop框架的通用模块 2、hdfs:hadoop的分布式存储文件系统,用于存储大数据集 灵感来自于《GFS》 3、mapreduce:hadoop的分布式计算分析框架,提供了移动计算而非移动数据的思想,并发计算,性能好 灵感来自于《MapReduce》 4、yarn:hadoop的作业调度与资源管理框架(cpu,内存,磁盘等)
hadoop完全分布式的安装
1、jdk,hadoop安装好 2、环境变量,主机映射(hosts),静态ip,主机名 3、ssh免密登录 4、时间同步 5、修改hadoop的配置文件 (1)core-site.xml (2)hdfs-site.xml (3)mapre-site.xml (4)yarn-site.xml (5)hadoop-env.sh (6)yarn-env.sh (7)slaves 6、安装完毕之后克隆,或者将文件scp到其他机器 7、格式化namenode 8、启动即可