1 、Hadoop 入门教程
Hadoop 是 Apache 开源组织的一个分布式计算开源框架 (http://hadoop.apache.org/) ,用 java 语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop 框架中最核心设计就是:HDFS 和 MapReduce ,HDFS 实现存储,而MapReduce实现原理分析处理,这两部分是 hadoop 的核心。数据在 Hadoop 中处理的流程可以简单的按照下图来理解:数据通过 Haddop 的集群处理后得到结果,它是一个高性能处理海量数据集的工具 。
(1)、HDSF 文件存儲
(2)、HBASE 非关系型数据库
(3)、MapReduce 离线计算
(4)、hive 数据查询
(5)、spark 内存级别计算
(6)、stom 实时计算
(7)、kafka 消息队列
1.2 HDFS 文件系统
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(largedata set)的应用程序。
HDFS的设计特点:
1、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储。
2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多。
3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。
4、廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。
5、硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。
HDFS的master/slave构架:
一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。Namenode执行文件系统的namespace操作,例如打开、关闭、重命名文件和目录,同时决定block到具体Datanode节点的映射。Datanode在Namenode的指挥下进行block的创建、删除和复制。Namenode和Datanode都是设计成可以跑在普通的廉价的运行linux的机器上。
HDFS的关键元素:
1、 Block:将一个文件进行分块,通常是64M。
2、 NameNode:保存整个文件系统的目录信息、文件信息及分块信息,这是由唯一一台主机专门保存,当然这台主机如果出错,NameNode就失效了。在Hadoop2. 开始支持activity-standy模式—-如果主NameNode失效,启动备用主机运行NameNode。
3、 DataNode:分布在廉价的计算机上,用于存储Block块文件。
1.3 MapReduce 文件系统
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce将分成两个部分”Map(映射)”和”Reduce(归约)”。
当你向MapReduce框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map任务,然后分配到不同的节点上去执行,每一个Map任务处理输入数据中的一部分,当Map任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。
步骤1:首先对输入数据源进行切片
步骤2:master调度worker执行map任务
步骤3:worker读取输入源片段
步骤4:worker执行map任务,将任务输出保存在本地
步骤5:master调度worker执行reduce任务,reduce worker读取map任务的输出文件
步骤6:执行reduce任务,将任务输出保存到HDFS