HDFS简介
HDFS (分布式文件系统) 是整个hadoop体系的基础,负责数据的存储与管理。HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
HDFS (分布式文件系统) 是整个hadoop体系的基础,负责数据的存储与管理。HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
Hadoop 是 Apache 开源组织的一个分布式计算开源框架 (http://hadoop.apache.org/) ,用 java 语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop 框架中最核心设计就是:HDFS 和 MapReduce ,HDFS 实现存储,而MapReduce实现原理分析处理,这两部分是 hadoop 的核心。数据在 Hadoop 中处理的流程可以简单的按照下图来理解:数据通过 Haddop 的集群处理后得到结果,它是一个高性能处理海量数据集的工具 。
(1)、HDSF 文件存儲
(2)、HBASE 非关系型数据库
(3)、MapReduce 离线计算
(4)、hive 数据查询
(5)、spark 内存级别计算
(6)、stom 实时计算
(7)、kafka 消息队列
MapReduce (分布式计算框架)是一种基于磁盘的分布式并行批处理计算模型,用于处理大数据量的计算。其中Map对应数据集上的独立元素进行指定的操作,生成键-值对形式中间,Reduce则对中间结果中相同的键的所有值进行规约,以得到最终结果。
Jobtracker:master节点,只有一个,管理所有作业,任务/作业的监控,错误处理等,将任务分解成一系列任务,并分派给Tasktracker。
Tacktracker:slave节点,运行 Map task和Reduce task;并与Jobtracker交互,汇报任务状态。
Map task:解析每条数据记录,传递给用户编写的map()函数并执行,将输出结果写入到本地磁盘(如果为map—only作业,则直接写入HDFS)。
Reduce task:从Map 它深刻地执行结果中,远程读取输入数据,对数据进行排序,将数据分组传递给用户编写的Reduce()函数执行。
(1)、各种版本hadoop
(2)、根据版本进行选择bin的内容进行覆盖(支持windows 运行的工具)将bin目录(包含以下.dll和.exe文件)文件替换原来hadoop目录下的bin目录
右键单击我的电脑 –>属性 –>高级环境变量配置 –>高级选项卡 –>环境变量 –> 单击新建HADOOP_HOME和编辑环境变量path如下图
Spring Cloud Ribbon是一个基于HTTP和TCP的客户端负载均衡工具,它基于Netflix Ribbon实现。通过Spring Cloud的封装,可以让我们轻松地将面向服务的REST模版请求自动转换成客户端负载均衡的服务调用。集中式负载均衡。
(1)、application.properties文件
1 | spring.application.name=springbootConsumerRibbon |
Feign是Netflix公司开源的轻量级rest客户端,使用Feign可以非常方便的实现Http 客户端,省去了RestTemplate。Spring Cloud引入Feign并且集成了Ribbon实现客户端负载均衡调用。
(1)、 启动类添加@EnableFeignClients注解,Spring会扫描标记了@FeignClient注解的接口,并生成此接口的代理对象
(2)、@FeignClient(value = “springbootService”, fallback=ServiceFallback.class) 即指定了生产者的服务名称,Feign会从注册中心获取生产者服务列表,并通过负载均衡算法进行服务调用。
(3)、在接口方法 中使用注解@RequestMapping(value = “/service/hello”),指定调用的url,Feign将根据url进行远程调用。
tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true