prince的文章

一、了解HBase

HBase 概述 HBase是[Hadoop][]的生态系统,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通过利用Hadoop的文件系统提供容错能力。如果你需要进行实时读写或者随机访问大规模的数据集的时候,请考虑使...

赞(0)princeprinceHBase 教程 阅读(308)

二十一、Hadoop 参考

Hadoop – 参考 Yahoo教程 细细品味Hadoop HDFS 原理、架构与特性介绍 Hadoop MapReduce开发最佳实践 MapReduce的Shuffle阶段 Hadoop的最佳实践和反模式 Hadoop读split

赞(0)princeprinceHadoop 教程 阅读(275)

二十、Hadoop 监控

Hadoop 监控 Logyarn.log-aggregation-enable=true如果显示错误,则日志存储在节点管理器运行节点上。当聚集启用时所有日志进行汇总,任务完成后转移到HDFS。 Hadoop集群性能监控Ganglia, N...

赞(0)princeprinceHadoop 教程 阅读(264)

十九、Hadoop 配置

Hadoop配置 有两种配置文件: 一种是*_*_-default.xml(只读,默认的配置) 一种是#x662F;__-site.xml(替换default中的配置) core-site.xml 配置公共属性 hdfs-site.xml ...

赞(0)princeprinceHadoop 教程 阅读(236)

十八、Hadoop 安装

Hadoop安装 单节点安装 所有服务运行在一个JVM中,适合调试、单元测试 伪集群 所有服务运行在一台机器中,每个服务都在独立的JVM中,适合做简单、抽样测试 多节点集群 服务运行在不同的机器中,适合生产环境 配置公共帐号 方便主与从进行...

赞(0)princeprinceHadoop 教程 阅读(235)

十七、Hadoop 测试

Hadoop 测试 MRUnit单元测试Mapper和Reducer类在内存上独立运行, PipelineMapReduceDriver单线程运行. LocalJobRunner单线程运行, 且仅有一个 Reducer能够启动conf.se...

赞(0)princeprinceHadoop 教程 阅读(240)

十六、Hadoop IO

Hadoop – IO 1、 输入文件从HDFS进行读取.; 2、 输出文件会存入本地磁盘.; 3、 Reducer和Mapper间的网络I/O,从Mapper节点得到Reducer的检索文件.; 4、 使用Reducer实例从本地磁盘回读...

赞(0)princeprinceHadoop 教程 阅读(232)

十五、Hadoop 编程

MapReduce – 编程 处理 1、 select:直接分析输入数据,取出需要的字段数据即可; 2、 where:也是对输入数据处理的过程中进行处理,判断是否需要该数据; 3、 aggregation:min,max,sum; 4、 g...

赞(0)princeprinceHadoop 教程 阅读(245)

十四、Hadoop Shuffle

MapReduce – Shuffle 对Map的结果进行排序并传输到Reduce进行处理 Map的结果并不#x662F;直接存放到硬盘,而是利用缓存做一些预排序处理 Map会调用Combiner,压缩,按key进行分区、排序等,尽量减少结...

赞(0)princeprinceHadoop 教程 阅读(243)