Hadoop中Shuffle过程

2019-02-12

在进行分布式计算的时候,Shuffle过程分别发生在Map和Reduce阶段,本文将细致分析Shuffle过程中设计到的多个操作。

Read More

Hadoop中MapReduce执行流程详解

2019-02-12

MapReduce是一种适合处理大量数据的编程模型。Hadoop能够运行用各种语言编写的MapReduce程序:Java,Ruby,Python和C++。MapReduce程序本质上是并行的,因此对于使用群集中的多台机器执行大规模数据分析非常有用。

Read More

HDFS基础架构

2019-02-12

Hadoop分布式文件系统(HDFS)是分布式计算中数据存储管理的基础。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

Read More