Hadoop中Shuffle过程

2019-02-12

在进行分布式计算的时候，Shuffle过程分别发生在Map和Reduce阶段，本文将细致分析Shuffle过程中设计到的多个操作。

Hadoop中MapReduce执行流程详解

2019-02-12

MapReduce是一种适合处理大量数据的编程模型。Hadoop能够运行用各种语言编写的MapReduce程序：Java，Ruby，Python和C++。MapReduce程序本质上是并行的，因此对于使用群集中的多台机器执行大规模数据分析非常有用。

2019-02-12

在Hadoop中，经常会出现Block和Split这两个关键词，这两个词分别表示什么？他们之间又存在什么关系？接下来将一一解答。

2019-02-12

Hadoop分布式文件系统(HDFS)是分布式计算中数据存储管理的基础。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

2019-02-12

本文主要介绍HDFS的常用命令，以及通过其提供的Java API来操作HDFS。