随着互联网信息时代的到来,海量数据的处理成为了人类面临的一大难题。但有了MapReduce的出现,这个问题似乎被很好地解决了。
MapReduce是由Google公司于2004年开发出来的分布式处理框架,能够高效地处理大规模数据,并将任务封装成易于使用的API。之所以这么高效,是因为MapReduce将数据分成若干块,分而治之,让每个节点同时处理一小块数据。在处理完后,数据再进行汇总,最后得到最终结果。
MapReduce所处理的数据可以是数十亿行的文本数据、千万量级的Web 页面数据、数百万行的日志数据或者是分布式文件系统上的数百亿字节的数据。在业界中,MapReduce这个词已经被广泛应用了,尤其是在Hadoop等开源大数据处理框架中。
除了效率高之外,MapReduce 还有一个很大的优点:它容错性非常好。如果某个节点宕机,任务可以自动重新分配到其他节点上执行。
总之MapReduce已经成为了大数据时代下的处理利器,它的出现也极大地促进了大数据技术的发展。