我在 David J. DeWitt 和 Michael Stonebraker 的文章《MapReduce: 一个大步退步
》中发现了一篇有趣的帖子。
对于那些不熟悉 MapReduce 的人来说,它是由 Google 开发的一个用于在极大规模数据集上分布式计算的程序模型。您可以在 这里 阅读Google最初的论文。
这篇文章的作者提出了一些很好的观点,其中大部分都集中在数据良好定义的结构和抽象的重要性。虽然我确实同意其中的一些观点,但很难忽视 MapReduce 的简单和有效性。毕竟,它目前正在每天处理200PB的数据。