1.Hadoop 发展历史
1.1 Hadoop 产生背景
Hadoop 最早起源于Nutch。Nutch是一个开源的网络搜索引擎,始于2002年,Nutch的设计目标是构建一个大型的全网搜索引擎,包括抓取网页,索引,查询等,但是随着数据量的增加,遇到了扩展问题。直至2003年google发表了一篇关于google的文件系统GFS,该论文描述了google搜索引擎网页数据的存储架构,该架构解决了Nutch遇到的问题,随即实现了自己的分布式文件系统,即NDFS(此间google只是开源思想,但并未开源代码),到了2004年的google的另一篇论文MapReduce:simplified data processing on large cluster ,震惊世界,该论文描述了分布式计算的框架,但也只是开源思想,并不开源代码,Nutch的开发人员靠自己完成了实现,由于NDFS和MapReduce 的成功,2006年Nutch的开发人员,随即将其移出Nutch,成为Lucene的子项目,称为Hadoop(据说是Doug Cutting儿子的玩具大象的名字),随着Hadoop的发展,2008年,Hadoop已经成为Apache基金会的顶级项目,也促生了Hadoop 家族其他项目的发展。