如今是一个数据爆炸的时代,个人的图片、视频、文档等数据很容易就可达到数百GB的规模,而企业的数据规模增长得更快,以互联网搜索引擎公司为例,往往需要存储爬虫获取的所有站点的原始网页数据,同时还需要记录数以亿计网民的搜索点击行为及日志等重要数据,这些数据的规模可以达到PB,甚至是EB级别。为了解决这些数据的存储和相关计算问题就必须构建一个强大且稳定的分布式集群系统来作为搜索引擎的基础架构支撑平台,但是对大多数的互联网公司而言,研发一个这样的高效能系统往往要支付高昂的费用。然而值得庆幸的是Google在2004年公布了关于其基础架构的两篇核心论文GFS(The Google File System)和MapReduce(MapReduce:SimplifiedData Processing on Large Clusters),正是这两篇论文奠定了Hadoop的理论和实践基础,而后顶级工程师Doug Cutting将Google的GFS分布式文件系统和MapReduce并行计算模型实现且命名为Hadoop,并将Hadoop开放源代码贡献给开源世界。经过多年的发展,如今已经形成了以Hadoop为核心的大数据生态系统,开创了通用海量数据处理基础架构平台的先河。
Hadoop核心技术 (大数据技术丛书) EPUB, PDF, MOBI, AZW3, TXT, FB2, DjVu, Kindle电子书免费下载。