Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。这是一本专门介绍Spark的图书,旨在教会读者利用Spark构建实用的数据科学解决方案。 本书内容包括14章,由浅入深地介绍了数据科学生态系统、数据获取、输入格式与模式、探索性数据分析、利用Spark进行地理分析、采集基于链接的外部数据、构建社区、构建推荐系统、新闻词典和实时标记系统、故事除重和变迁、情感分析中的异常检测、趋势演算、数据保护和可扩展算法。 本书适合数据科学家以及对数据科学、机器学习感兴趣的读者阅读,需要读者具备数据科学相关的基础知识,并通过阅读本书进一步提升Spark运用能力,从而创建出高效且实用的数据科学解决方案。
精通Spark数据科学(用Spark构建商业级数据科学解决方案) EPUB, PDF, MOBI, AZW3, TXT, FB2, DjVu, Kindle电子书免费下载。
安德鲁·摩根(Andrew Morgan)是数据战略及其执行方面的专家,在支持技术、系统架构和实现数据科学方面拥有丰富的经验。他在数据行业拥有20多年的经验,曾为一些久负盛名的公司及其全球客户设计系统——通常是大型、复杂和国际性的项目。2013年,他创办了数据科学和大数据工程咨询公司ByteSumo,目前在与欧洲和美国的客户进行合作。Andrew是一位活跃的数据科学家,也是趋势演算(TrendCalculus)算法的发明者。该算法是他为自己的研究项目而开发的,该项目旨在研究基于机器学习的长期预测,这些预测可以在不断变化的文化、地缘政治和经济趋势中发现规律。他还是Hadoop Summit EU数据科学委员会的成员,并在许多会议上就各种数据主题发表过演讲。他也活跃于他的居住地伦敦的数据科学和大数据社区。 安托万·阿门德(Antoine Amend)是一位对大数据工程和可扩展计算充满热情的数据科学家。这本书的主题是“折腾”天文数字量级的非结构化数据以获得新的见解,这主要源于Antoine的理论物理学背景。他于2008年毕业并获得天体物理学硕士学位。在Hadoop的早期阶段,在大数据的概念普及之前,他曾在瑞士的一家大型咨询公司工作。从那时起,他就开始接触大数据技术。现在他在巴克莱银行担任网络安全数据科学部门的主管。通过将科学方法与核心IT技能相结合,Antoine连续两年获得了在得克萨斯州奥斯汀举行的大数据世界锦标赛决赛资格。他在2014年和2015年都名列前12位(超过2 000多名竞争对手),这两次比赛中他还使用了本书介绍的方法和技术赢得了创新奖。 大卫·乔治(David George)是一位杰出的分布式计算专家,拥有超过15年的数据系统从业经验,主要服务于全球闻名的IT咨询机构和品牌。他很早以前就开始使用Hadoop核心技术,并做过大规模的实施。David总是采用务实的方法进行软件设计,并重视简约中的优雅。 如今,他继续作为首席工程师为金融行业客户设计可扩展的应用,并满足一些较为严苛的需求。他的新项目侧重于采用先进的人工智能技术来提高知识产业的自动化水平。 马修·哈利特(Matthew Hallett)是一名软件工程师和计算机科学家,拥有超过15年的从业经验。他是一名面向对象的“专家级程序员”和系统工程师,拥有丰富的底层编程范式知识。在过去的几年里,他在Hadoop和关键业务环境中的分布式编程方面积累了丰富的专业知识,这些环境由数千节点的数据中心组成。Matthew在分布式算法和分布式计算体系结构的实施方面拥有多种语言的咨询经验,目前是“四大审计公司”数据科学与工程团队的数据工程师顾问。