数据科学实战

数据科学实战

现在流行“大数据安全”,到处都是攻击地图biu~biu~biu,全网扫描so~so~so,然而这些都不是真正的大数据。 大数据是指更科学的技术,而不是花哨的界面和数据量变大,需要更精准的方法,这本书是数据科学的入门宝典,内容包括:数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析...

信号与噪声

信号与噪声

《信号与噪声》中涉及如下有趣又值得研究的问题:天气预报说降水概率为60%,你出门会带伞吗?被雷电击中的概率到底有多大?地震发生之前,我们真的无法预测吗?中情局为什么会忽略“9.11”恐怖袭击发生的信号?禽流感为何会突然爆发,又突然消失?为什么大数据时代的预测更容易失败?“信号”是我们想要和需要的事实,比如能帮助我们侦破早期鞋...

大数据存储—MongoDB实战指南

大数据存储—MongoDB实战指南

MongoDB是一种面向文档的分布式数据库,可扩展,表结构自由,并且支持丰富的查询语句和数据类型。时至今日,MongoDB以其灵活的数据存储方式逐渐成为IT行业非常流行的一种非关系型数据库(NoSql)。 本书从学习与实践者的视角出发,本着通俗精简、注重实践、突出精髓的原则,精准剖析了MongoDB的诸多概念和要点。全书共分4个部分,分别从基础...

Storm技术内幕与大数据实践

Storm技术内幕与大数据实践

本书内容主要围绕实时大数据系统的各个方面展开,从实时平台总体介绍到集群源码、运维监控、实时系统扩展、以用户画像为主的数据平台,最后到推荐、广告、搜索等具体的大数据应用。书中提到的不少问题是实际生产环境中因为数据量增长而遇到的一些真实问题,对即将或正在运用实时系统处理大数据问题的团队会有所帮助。 试读下载

Elasticsearch服务器开发

Elasticsearch服务器开发

本书介绍了Elasticsearch这个优秀的全文检索和分析引擎从安装和配置到集群管理的各方面知识。本书这一版不仅补充了上一版中遗漏的重要内容,并且所有示例和功能均基于Elasticsearch服务器1.0版进行了更新。你可以从头开始循序渐进地学习本书,也可以查阅具体功能解决手头问题。 试读下载

HBase企业应用开发实战

HBase企业应用开发实战

本书强调HBase在企业的实际应用,立足于企业的实际生产环境,旨在帮助企业切实解决大数据技术如何落地的问题。三位作者都是奋战在中国大数据技术一线的实践派专家,本书是他们实践经验的结晶。 本书内容在三个维度上具有重要特色:功能维度,从HBase的安装配置、参数设置,到数据模型、表结构设计、客户端使用、高级特性,本书做了系统且详...

实用数据分析

实用数据分析

本书提供了一系列现实中将数据转化为洞察力的案例。书中覆盖了广泛的数据分析工具和算法,用于进行分类分析、聚类分析、数据可视化、数据模拟以及预测。本书的目标是帮助你了解数据从而找到相应的模式、趋势、相互关系以及洞察力。 书中所包括的实用项目充分利用了MongoDB、D3.js和Python语言并采用代码片段和详细描述的方式向读者呈现本书...

Mahout算法解析与案例实战

Mahout算法解析与案例实战

本书是一本经典的Mahout著作,原理与实战并重。不仅全面分析了Mahout算法库中不同模块中的各个算法的原理及其Mahout实现流程,而且每个算法都辅之以实战案例。此外,还包括4个系统级案例,实战性非常强。 全书共11章分为三个部分:第一部分为基础篇(第1~2章),首先介绍了Mahout的应用背景、Mahout算法库收录的算法、Mahout的应用实例,以...

Storm实时数据处理

Storm实时数据处理

在大数据领域,Hadoop无疑是最炙手可热的技术。作为分布式系统架构,Hadoop具有高可靠性、高扩展性、高效性、高容错性和低成本的优点。然而随着数据体积越来越大,实时处理能力成为了许多机构需要面对的首要挑战。Hadoop是一个批处理系统,在实时计算处理方面显得十分乏力。Storm是一个类似于Hadoop的实时数据处理框架,也是一个非常有效的...

大数据管理:数据集成的技术、方法与最佳实践

大数据管理:数据集成的技术、方法与最佳实践

本书是数据集成领域的经典著作,由具有数十年从业经验的资深数据集成专家撰写,数据管理专家作序推荐!它为大数据时代的大中型企业管理企业内部大量的、复杂的应用系统之间的数据提供了解决方案,全面而深入地讲解数据集成的工具、方法、技巧、解决方案以及最佳实践。 本书分为四部分,共22章,高屋建瓴地阐述了在大型组织环境中,不同计算...