大数据[试读]

第1章数据挖掘基本概念

本章为全书的导论部分，首先阐述数据挖掘的本质，并讨论其在多个相关学科中的不同理解。接着介绍邦弗朗尼原理（Bonferroni’s principle），该原理实际上对数据挖掘的过度使用提出了警告。本章还概述了一些非常有用的思想，它们未必都属于数据挖掘的范畴，但是却有利于理解数据挖掘中的某些重要概念。这些思想包括度量词语重要性的TF.IDF权重、哈希函数及索引结构的性质、包含自然对数底e的恒等式等。最后，简要介绍了后续章节所要涉及的主题。 1.1　数据挖掘的定义最广为接受的定义是，数据挖掘（data mining）是数据“模型”的发现过程。而“模型”却可以有多种含义。下面介绍在建模方面最重... 查看全部[ 第1章数据挖掘基本概念 ]

前　　言

本书是在Anand Rajaraman和Jeff Ullman于斯坦福大学教授多年的一门季度课程的材料基础上总结而成的。该课程名为“Web挖掘”（编号CS345A），尽管它已经成为高年级本科生能接受并感兴趣的课程之一，但其原本是一门为高年级研究生设计的课程。本书内容简单来说，本书是关于数据挖掘的。但是，本书主要关注极大规模数据的挖掘，也就是说这些数据大到无法在内存中存放。由于重点强调数据的规模，所以本书的例子大都来自Web本身或者Web上导出的数据。另外，本书从算法的角度来看待数据挖掘，即数据挖掘是将算法应用于数据，而不是使用数据来“训练”某种类型的机器学习引擎。本书的... 查看全部[ 前　　言 ]

译　者　序

这是继2009年翻译完《信息检索导论》之后，我翻译的第二本书。翻译完前一本书之后，我曾经下决心几年之内不再翻译书。这一方面是由于翻译书十分辛苦并且需要花费大量的时间，我怕时间和精力上难以保证。另一方面，书的翻译质量好坏会让有点完美主义倾向的我始终承受着巨大的心理压力。但是，我终究没能经受住诱惑。每次看到优秀的英文原版书籍时，都有尽快翻译成中文和国内同仁分享的冲动。而这次冲动的表现就是，我主动请缨提交试译稿，并有幸被出版社选中而再次开始了翻译的历程。在我的理解体系下，信息检索是一门跨众多学科领域的研究方向，其主要的应用形式包括搜索、推荐和挖掘等三种。如果说先前翻译的《信息检索导论》注重信... 查看全部[ 译　者　序 ]

书名：大数据
作者：
出版社：人民邮电出版社
原作名： Mining of Massive Datasets
副标题：互联网大规模数据挖掘与分布式处理
译者：王斌 | Jeffrey David Ullman
出版年： 2012-9
页数： 258
定价： 59.00元
装帧：平装
ISBN： 9787115291318

大数据[试读]

第1章 数据挖掘基本概念

前 言

译 者 序

第1章数据挖掘基本概念

前　　言

译　者　序