读技术书于我而言就像高中物理老师说的那样:一看就懂、一说就糊、一写就错。为了不马上遗忘昨天刚刚看完的这本书,决定写点东西以帮助多少年之后还有那么一点点记忆。好吧,开写。
1. 总体来说,数据挖掘时数据模型的发现过程。而数据建模的方法可以归纳为两种:数据汇总和数据特征提取。其中数据汇总主要包括聚类和PageRank,数据特征提取主要包括相似项发现以及频繁项集。
2. 相似性发现:在大量集合中发现相似的集合。首先将集合表示为集合矩阵的形式,因为集合矩阵的数据量特别大导致可能无法全部放入内存所以需要通过合理的方式压缩数据。解决方案是使用最小哈希签名矩阵来表示集合矩阵(原理和计算见P50-54)。但是即使签名矩阵中的行数得到了压缩,但是因为列数很庞大所以如果每两个集合都进行比较而计算相似度的话计算量依然很庞大。在这里,作者提到了一种局部敏感哈希算法,采用行条化策略,用来构建候选对(P56-57)。使得候选对较少,计算量大幅度下降。上面所述为Jaccard距离的相似性问题,对于余弦距离的相似性问题主要表示为:集合矩阵--->梗概矩阵-->局部敏感哈希算法(行条化策略)
3. 频繁项集:在购物篮中出现次数大于一定阈值的项对。
1)基本概念:支持读,可信度
2)频繁项对发现算法:
A-priori算法核心:只有i,j都是频繁项,{i,j}才可能是频繁项。
PCY算法核心:i,j都是频繁项同时{i,j}哈希到一个频繁桶中才 可能作为候选频繁相对。
4. PageRank:V‘ = BMV+(1-B)e/n的迭代。其中B是一个常量,一般选为0.8~1,;M是链接转移矩阵。大数据的应对措施是使用Map-Reduce工具处理。
《大数据》读后重整理
对“《大数据》读后重整理”的回应
《大数据》热门书评
-
作为一个从业二十年的屌丝,本屌真心被这本书吓尿了!
78有用 78无用 黑枪王荣格 2013-01-30
麻烦支那猪以后翻译外文书籍,先找个稍微懂行的把书看一遍行吗!鉴于中文翻译缩水不准的情况,本掉千辛万苦找来英文原版,一看到目录,本屌就硬了,尼玛作者太牛逼了!最新补充一句,话说如果这本书的名字叫做类似《数据挖掘基础》的话,本屌绝壁不喷它。本来就是基础的基础,名字介绍扯那么大旗子干嘛,又没那本事。MAP...
-
译者王斌老师对这本书的导读建议
5有用 2无用 小凤 2012-10-17
《大数据:互联网大规模数据挖掘与分布式处理》导读建议:一、此为算法书,需要一定算法基础,非科普书,一般人读起来不会那么顺畅,需要努力啃读。二、此书并非虚幻的大数据概念书,直接关注大数据的规模对算法应用造成的实际问题。三、在应用背景方面,本书也没有完全展开,所以对应用有了解较好。...
-
本书需要配合课程进行学习
5有用 0无用 喜欢晴天的某Z 2015-04-08
看到好多人说这本书是大纲,是目录,没啥内容,讲的浅。那就对了。本书是MIT CS246课程MMDS使用的讲义,还有配套的Slides和HW,所以观看本书请配套课程进行学习,同时coursera上也有配套的课程。See more detail: http://www.mmds.org/...
-
《大数据》读后重整理
5有用 1无用 libisthanks 2012-11-27
读技术书于我而言就像高中物理老师说的那样:一看就懂、一说就糊、一写就错。为了不马上遗忘昨天刚刚看完的这本书,决定写点东西以帮助多少年之后还有那么一点点记忆。好吧,开写。 1. 总体来...
-
希望翻译水平提上去
3有用 0无用 linglongyouzhi 2013-06-14
从总体安排来看,书的结构还是不错的。没看过英文的,但是中文版的行文真的不好,磕磕绊绊看了一半以后实在是没有兴趣看后面的了。之前了解的pagerank看了以后了解了,之前不了解的adwords还是不了解,...
书名: 大数据
作者:
出版社: 人民邮电出版社
原作名: Mining of Massive Datasets
副标题: 互联网大规模数据挖掘与分布式处理
译者: 王斌 | Jeffrey David Ullman
出版年: 2012-9
页数: 258
定价: 59.00元
装帧: 平装
ISBN: 9787115291318