《大数据》读后重整理

libisthanks 对大数据的书评发表时间：2012-11-27 12:11:01

     读技术书于我而言就像高中物理老师说的那样：一看就懂、一说就糊、一写就错。为了不马上遗忘昨天刚刚看完的这本书，决定写点东西以帮助多少年之后还有那么一点点记忆。好吧，开写。
     1. 总体来说，数据挖掘时数据模型的发现过程。而数据建模的方法可以归纳为两种：数据汇总和数据特征提取。其中数据汇总主要包括聚类和PageRank，数据特征提取主要包括相似项发现以及频繁项集。
    2. 相似性发现：在大量集合中发现相似的集合。首先将集合表示为集合矩阵的形式，因为集合矩阵的数据量特别大导致可能无法全部放入内存所以需要通过合理的方式压缩数据。解决方案是使用最小哈希签名矩阵来表示集合矩阵（原理和计算见P50-54）。但是即使签名矩阵中的行数得到了压缩，但是因为列数很庞大所以如果每两个集合都进行比较而计算相似度的话计算量依然很庞大。在这里，作者提到了一种局部敏感哈希算法，采用行条化策略，用来构建候选对（P56-57）。使得候选对较少，计算量大幅度下降。上面所述为Jaccard距离的相似性问题，对于余弦距离的相似性问题主要表示为：集合矩阵--->梗概矩阵-->局部敏感哈希算法（行条化策略）
    3. 频繁项集：在购物篮中出现次数大于一定阈值的项对。
        1）基本概念：支持读，可信度
        2）频繁项对发现算法：
             A-priori算法核心：只有i,j都是频繁项，{i,j}才可能是频繁项。
             PCY算法核心：i,j都是频繁项同时{i,j}哈希到一个频繁桶中才可能作为候选频繁相对。
    4. PageRank：V‘ = BMV+（1-B）e/n的迭代。其中B是一个常量，一般选为0.8~1,；M是链接转移矩阵。大数据的应对措施是使用Map-Reduce工具处理。

有用 5 无用 1

您对该书评有什么想说的？

对“《大数据》读后重整理”的回应

criket 2014-05-15 14:38:03

未完待续啊。。。

回应他

《大数据》热门书评

书名：大数据
作者：
出版社：人民邮电出版社
原作名： Mining of Massive Datasets
副标题：互联网大规模数据挖掘与分布式处理
译者：王斌 | Jeffrey David Ullman
出版年： 2012-9
页数： 258
定价： 59.00元
装帧：平装
ISBN： 9787115291318

《大数据》读后重整理

您对该书评有什么想说的？

对“《大数据》读后重整理”的回应

《大数据》热门书评

78有用 78无用黑枪王荣格 2013-01-30

5有用 2无用小凤 2012-10-17

5有用 0无用喜欢晴天的某Z 2015-04-08

5有用 1无用 libisthanks 2012-11-27

3有用 0无用 linglongyouzhi 2013-06-14

《大数据》读后重整理

您对该书评有什么想说的？

对“《大数据》读后重整理”的回应

《大数据》热门书评

78有用 78无用 黑枪王荣格 2013-01-30

5有用 2无用 小凤 2012-10-17

5有用 0无用 喜欢晴天的某Z 2015-04-08

5有用 1无用 libisthanks 2012-11-27

3有用 0无用 linglongyouzhi 2013-06-14

78有用 78无用黑枪王荣格 2013-01-30

5有用 2无用小凤 2012-10-17

5有用 0无用喜欢晴天的某Z 2015-04-08