这是一本介绍大数据的入门级读物。
文章内容比较匮乏。除去近乎狂热的思想宣传和煽动言词外,仅有的几个案例尚不足以支撑大数据将要颠覆传统信息数据分析的趋势。
比较有意思的是今晚读到139页,关于重组数据的数据创新。作者举例丹麦癌症协会在英国医学杂志上发表的论文。
首先,该研究其实是属于流行病学的生态学研究。指的是在大范围的人群内分析两个变量的关联。是不是和大数据很相似?但其实差别就在于样本量的问题。
所以,其次:本书作者所谓“样本=总体”的概念其实在论文中明确指出并非national的数据,而且从95年开始的研究,时间跨度非常局限,所以根本谈不上是总体内的研究“Their comparison of the present study to the two follow ups (6, 12) however is not appropriate; the current update is based on a linkage of the subscriber cohort and a nationwide cohort on social inequality in cancer, therefore the overall study population is smaller than the whole Danish population, as described in the methods of our paper (1)--来自论文作者对评论的回复“。单从这点,就不足以支撑本书作者援引的论证了。
最后,特别有意思的是这篇文发表在British Medical Journal 的文章《Use of mobile phones and risk of brain tumours: update of Danish cohort study》后续的评论,均指出了这项研究在设计上存在的缺陷。特别是case definition和exposure measurement这两个至关重要元素中存在的致命缺陷。
因为研究者cut-off是设定在1996的:在96年之前注册过使用手机的作为暴露组,没有注册的作为非暴露组。但是非常显然,96年之后使用手机的频率在两组之间可能并不均衡,而且可能存在非暴露组使用的手机放射强度更大的问题。(Note:需要考虑的是经济水平在其中的混杂效应-穷人在96年之前手机使用率低,之后虽然可能与研究的暴露组存在同业的使用率,但是手机质量不得不考虑为一个因素,就像在中国那些不合格的山寨机泛滥,信号不达标一样。)
贴出评论,有兴趣的可以参考一下:http://www.bmj.com/content/343/bmj.d6387?tab=responses
大数据的大泡泡
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692
