打扫垃圾这个工作不怎么迷人,却可以成就英雄。 不信的话,你可以问一下希腊神话中的英雄——大力神赫拉克勒斯。在赫拉克勒斯的 12 次劳作中,第 5 次的任务就是打扫奥革阿斯国王 (Augeas)的牛棚,那里面住着数千头长生不老的母牛。由于牛棚已经 30 年 没有打扫了,粪秽堆积如山。因此,赫拉克勒斯将两条湍急的河流引来,一 天之内就将牛棚冲洗得干干净净。他的英雄事迹至今仍是世界排污工程史上最伟大的成就之一。 几千年后,类似的传奇故事仍然不绝于耳。这个故事是关于我们的“计 算大力神”沈渊的。谷歌花费了5 年时间,尽情地汇聚知识的力量,快速地 数字化数以百万计的图书。然而,在创造了世界上最大的数字图书“牛棚” 的同时,也不可避免地衍生出了一个副产品——谷歌积累了数量庞大的低质 量数据。有些大数据是脏的。所以,我们是时候该清理“牛棚”了。 阻碍:错漏百出的图书馆卡片目录 最近,你将多少黄金时间耗费在了图书馆的卡片目录上? 卡片目录曾经是图书馆里图书流通的核心。图书馆里的每本书都对应着 一张卡片,上面记录着该书的关键信息,包括书名、作者、主题、出版年份 和用于标识图书位置的编码。每天,来访者源源不断,他们会走向卡片目录 存放柜,然后再根据目录里的信息走向遥远角落里的一排排书架。 如果没有卡片目录,图书馆将杂乱无章,人们也就无法从中获取任何信 息。很多个世纪以来,最重要的图书馆之一 ——梵蒂冈秘密档案馆(Vatican Secret Archive)就处于这种状态。这家档案馆的书架有 83.7 公里长,却缺少一个囊括所有馆藏图书信息的卡片目录。档案馆里面有什么?即使是有权自由访问该档案馆的人,恐怕也说不清楚。如果需要从中找一本书,你就需要了解:谁可能知道书的位置。档案馆里陈列着很多珍贵的手稿,这些手稿可以追溯到 8 世纪,譬如,关于对伽利略进行异端审判的记录。然而,要想从中找出这些珍宝,却无异于是一场探险,或许《夺宝奇兵》中的印第安纳 · 琼斯(Indiana Jones)会想要去进行这样的探险。对于这家档案馆来说,没有卡片目录无疑是一种绝佳的信息保护方式。 对我们而言,和任何其他图书馆用户一样,仅仅拥有查找馆藏图书的权利还远远不够。如果我们想对比一下不同时代和地方的书,还需要准确地找出记录着书的元信息的卡片目录,以便我们了解哪本书是关于什么的,从而在进行自动分析时知道该如何对其进行分类。 起初,我们并没有觉得这是一个大问题。谷歌在收集 1.3 亿本书时,使用的就是来自数百个源头的目录信息。这些年来,各大图书馆的卡片目录都完成了数字化,这是最早受益于数字化的事物之一,原来那些实体卡片通常都被“冷落”了。然而,事实证明,哪怕是最好的卡片目录也会出错。 错误一旦酿成,一般不会很快得到纠正。卡片目录如此之多,即便是最忠实的图书馆用户也不能总是注意到这些错误。有时候,用户也会因此找不到书。在这种情况下,“非礼勿视,非礼勿听,非礼勿言”。有时候,错误出现在诸如图书出版地区之类的地方,但只要编码正确,用户们还是能找到相应的书。在这种情况下,卡片上错误的元信息对于读者而言影响不大,因为关键信息是正确的。 随着时间的推移,众多没有得到纠正的错误从实体卡片目录上迁移到了数字卡片目录上,然后又迁移到了谷歌采集图书时使用的“母目录”上,最后来到了我们这里。和只对某本书感兴趣的人不同,错误对我们影响很大: 我们无法手工检查数百万本书。然而,这些卡片中有相当大一部分含有错误。如果我们使用这个目录元数据来产生 n 元词组表格,最终的结果就会非常糟糕且无法使用。而当我们使用含有错误的目录信息进行计算时,我们发现,隔壁办公室的朋友 16 世纪时就已经很出名了。当我们告诉她这个消息时, 她否定了自己有那么老。要么是她对我们撒了谎,要么是我们的计算出了问题。我们该怎么办? 由于不能手工检查这些书,所以我们决定编写计算机算法以找出可疑的卡片——因某种原因包含了错误信息的卡片。以杂志为例,对于系列出版物 如报纸、学术期刊以及其他期刊,图书馆会将创刊日期放在每一期上。这就 意味着,按照我们的卡片目录检索,每一期的《时代周刊》都出版于 1923 年。 对于我们的研究目的而言,这是一个大问题。 为了解决这些问题,我们编写了一个叫作“系列出版物杀手”(Serial 83 Killer)的算法,它可以找出任何可疑的系列出版物。我们还编写了一个叫作“快速确定日期”(Speed Dater)的算法,查看图书的正文,根据正文推测图书的出版日期。我们将两个算法相结合就可以识别出可疑的卡片以及对应的图书。然后,我们再将这些书从我们的分析中剔除出去。 解决:“清洗”脏数据 最终,2009 年夏天,沈渊将两个算法和他的软件工程经验相结合,将那些愚弄我们的脏数据冲走了。数百万的书被冲到了计算的河流中,数量之 大以至于触发了谷歌的内部报警系统。经过这次传奇般的清洗之后,剩下的 图书只有最初的一小部分了。不过,剩下的数据集在规模和历史跨度上仍然是史无前例的:5 000 亿个词,前后贯穿 5 个世纪,涉及 7 种语言。该数据集中包含的书的数目超过了人类曾经出版过的所有书的 4%。 与清理前的数据集相比,这个大数据集同等重要。它的文本总长度是人类基因组总长度的 1 000 倍,其准确性是人类基因组计划(Human Genome Project)报告的基因序列准确性的 10 倍。 现在,我们输入的文本和卡片目录的元数据都是“干净”的了,它们生成的 n 元词组非常好。我们能够从中清晰地辨识出语言和文化的很多演变规律,例如,从 throve 到 thrived 的变迁,从 telegraph 到 telephone 的进步。从科学层面上讲,只要看一眼 n 元词组数据,你就会对它一见钟情。 告别:互联网巨头的担心 但是,和很多夏日恋情一样,伴随秋日的到来,我们对 n 元词组的爱很 快就面临了秋季障碍。随着沈渊结束了在谷歌的实习,我们在不久之后也从谷歌离开,把数据留在了谷歌的防火墙之内。 我们希望谷歌能将这些数据发给我们。但是,这个互联网巨头并不想这么做。在谷歌看来,n 元词组数据很敏感。律师给出的理由很简单:这个 n 元词组数据集是从 500 万本书的正文中计算出来的。500 万本书对应着将近 5 0 0 万 个 作 者 。如 果 数 据 泄 露 招 致 了 法 律 诉 讼 的 话 ,也 就 对 应 着 5 0 0 万 个 原 告 。 我们在具体设计 n 元词组的数据投影时,就考虑过这个问题。因此,我们当 时选择了统计词的出现频次,而不是记录大段的文字。但是,我们的投影方 式没有在法庭上进行过测试。因此,谷歌的担心也不无道理。 面对世界上最大公司之一的法律部门,我们能打的牌不多。但是,我们 握有 20 亿个 n 元词组,所以不打算就此退却。 契机:史蒂芬 · 平克的名望 我们几乎用光了手中所有的牌。第一张牌是机会,获奖的阿维娃 · 艾登为我们打开了通往谷歌总部的大门。第二张牌是陌生人的友善,彼得 · 诺维格为我们开了绿灯,并愿意和我们合作。我们甚至还电话求助过一个朋友, 他是我们很久没有联系的一位邻居,叫本 · 拜尔(Ben Bayer),曾经是谷歌研究院 ( G o o g l e R e s e a r c h ) 的 “ 时 空 主 管 ”( M a s t e r o f S p a c e a n d T i m e ) — — 这可能是企业历史上最伟大的职务了。但是,我们还有一张王牌没有用过。 我们关于量化历史趋势的每份报告都受到了史蒂芬 · 平克(Steven Pinker)的关注,他是目前还在世的最杰出的科学家之一,也是我们一直敬佩的人。 平克是一位心理学家、语言学家、认知科学家,其研究具有超凡的广度和深度。作为畅销书作者,他具有一种非同寻常的能力,能够从最复杂的问题中清晰地提炼出其本质。例如,有一次,平克参加了一个叫作《科尔伯特 报告》(The Colbert Report)的讽刺类新闻节目。斯蒂芬 · 科尔伯特(Stephen Colbert)问他大脑是如何工作的,并要求其用不超过 5 个词进行回答。平克 想了几秒钟后说:“脑细胞有规律地燃烧。” 让人感到幸运的是,平克的一位拥护者丹 · 克兰西在 2009 年夏天时正好担任整个谷歌图书项目的运营负责人。克兰西的级别很高,他一发话就能让我们从谷歌公司外部访问 n 元词组数据。但是,他非常忙,没有时间顾及我们和我们的小项目。在那个夏天即将结束时,形势变得清晰起来,如果平克愿意出席一个讨论 n 元词组的会议,那么常常神龙见首不见尾的丹 · 克兰西也会抽出时间参加。 于是,我们去找平克。看一看吧,我们已经生成了 20 亿个 n 元词组, 你能帮助我们自由地使用它们吗?平克认为,我们的工作有潜在的应用价值, 所以他答应会出席会议。而克兰西也同意来参加会议。因此我们就有了 30 分钟的时间来说明情况。几年前,平克被《时代周刊》提名为“全世界 100 位最有影响力”的人物之一。随着会议的进行,一切都变好了。对于平克而言, 30 分钟足够他施展魔力了。很快,n 元词组就被派上了用场。那么,名望能 带给你什么?平克的声望带给我们克兰西 30 分钟的时间。虽然不多,但足 够了。 名望的万有引力 名望是蜜蜂, 它会唱歌, 它会叮人, 啊,它还有翅膀。 美国传奇诗人艾米莉 · 狄金森(Emily Dickinson)的这首诗抓住了名望的本质:富于诱惑、充满危险、能给人以提升的空间却又使人难以把握, 等等。人们不禁会想,狄金森应该很了解名望,或许她就是美国最出名的诗人吧! 然而,狄金森和名望并没有直接的关系。她对名望的理解是 出于直觉,而不是源自经历。她一生默默无闻。在狄金森 1886 年去世后差 不多半个世纪,她留下的这首诗才成为人们广泛讨论的话题。 那么,狄金森和名望的这种关系是一个例外,还是一般的规律?人们获 得名望的方式、时间以及原因千差万别,似乎没有规律可循。作为查尔斯王 子和戴安娜王妃的儿子,威廉王子一出生甚至在出生前就非常出名了,因为 他终将会成为英国国王的命运在他尚未出生时就已注定。流行歌手贾斯汀 · 比 伯(Justin Bieber)13 岁时就在 YouTube 上崭露头角,5 年后,他成为谷歌 检索里的“名人”。有时,终生学习会换来一夜成名。当平克的畅销书《语言本能》(The Language Instinct)〇 1 出版时,40 岁的他一下子赢得了全世界的 关注,那时候他已经是美国麻省理工学院的教授了。另外,尽管闻名整个美 国的大厨朱莉娅 · 查尔德(Julia Child)年过 40 时还没有开始学习烹饪,但 是她随后给美国烹饪界带来了革命性的变化,成了全美偶像。 和艾米莉 · 狄金森一样,很多著名人物终生都未能获得名望。凡 · 高生 前几乎没有卖出过一幅画,他的天分至死都未获得认可。修道士哥白尼提 出了“日心说”,他很清楚自己的这一想法非常具有颠覆性,因此他一直等 到临终之时才将其公开发表。很多著名人物得到的都是身后的荣耀。正如 美国南北战争时期的联邦军将领威廉 · 特库姆塞 · 舍曼(William Tecumseh Sherman)所说:“我认为,我明白什么是军事名望,那就是在战场上牺牲或 者在报纸上被拼错名字。” 有些人的出名方式还真的很令人匪夷所思。有一个众所周知的例子,帕 丽斯 · 希尔顿和金 · 卡戴珊这两位美国娱乐界的名媛获得名声的方式是一种 自我实现的预言——因出名而出名。这些人展现出了名望赋予他们的强大万 有引力:他们吸引我们的地方,不仅仅是他们的成就,还有他们的名人身份。 人们虽对名望那么着迷,却对名望本身知之甚少。