大多数互联网用户或多或少都遇到过推荐系统。设想一下,一个朋友向你推荐了一本新书,你随后访问了自己最喜欢的在线书店。输入完这本书的书名后,它出现在了一列返回结果中。网页上可能还有个写着“买了这本书的顾客也会买”的区域,列出另外一些你可能感兴趣的书。如果你是这家在线书店的常客,那么当你登录书店的时候就会自动出现一组个性化推荐。决定哪些书应该展现给哪个特定用户的软件系统就是推荐系统。 用这个在线书店示例来讨论这种软件系统的其他方面也很有用。首先,请注意我们在讨论个性化推荐,换句话说,每个访问者由于其个人偏好不同会看到不同的列表。相对而言,许多其他在线商店或新闻门户提示你的,可能只是它们的畅销商品或热门文章。理论上,可以把这种信息解释为一种客观的购买或阅读推荐,但实际上,不如说是非常热门的书更适合许多用户的兴趣和偏好。尽管《哈利•波特》在2007年热销,但还是有很多人不喜欢看。换句话说,推荐热销商品对这些人没有太大帮助。在本书中,我们将会重点讨论个性化推荐。 提供个性化推荐要求系统知道每个用户的信息。推荐系统必须开发并维护一个用户模型 (user model)或用户记录(user profile)保存用户的偏好。在书店这个例子中,系统可以记住访问者浏览过或买过的书,从而预测他可能感兴趣的其他书。 尽管用户模型对每个推荐系统都很重要,但如何获取并利用这个信息取决于特定的推荐技术。用户的偏好可以通过监测用户行为隐式地获取,也可以由推荐系统询问访问者显式地获取。 这种背景下的另一个问题就是,系统在生成个性化推荐列表时该利用什么样额外的信息。已经应用在许多在线书店里的最著名的方法就是考虑其他用户构成的大规模群体的行为、意见和爱好。系统经常称之为基于群体或协同的方法。 本书分为两部分,反映了推荐研究领域的动态。第一部分总结了几年来被广泛接受的推荐系统方面的研究成果。因此第一部分在内容编排上较规范,介绍了协同过滤推荐(第2章)、基于内容的推荐(第3章)和基于知识的推荐(第4章)以及混合推荐方法(第5章)的基本理论框架。解释推荐一个物品的原因(第6章)和评估推荐结果质量(第7章)的章节也都是基础。第一部分最后是一个实验评估(第8章),比较了移动互联网环境下的不同推荐算法,可以作为进一步研究的实际参考。相对而言,第二部分讨论了推荐领域最近的研究课题,比如如何应对来自外部试图攻击和操纵推荐系统的做法(第9章),支持消费决策和可能的说服策略(第10章),社交和语义网背景下的推荐系统(第11章)和在所有领域应用推荐系统(第12章)。所以第二部分内容可以看做是持续研究的参考内容。 1.1 第一部分:基本概念 1.1.1 协同过滤推荐 这些系统的基本思想是,如果用户在过去有相同的偏好(比如他们浏览或买过相同的书),那么他们在未来也会有相似的偏好。举例来说,如果用户A和用户B的购买经历非常重叠,而且用户A最近买了一本用户B还不知道的书,那么这时基本的逻辑就是向B推荐这本书。由于选择可能感兴趣的书涉及从大量集合中过滤出最有希望的书,而且用户是在隐式地与其他人相互协作,因此这种技术也被称为协同过滤(CF,Collaborative Filtering)。 如今这种系统得到了大量应用,也在过去的十五年中被广泛地研究。我们将在本书的下一章里详细介绍这项根本性的技术以及与协同过滤相关的开放性问题。协同方法背景下的常见问题如下。 如何发现与我们要推荐的用户有着相似偏好的用户? 如何衡量相似度? 如何处理还没有购买经历的新用户? 如果只有很少的评分该怎么办? 除了利用相似的用户之外,还有哪些技术可以用来预测某个用户是否喜欢其物品? 纯粹的协同过滤方法不会利用或要求任何有关物品本身的知识。继续用书店的例子来说,推荐系统不需要知道书的内容、体裁或作者。这种策略显而易见的优势是系统不需要获取并维护这些数据。另外,使用这些特征推荐的书与用户过去喜欢的书确实很相似,这样可能更有效一些。 1.1.2 基于内容的推荐 一般来说,推荐系统有两个目的。一方面,推荐系统被用于激发用户去做某件事情,比如购买一本书或观赏一部电影;另一方面,推荐系统也可以被看做是解决信息过载的工具,因为系统的目标是从大集合里选择最感兴趣的物品。因此,推荐系统研究也深深植根于信息检索和信息过滤领域。这些领域主要强调的是区分相关和不相关的文档(相对于传统电子商务领域的书或数码相机等实物而言)。这些领域的许多技术利用了源于文档内容的信息进行排名。有关基于内容推荐 的章节会讨论这些技术。 基于内容推荐的核心是能够得到物品的描述(不管是人工生成还是自动抽取的)和这些特征的重要记录。如果我们再考虑书店的例子,这些特征可能包括体裁、主题或作者。与物品的描述类似,用户记录也需要自动抽取或“学习”,方法是分析用户的行为和反馈,或者直接询问用户的兴趣和偏好。 在基于内容的推荐中,必须回答如下问题。 系统如何自动获取并持续改进用户记录? 如何决定哪个物品匹配或者至少能接近、符合用户的兴趣? 什么技术能自动抽取或学习物品的描述,从而减少人工标注? 与上面提到的不涉及内容的方法相比,基于内容的推荐有两大优点。首先,不需要大规模用户就可以达到适度的推荐精准度。其次,一旦得到物品的属性就能立刻推荐新物品。在某些领域,这样的物品描述能够自动抽取(比如从文本文档中抽取)或者可以直接取自物品的电子目录。在很多领域,更为主观的物品特征(比如“好用”或“设计精妙”)可能对推荐过程更有用。这些特征通常很难自动获取,必须由人工输入这些信息,而这个过程不仅投入大而且容易出错。 1.1.3 基于知识的推荐 如果把注意力投向其他应用领域,比如消费类电子产品,就会涉及大量的单次购买者。这意味着我们可能无法依赖购买记录,而这可是协同过滤和基于内容过滤方法的前提条件。即便如此,我们还是能够获取到更为精细和结构化的内容,包括专业性的优质特征。 举例来说,数码相机的推荐系统能够帮助最终用户找到一部符合其特殊要求的相机。一般用户每隔几年才会买一部新相机,所以推荐系统不可能构建用户记录或推荐其他人喜欢的相机,这将导致只推荐畅销机型。 此时,系统需要利用额外的因果知识生成推荐。在这种基于知识的方法中,推荐系统通常会用到有关当前用户和有效物品的额外信息(这些信息一般都是人工提供的)。基于约束的推荐就是此类系统的一个例子,我们将在讨论基于知识的推荐方法中提到这点。在数码相机领域,基于约束的系统会用到相机特征的详细知识,比如分辨率、重量或价格。此外,当某些特征与用户相关时,还需要用明确的约束条件来描述情景,比如,如果用户喜欢冲洗大照片,那么高分辨率相机会更有优势。仅仅展现满足已知要求特征的物品是不够的,由于缺少个性化,每个用户(需求特征都是相同的)将会得到相同的推荐集合。因此,基于约束的推荐同样需要维护用户记录。在数码相机方面,系统会询问用户有关特征的相对重要性,比如分辨率是否比重量更重要。 这一章还涵盖了“用户交互”的内容,这是由于在许多基于知识的推荐系统中,用户需求必须通过交互引导得出。再考虑一下之前的书店例子和协同推荐技术,我们发现用户只能和系统以有限的方式交互。实际上,在很多应用中,仅有的交互就是给推荐的物品评分,比如从1到5,或者给出“喜欢/不喜欢”的评价。就说数码相机推荐系统吧,它也需要为首次购买的用户服务。在没有购买记录可以利用的情况下,需要更多复杂的交互方式才能确定用户的需求和偏好。一种简单的方法可能就是直接询问用户的要求,比如最高价、最低分辨率等。然而,这种方法需要对物品的特征有着深入的专业理解,而且在物品特征非常多的时候还会使人不知道怎么选择才好。真正用心设计的交互式方法应该像平常对话一样,在个性化的一问一答中,系统能够摸索出用户的真正喜好。 总体来说,基于知识的推荐系统要解决的问题如下。 哪种领域知识能表示成知识库? 什么机制可根据用户的特点来选择和排名物品? 如何在没有购买记录的领域获取用户信息?如何处理用户直接给出的偏好信息? 哪种交互方式能够用于交互式推荐系统? 设计对话时,要考虑哪些个性化因素才能确保准确获得用户偏好信息? 1.1.4 混合推荐方法 我们已经看到,由于问题背景的不同,目前讨论的方法各有优、缺点。一种显而易见的方法就是组合不同技术产生更好或更精确的推荐(我们以后会讨论什么是“好”推荐)。如果既有群体知识,又可以取得详尽的物品信息,那么把基于内容的技术与协同或社会化过滤技术相混合就能够增强推荐系统的效果。这种设计尤其适用于克服纯粹协同方法的规模膨胀问题,并可依赖内容分析处理新物品或新用户。 在推荐系统中混合使用不同方法时必须回答以下问题,这些问题在这一章中均有涉及。 哪种方法能被组合,特定组合的前提是什么? 两个或多个推荐算法是应该顺序计算,还是采用其他混合方式? 不同方法的结果如何赋以权重,可以动态决定吗? 1.1.5 推荐系统的解释 解释是为了让用户更容易理解推荐系统的推理脉络。这一章概述了如何扩展不同的推荐策略,以便给出产生推荐结果的原因。基于知识的推荐本身就对其计算结果有所解释,因此这一章着眼于对基于约束和基于案例的推荐系统给出解释。此外,这一章还将围绕解释协同过滤结果来解决以下问题。 推荐系统在解释其推荐结果的同时如何提高用户对系统的信任度? 推荐策略如何影响解释推荐的方式? 能通过解释让用户相信系统给出的建议是“公正的”或者不偏颇的吗? 1.1.6 评估推荐系统 推荐系统领域研究的主要推动力是提高推荐质量。随之而来的问题就是,我们如何实际衡量推荐系统所给出建议的质量? 评估推荐系统这章一开始回顾了实验研究的基本准则,并讨论了评估推荐技术的最新进展。在一项小规模调查的基础上,我们特别着重介绍历史数据的实验评估,并提出不同的方法论和衡量标准。 我们也研究了一些替代方法来更好地描述用户体验或系统目标。这些评估方法可以划分为实验、半实验和非实验三种研究设计方案。因此,这一章回答的问题如下。 哪些研究设计适用于评估推荐系统? 如何利用历史数据实验评估推荐系统? 什么衡量标准适合不同的评估目标? 现有评估技术的局限是什么?尤其是在推荐系统的会话性或商业价值方面。 1.1.7 案例研究 本书第一部分的最后一章是一个实验性的在线评估,比较了在移动互联网门户网站上不同个性化和非个性化的推荐策略。这种对商业推荐系统的大规模案例研究的目的是解决以下问题。 推荐系统的商业价值是什么? 它能帮助提高销售额或将更多访问者转化为购买者吗? 不同推荐算法在效果上有差别吗?在哪种情况下应该使用哪种技术? 1.2 第二部分:最新进展 推荐系统现在用到的许多思想和基本技术已经发展了十多年,但这一领域的研究仍然活跃,主要是因为Web本身已经成为我们日常生活必不可少的一部分,而且新的技术还在不断涌现。 因此在本书第二部分我们将会集中介绍当前的研究课题和最新进展。其中要涉及的问题如下。 隐私和鲁棒性。如何阻止恶意用户操纵推荐系统?比如在系统数据库中插入伪造的用户和评分。如何保护用户的隐私? 在线消费决策。哪种消费决策理论更有意义?传统销售渠道总结的经验能否转换到在线渠道,特别是如何在推荐系统中体现这些知识?还有其他技术或新模型能够帮助我们提高推荐服务的商业价值或认可程度吗? 社交和语义网背景下的推荐系统。如何利用用户间已有的信用结构或社交关系提高推荐精准度?语义网技术如何影响推荐算法?推荐系统在Web 2.0中的角色是什么? 无处不在的应用。在移动解决方案领域,目前的技术进展为构建下一代推荐系统准备了哪些条件?无处不在的应用将如何影响推荐算法,比如会更强调上下文情景和环境参数吗?
推荐系统——第一章:引 言
书名: 推荐系统
作者:
出版社: 人民邮电出版社
原作名: Recommender systems:An introduction
译者: 蒋 凡 | Markus Zanker | Alexander Felfernig | Gerhard Friedrich
出版年: 2013-6-25
页数: 244
定价: 59.00元
装帧: 平装
ISBN: 9787115310699