数据挖掘技术——第二章数据挖掘在营销和客户关系管理中的应用

数据挖掘在营销和客户关系管理中的应用数据挖掘技术并非存在于真空之中，它们与业务上下文息息相关。尽管这些技术自身都很有趣，但是它们终究只是一种工具。本章将介绍业务上下文。本章首先描述客户生存周期(customer lifecycle)，以及与每一阶段相关联的业务流程。正如贯穿本章始终所描述的，客户生存周期的每个阶段都为客户关系管理和数据挖掘提供了机会。客户生存周期是中心主题，因为数据挖掘所支持的业务流程都围绕该生存周期来组织。本章解决的业务主题所涉及的客户关系复杂度大致会逐渐升高：以潜在客户开始，接着是已建立的客户关系，最后以保留(retention)和赢回(winback)结束。在讨论业务应用的过程中，本章会介绍相关的技术资料，但特定数据挖掘技术的详细信息将留待后续章节介绍。 2.1 两个客户生存周期术语“客户生存周期”有两种不同的意思——客户的个人生存周期，或者客户关系的生存周期。从数据挖掘的观点来看，后者通常更为重要。 2.1.1 客户个人生存周期客户，无论他们是个人、家庭或者企业，都会随着时间推移而发生变化。自从创业者创建公司之后，有些会成为收购的目标；有些会独立地持续增长。其中大部分公司最终会以失败而告终。个人生存周期是以生活事件而标记，例如高中毕业、有了孩子以及找工作等等。这些不同的生活阶段对于市场和客户关系管理而言非常重要。例如，搬家是一项重大事件。当人们搬家时，他们可能会购买新家具、订阅当地报纸和开设一个新的银行账户等。了解到谁正在搬家对于把他们定为营销目标非常有用，其中对于家具商、报纸、有线电视公司和银行而言尤为重要，特别是在搬家之后的几天或几周之内。对于其他生活事件而言同样如此，从要高中毕业和大学毕业，到要结婚、有孩子，换工作和退休等。了解这些生活阶段将使公司能够定义与特定人群产生共鸣的产品和信息。一些企业正是围绕特定的生活阶段而构建的。一家婚礼商店专注于结婚礼服，这种业务要获得增长不是依靠女性更加频繁的结婚，而是通过声誉和推荐来实现。类似地，搬家公司不必鼓励他们的近期客户搬迁，他们需要的是招揽新客户。对于大多数企业而言，客户的个人生存周期相对不那么重要。在任何情况下，基于生活阶段管理客户关系都非常困难，因为： ● 及时地识别事件是一项挑战。 ● 许多事件都是一次性的或者非常罕见的。 ● 生活阶段事件通常不可预测或超出控制能力。无论如何，这些缺点并不会致使这些生活阶段无用，因为它们对于理解客户可能的需求非常关键。然而，大多数业务过程都是围绕着另一个不同的生存周期——客户关系的生存周期——而组织。 2.1.2 客户关系生存周期与客户的业务关系会随着时间演变。虽然每个业务各自不同，但是客户关系都将客户分为5个主要阶段，如图2-1所示： ● 目标市场的潜在客户，但还不是客户。 ● 响应者是那些表现出一定兴趣的潜在客户——例如，通过填写申请单或者在网站上注册表示兴趣。 ● 新客户是已经作出承诺的响应者，通常是一项支付协议，例如已经完成第一次购买，已经签订合同，或者已经在网站中注册一些个人信息。 ● 已建立的客户是返回的新客户，他们是关系有望扩大或加深的对象。 ● 前客户是那些已经离开的客户，他们或者是自愿流失(因为他们流失到竞争对手那里或不再能发现产品的价值)，强制流失(因为他们没有支付账单)，或者是预期流失(因为他们不再在目标市场；例如，因为他们已经搬家了)。图2-1 客户生存周期在不同阶段的进展这些阶段的精确定义都取决于业务。对于一个e-media(电子媒体)网站而言，潜在客户可能是Web上的每个人；响应者是访问该网站的人；新客户是已经注册的人；而已建立的客户则是重复的访问者。前客户是那些在一定时间内未返回的人，该时间取决于站点的性质。对于其他业务而言，这些定义可能会完全不同。例如，人寿保险公司有一个目标市场。响应者是那些填写了一种申请单的人——然后往往对他们会抽血进行血液检查。新客户是那些被接受的申请者，而已建立的客户是那些为保险付款支付保险费的人。 2.1.3 基于订阅的关系和基于事件的关系客户生存周期关系的另一个维度是在每次交互中保持不变的承诺。考虑下列成为电话公司客户的方式： ● 在公用电话上(如果您还能找到的话！)打电话。 ● 购买一张可打一定分钟数的预付费电话卡。 ● 购买一部预付费移动电话。 ● 购买一部带不定期合同的延后支付移动电话。 ● 购买一部带合同的移动电话。前三个示例是基于事件的关系。后两个示例是基于订阅的关系。下面将更详细地探讨这些关系的特点。提示：不间断的账单关系是不间断订阅关系的一个好迹象。这种不间断的客户关系提供了在商业活动过程中与客户进行对话的机会。 1. 基于事件的关系基于事件的关系是基于事务的。客户可能返回，也可能不返回；随着时间的推移，追踪客户可能会很困难或者根本不可能。在之前的示例中，电话公司对客户可能根本就没有太多的信息，当客户采用现金支付时尤为如此。匿名事务仍然包含信息，但是，显然没有什么机会直接向未提供任何联系信息的客户发送信息。当基于事件的关系占主导时，公司通常通过广播信息与潜在客户进行通信(例如，广告、网站广告、病毒式营销，等等)，而不是把特定的个人作为目标发送信息。在这些情况下，分析工作非常集中于产品、地理和时间，因为这些是在客户事务中所能了解的信息。广播广告不是抵达潜在客户的唯一方式。通过邮件或在Web上分发优惠券是另一种方式。美国的制药公司已经非常善于鼓励潜在客户访问它们的网站以获得更多信息——与此同时，公司将会收集他们的一些信息。同时，许多公司采用Web和社交网络与其他匿名客户通信。有时，基于事件的关系意味着具有中间人的企业对企业关系。制药公司再次提供了一个示例，因为它们的许多营销预算是花在医生，而不是购买药物的病人之上。 2. 基于订阅的关系基于订阅的关系为了解客户提供了更为自然的机会。在早期所给出的列表中，最后两个示例都具有不间断的账单关系，其中客户已经同意为一段时间的服务支付费用。订阅关系为未来的现金流(未来的客户付款流)提供了机会，并且为与每个客户的交互提供了许多机会。基于订阅的关系可能采取账单关系的形式，但是它们也可能采取零售亲和卡(retailing affinity card)或在网站注册的形式。在某些情况下，账单关系是某种类型的订阅，其没有为追加销售(up-sell)或交叉销售(cross-sell)提供空间。已经订阅了杂志的客户几乎可能没有机会扩展关系。其实还有某个机会。杂志客户可以购买一个礼物订阅或者购买名牌产品。然而，未来的现金流非常取决于目前的产品结构。在其他情况下，不间断的关系只是一个开始。信用卡公司会每个月邮寄一张账单；然而，没有费用则没有亏欠。长距离的提供商可能会每个月向客户收费，但它可能只是每月的最低限额。一个编目员(cataloger)向客户发送目录，但是大部分的客户不会购买。在这些示例中，使用激励(usage stimulation)是关系的一个重要部分。关系的开始和结束是定义基于订阅关系的两个关键事件。当这些事件明确定义时，生存分析(见第10章)是一种了解关系持续期的好的候选方式。但是，有时定义关系的结束会很难：警告：定义一个客户关系的结束可能会很困难。不同的定义会产生不同的模型，而且有时候会导致不同的结论。在定义目标变量之前，在关系何时被认为结束方面达成共识。 ● 信用卡关系可能当一个客户收支不平衡，并且在指定的时限(如3个月或6个月)内没有产生事务时结束。 ● 目录关系可能当一个客户在指定时限(如18个月)内没有从目录中购买时结束。 ● 亲和力卡关系可能当一个客户未在指定的时限(如12个月)内使用该卡时结束。即使充分理解了关系，可能还会出现一些棘手的局面。关系的结束日期应该是客户打电话取消的日期还是账户关闭的日期？对于未成功支付其最后账单的客户，在自动请求终止服务之后，是否应该与因为滞纳而被停止的客户等同视之？这些情况被作为理解客户关系的指导方针。图2-2针对报纸订阅客户的简单案例，制定了客户体验的不同阶段。基本上，这些客户具有以下类型的交互行为： ● 通过一些渠道开始订阅 ● 更改产品(工作日更改为7天、周末更改为7天、7天更改为工作日、7天更改为周末) ● 暂停交付(通常是因为休假) ● 抱怨 ● 停止订阅(无论是自愿或非自愿) 在基于订阅的关系中，通过收集所有这些不同类型的事件，从而形成客户关系的一张图，使得随着时间的推移，理解客户成为可能。图2-2 报纸订户的(简化)客户体验，包括几种不同类型的交互 2.2 围绕客户生存周期组织业务流程业务流程将客户从客户生存周期的一个阶段转移到另一个阶段。这些业务流程非常重要，因为它们将使得客户随着时间推移而更具价值。本节将介绍这些不同的流程以及数据挖掘在其中所起的作用。 2.2.1 客户获取客户获取(Customer Acquisition)是吸引潜在客户，并把他们转化为客户的过程。这通常是通过广告、口碑以及有针对性的营销来完成的。数据挖掘能够并且确实在获取过程中发挥了重要作用。关于获取有三个重要问题：潜在客户是谁？何时获取一个客户？数据挖掘的作用是什么？ 1. 潜在客户是谁了解潜在客户非常重要，因为信息应该针对适当的受众。使用历史数据的挑战之一是潜在客户可能会随着时间而变化： ● 地理上的扩张会带来潜在客户，他们可能与也可能不与原始地区的客户类似。 ● 更改产品、服务以及价格可能带来不同的目标受众。 ● 竞争可能会改变潜在客户的结构。这些类型的状况可能会带来以下问题：过去是对未来的一个好的预测器(predictor)吗？在大多数情况下，答案是“是的”，但是必须对过去明智地加以利用。下面的故事举例说明了一个必须注意的情况。在纽约地区，一家公司在曼哈顿已经拥有大量的客户基础，并希望把它扩大到郊区。它已经针对曼哈顿完成了直接邮寄活动，并根据这些活动的响应者建立了模型集(model set)。这个故事的重要之处在于曼哈顿的富裕居民社区具有较高的浓度(concentration)，因此该模型集会向富人偏置。正如预期，响应者比周围地区的潜在客户更加富有。然而，非响应者同样更加富有。当模型扩展到曼哈顿以外的地区时，该模型会选择什么地区？它选择一些最富有的社区，因为这些地区的人在人口统计上看起来与在曼哈顿的响应者类似。尽管在这些地区有良好的潜在客户，该模型错过了许多其他的潜在客户，这一点可以通过使用邮件中的对照组(本质上，它们是名字的随机抽样)来发现。具有较高响应率的地区为富有的地区，但是并非与用于构建模型的曼哈顿社区一样富有。警告：当把响应模型从一个地理区域扩展到另一个区域时要小心。结果可能会给出更多类似的人口信息，而非响应信息。 2. 何时获取客户通常获取客户有一个基本过程，该过程的细节取决于特定行业，但一些一般性的步骤如下： ● 客户以某种方式在某个日期响应。这是“销售”日期。 ● 在一个基于账号的关系中，创建该账户。这是“账户开设日期”。 ● 以某种方式使用该账户，这是“激活日期”或“第一次购买日期”。有时，所有这些事情会在同一时间发生。混乱也屡屡发生——错误的信用卡号、拼写错误的地址以及客户反悔等。结果是好几个日期都可能作为获取日期。假设所有这些有关的日期都可用，那么最好使用哪一个呢？这取决于业务需求。在直接邮寄空投或电子邮件轰炸之后，检查响应曲线以了解响应预计何时会发生将很有趣，如图2-3所示。针对此目的，销售日期是最重要的日期，因为它表明了客户行为，而问题正是针对客户行为。图2-3 三次直接邮寄活动对应的响应曲线表明，80%的响应来自五六个星期之内不同的问题可能会有不同的答案。例如，为了比较不同组的响应率，账户设立日期可能更为重要。那些注册了一次“销售”，但是从未开设账户的潜在客户应从这种分析中排除。 3. 数据挖掘的作用是什么可用的数据限制了数据挖掘可以发挥的作用。响应模型用于诸如直接邮寄和电话销售之类的渠道，其中联系的成本相对较高。因此，目标是将联系限制为更有可能做出响应并成为优质客户的潜在客户。可用于这一努力的数据分为三类： ● 潜在客户源 ● 额外的个人或家庭数据 ● 附加的地理级别的人口统计数据(典型的有人口普查或人口普查组) 这里的目的是要从数据挖掘的角度讨论潜在客户。概述一个典型的获取策略将是一个好的开始。使用电子邮件、直接邮寄或出站(outbound)电话销售的公司会购买清单(list)。一些清单在以往表现很好，所以会完全使用它们。对于其他清单，可能使用建模来确定联系哪些潜在客户。当人口统计信息在家庭级可用时，可能会基于这些附加人口统计信息建模。当这些人口统计信息不可用时，可能使用社区人口统计信息，而不是在不同的模型集合中选择。在构建用于客户获取的数据挖掘模型时，回声效应(echo effect)(也称为光环效应)是一个挑战。可能通过某一种渠道抵达潜在客户，但是其通过另一个渠道做出响应。公司向一组潜在客户发送电子邮件，其中有些人可能不会单击该电子邮件中的链接，而是通过电话响应。潜在客户可能收到广告信息或直接邮件，但是通过网站进行响应。或者，广告宣传活动可能会鼓励在相同时间内通过几种不同的渠道进行响应。图2-4显示了一个回声效应示例，展示了两个渠道——入站电话(inbound call)和直接邮寄之间的相关性。图2-4 回声效应可能导致人为地低估或高估渠道的性能，因为通过一个渠道激发的客户可能归功于另一个渠道 2.2.2 客户激活激活过程可能像客户在网站上填写注册表一样简单。也可能会涉及更为冗长的审批过程，如信用检查。甚至可能会更加繁杂，例如在寿险公司的示例中，其在设置比率之前需要进行一次保险业测验。一般而言，激活是一种业务流程，更多的是关注业务需求而非分析需要。作为一种业务流程，客户激活可能看起来与数据挖掘无关。激活提供了一个新客户在其启动时的视图。这种视角非常重要，而且作为一种数据源，需要对其进行维护。初始条件和随后的变化都很有趣。提示：客户激活提供客户关系的初始条件。这样的初始条件对于预测客户的长期行为通常会很有用。激活过程常常被描绘成一个漏斗，如图2-5所示，尽管一个过滤器堆栈可能是一个更贴切的比喻。从漏斗顶部倒入的一切最终都将从底部流出。对于潜在客户而言并非如此。图2-5 客户激活过程漏斗会在激活过程中的每个步骤消减响应者该图阐明了一家报纸送货上门订户的激活过程。它具有下列步骤： (1) 销售。一个潜在用户表示有兴趣获得订阅，通过Web、电话或者邮件中的响应卡提供地址和支付信息。 (2) 订单。创建一个账户，其中包括对地址和支付信息的初步核查。 (3) 订阅。报纸实际上是物理交付，需要进一步核实地址和特别的交货说明。 (4) 付费订阅。客户支付该份报纸。每个步骤都将失去一些客户，也许仅有几个百分点，也许会更多。例如，信用卡可能会无效、失效日期不合适，或者提供的地址不匹配。客户可能生活在交付区域以外。交付员可能不了解特别的交货说明。地址可能是在一个不允许访问的公寓楼内。其中大多数都是基于操作考虑(而例外是客户是否会支付)，它们说明了客户激活所涉及的不同类型的操作关注以及过程。数据挖掘可以在理解客户是否按照其合理的方式移动中发挥作用——或者哪些特征会导致在客户激活阶段失败。这些结果可以帮助改进业务流程。通过强调带来销售但还没有转换为付费订阅的策略，它们还可以为客户获取提供指导。对于与Web相关的业务，客户激活通常是——虽然并非总是——花费少量时间的自动处理过程。当它正常运转时，不会存在问题。尽管激活阶段的时间很短，但是它是客户获取流程的关键部分。当其失效时，则会失去潜在的有价值客户。 2.2.3 客户关系管理客户关系管理系统的主要目标是提高客户价值。这通常包括以下活动： ● 追加销售(up-selling)。使客户购买高端产品和服务。 ● 交叉销售(cross-selling)。拓宽客户关系，例如使客户除书籍之外，还购买CD、机票和汽车等。 ● 使用激励(usage stimulation)。确保客户再次消费；例如，通过确保客户看到更多的广告或使用信用卡更多地消费。 ● 客户价值计算。为每个客户指定一个预期价值。对于提供许多产品和服务的公司而言，一种危险是不能获得正确的信息。客户并不一定想要选择，他们可能只想要简单。让客户在接二连三的营销沟通中发现他们感兴趣的内容，说明在信息传递方面做得很糟糕。因此，向每个客户重点介绍其可能会感兴趣的少数几个产品的信息将会非常有用。当然，每个客户都具有不同的潜在设置。数据挖掘在发现这些关系方面发挥了关键的作用。数据挖掘在了解业务的操作方面也可以发挥作用。第21章包含一个案例研究，讨论一个大型的卫星电视提供商如何结合结构化和非结构化的呼叫中心数据来发现一个与其业务系统相关的性能问题。正如挖掘评论文本之后所确定的，特定主题的呼叫花费了太长时间而不能解决。这个问题与服务代表无关，而是因为用来解决特定问题类型的系统反映迟钝而导致的。客户关系管理系统中一个最重要的部分也许就是保留客户。这是预测模型最常应用的领域之一。保留客户有两种方法。第一种是比较很短时间就离开的客户与保持时间很长的客户。第二种方法是生存分析(见第10章)，其直接建模客户的保留时间。 2.2.4 赢回即使客户已经离开，仍有可能将他们吸引回来。赢回(winback)就是试图这么做，具体操作方法是向有价值的前客户提供激励措施、产品以及价格促销等。赢回往往比数据分析更加依赖于业务策略，但是数据挖掘可能在确定客户为什么会离开方面发挥作用，尤其是当客户服务投诉和其他行为的数据可以纳入模型集时。第21章介绍一个案例研究，其识别由于抵制而离开一家媒体公司的客户。显然，对于这些客户的赢回策略不同于其他客户。有些公司具有专门的“拯救团队(save team)”。客户在离开之前，将必须与一个接受过留住客户培训的人沟通。除了努力留住客户之外，拯救团队还将完成另一项跟踪客户离开原因的工作——这些信息对于未来的客户保留工作非常有价值。试图把不满的客户吸引回来相当困难。因此，更重要的工作是一开始就向他们提供有竞争力的产品、有吸引力和有用的服务，以尽量留住他们。 2.3 数据挖掘应用于客户获取对于大多数企业而言，地球上70亿左右的人中只有很少一部分是真正的潜在用户，大部分将根据地理、年龄、偿还能力、语言，或者产品或服务的需要而排除在外。对于提供房屋净值信贷额度的银行，它们会自然地把该服务限定为在银行所注册运行的辖区内的房屋所有者。一家出售后院秋千装置的公司会希望得到有孩子且很可能有后院的家庭的信息。一本杂志的目标将是会阅读适当的语言，并且其广告商会感兴趣的人。数据挖掘可以在发现潜在客户方面扮演多种角色。其中最重要的是： ● 识别好的潜在客户。 ● 为抵达潜在客户选择通信渠道。 ● 对不同的潜在客户群挑选合适的信息。虽然所有这些都很重要，但是第一个—— 即识别好的潜在客户—— 得到了最广泛的实施。 2.3.1 识别好的潜在客户好的潜在客户的最简单定义是那些至少表示有兴趣成为客户的人，这一定义被许多公司所采用。更复杂的定义要求会更高。真正好的潜在客户不仅有兴趣成为客户而且他们有条件成为客户，他们将会是有价值的客户，他们不太可能会欺诈公司，并且可能会支付账单，如果处理得好，他们将会是忠实的客户并会推荐其他客户。无论潜在客户的定义多么简单或复杂，第一个任务就是发现他们。无论是通过广告或是通过诸如邮件、电话或电子邮件等更直接的渠道发送信息，目标对象很重要。在某种程度上，甚至广告牌上的信息也是定向的；航空公司和租车公司的广告牌往往会出现在指向机场的高速公路上，使用这些服务的人很可能会是驶向机场的客户。应用数据挖掘，首先定义什么是好的潜在客户，然后寻找规则把满足这些特征的人群作为营销目标。对于许多公司而言，使用数据挖掘识别好的潜在客户的第一步是构建一个响应模型。本章稍后会深入讨论响应模型，它们的各种使用方式，以及它们能做什么和不能做什么。 2.3.2 选择通信渠道潜在客户需要通信。广义地说，公司会有意以几种不同的方式与潜在客户进行通信。一种方法是通过公共关系，即鼓励媒体介绍公司的故事并通过口碑传播正面的信息。虽然这种方法对有些公司高度有效(如Facebook、Google和eBay)，但是公共关系并非直接的营销信息。正如本书第21.6.3一节中所介绍的，即使是在这里，数据挖掘也可以提供帮助。从数据挖掘的观点来看，更有趣的是广告和直接营销。广告可以采用任何形式，从火柴盒封面到广告词，从商业网站的赞助商链接到重大体育赛事期间的电视节目以及电影中的产品放置等。在这方面，广告基于共同特点定位目标人群；然而，许多广告媒介不能对个体定制信息。 2.3.3 挑选适当的信息即使是售卖同样的基础产品或服务，不同的信息也只适合不同的人。一个典型的例子是权衡价格和便利程度。有些人对价格很敏感，他们愿意在仓库购物，在深夜打电话，以及不断更改飞机以获得更好的交易。而有些人则愿意支付额外的费用以获得最便捷的服务。基于价格的信息不仅不能激发寻求便利者，而且还有把他们引向获利较少的产品的风险，即使他们乐意支付更多。 2.4 数据挖掘示例：选择合适的地方做广告定位潜在客户的方法之一是寻找类似于当前客户的人。通过调查，一个全国性的出版物明确其读者具有以下特征： ● 59%的读者受过大学教育。 ● 46%具有专业或行政职务。 ● 21%的家庭收入超过75 000美元/年。 ● 7%的家庭收入超过10万美元/年。了解该剖析将在两个方面帮助出版社：首先，通过把符合该剖析的人作为潜在客户，可以提高自身宣传工作的响应率。第二，受过良好教育、高收入的读者可以用来向想要抵达这类客户的公司销售杂志上的广告空间。由于本节的主题是目标潜在客户，让我们看看该杂志如何使用剖析来加强其定位潜在客户的工作。基本思想非常简单：当该杂志想要在电台中做广告时，它应该寻找听众匹配该剖析的电台；当它想要放置布告牌时，它应该在匹配该剖析的社区这么做；当它想要进行呼出电话营销时，它应该呼叫匹配该剖析的人。数据挖掘的挑战在于对“匹配剖析”是指什么做一个好的定义。 2.4.1 谁符合剖析确定客户是否符合剖析的方法之一是度量客户和剖析之间的相似度——也称作距离。数据中包括了表示订阅者在特定时间的一个快照的调查结果。什么样的度量适合这种数据呢？剖析是以百分比的形式表示(58%是大学教育；7%超过10万美元)，但是对于个人而言，要么是大学教育，要么不是大学教育；收入要么超过10万美元，要么不超过10万美元，对于这种情况应如何处理呢？考虑两个受访者。艾米受过大学教育，赚80 000美元/年，并且是一个专业人士。鲍勃是一个高中毕业生，挣50 000美元/年。哪个人更匹配读者剖析？答案取决于如何作比较。表2-1显示了一种用来打分的方法，其仅仅使用剖析和一个简单的距离度量。表2-1 通过比较个人与每个人口统计学度量计算个人的匹配值读者 “是”得分 “否”得分艾米鲍勃艾米得分鲍勃得分大学教育 58% 0.58 0.42 是否 0.58 0.42 专业或行政 46% 0.46 0.54 是否 0.46 0.54 收入>$75K 21% 0.21 0.79 是否 0.21 0.79 收入>$100K 7% 0.07 0.93 否否 0.93 0.93 总计 2.18 2.68 这个表基于读者符合每个特征的比例计算分数。例如，因为58%的读者是大学教育，所以艾米这一特性得分0.58。而鲍勃没有从大学毕业，获得分数为0.42，因为其他42%的读者没有从大学毕业。继续对每个特征如此处理，并且把这些分数累加在一起。艾米最后得分为2.18，而鲍勃得分更高一点为2.68。他的得分更高反映出，相比艾米而言，他与目前读者的剖析更相似。这种方法的问题在于，虽然鲍勃看起来比艾美与这个剖析更相似，但是艾米看上去更像是该杂志的真正目标读者——即受过大学教育、个人收入较高的人。这一定位的成功显然是比较了读者剖析与美国整个人口的特征。与整体人口相比，读者受过更好的教育、更专业，获得更高的薪资。在表2-2中，“指数(Index)”列比较了读者特征与整个人口特征，它是将具有特定属性的读者比例除以整个人口中具有该特征的比例。读者中受过大学教育的比例大约是整个人口中该比例的三倍。类似地，他们没有接受大学教育的比例大约只有整个人口中该比例的一半。通过使用指数作为每个特征的得分，艾米得分8.42 ( 2.86 + 2.40 + 2.21 + 0.95 )，而鲍勃得分只有3.02 ( 0.53 + 0.67 + 0.87 + 0.95 )。基于指数评分更好地反应了该杂志的目标受众。新的得分更有意义，因为它们现在结合了额外的信息，即目标受众与美国整个人口的不同。表2-2 通过考虑在整个人口中的比例计算分数是否读者美国人口指数读者美国人口指数大学教育 58% 20.3% 2.86 42% 79.7% 0.53 专业或行政 46% 19.2% 2.40 54% 80.8/% 0.67 收入>$75 K 21% 9.5% 2.21 79% 90.5% 0.87 收入>$100K 7% 2.4% 2.92 93% 97.6% 0.95 人口普查域数据美国政府宪法规定每10年执行一次人口普查。人口普查的主要目的是为了分配每个州在众议院的席位。在满足这一任务的过程中，对美国人口的普查还提供了丰富的信息。即使在非普查年，美国人口普查局( www.census.gov )也通过问卷的方式调查了美国人口，其中包含了详细的问题，诸如收入、职务、上下班的习惯、消费模式和其他更多的信息等。对这些调查表的响应为人口的剖析提供了基础。人口普查局不发布个人信息，而是对小的地理区域的信息进行聚合。最常用的是人口普查域(census tract)，平均约包含4000位个人。虽然人口普查域大小不一，但是它们在人口上比其他的地理单元(如县和邮政编码)更一致。人口普查有更小的地理单元、块(block)和块组(block group)；为了保护居民的隐私，不提供人口普查域级别之下的一些数据。利用这些单元，可以分别根据国家、州、都市统计区(metropolitan statistical area，MSA)、立法区等聚合信息。下图显示了一些曼哈顿中心的人口普查域：营销的哲学之一是基于一个古老的谚语“有羽毛的鸟会聚在一起(物以类聚)”。具有类似兴趣和品味的人会生活在类似的区域(无论是自愿或是因为历史的歧视模式)。根据这一思想，向您已有客户所在的地区以及类似的地区进行营销是一个好主意。人口普查资料对于了解客户浓度(concentrations)所在位置以及确定相似地区的剖析都非常有价值。提示：比较客户剖析时，需要铭记整体人口的剖析非常重要。因此，使用指数往往比使用原始值表现更好。 2.4.2 度量读者群的适应度基于指数打分所蕴含的思想可以扩展到更大的人群。这很重要，因为用于度量人口的特征可能不是对每个客户或潜在客户有效。幸运的是，前述特征都是可以通过美国人口普查获得的人口统计特征，并且可以通过地理区来度量，如人口普查域、邮政编码、县和州等(参阅补充内容“人口普查域数据”)。目标是根据每个普查域与该杂志的适应度对其进行打分。例如，如果有一个普查域的成年人口58%受过大学教育，那么其中的每个人都将因为这一特性得到1分。如果100%是大学教育，那么比分仍然是1——这是您能做的最完美适应度。但是，如果只有5.8%从大学毕业，那么这一特征的适应度得分降为0.1。整体的适应度得分是个体得分的平均。图2-6阐明了补充内容所提及的三个曼哈顿的人口普查域。每个域都有四个正在考虑的特征的不同比例，它们将结合起来得到每个域的整体适应度得分。得分表示那一个域符合剖析的人口比例。图2-6 计算三个曼哈顿人口普查域的读者适应度示例 2.5 数据挖掘改进直接营销活动广告可以用来抵达对其个人信息一无所知的潜在客户。直接营销需要至少有一小部分额外的信息，例如名称和地址、电话号码或电子邮件地址。信息越多，则数据挖掘的机会就越多。最起码，数据挖掘可以通过选择联系人来改进目标市场选择(targeting)。第一级目标市场选择并不需要数据挖掘，而只需要数据。在美国，存在相当多的人口数据。在许多国家，各种公司会编译和出售家庭级别的数据，包括各种各样的内容，诸如收入、孩子数量、教育程度，甚至业余爱好等。其中一些数据是从公共记录中收集的。房屋购置、婚姻、生育和死亡都属于公共记录的范畴，它们可以从县法院和证书注册表中收集。其他的数据可以从产品注册表单中收集。其中有些数据是使用模型估算得出的。该数据用于商业目的的规则会因国家的不同而发生变化。在某些国家，可以出售带地址的数据，但不能带姓名。在其他国家，数据可能只能用于某些批准的用途。在一些国家，数据使用的限制较少，但只覆盖了有限数量的家庭。在美国，有些数据(如医疗记录)是完全不可用的。而有些数据，如信用记录，只能用于某些批准的用途。其余许多数据则不受限制。警告：在商业上可用的家庭数据的范围以及对使用它们有相对较少的限制方面，美国都是不同寻常的。尽管许多国家提供了家庭数据，但是使用不同的规则。对于跨界转移个人数据有特别严格的规则。在计划使用家庭数据进行营销之前，需要熟悉使用它们的法律限制。基于诸如收入、汽车的所有权或有孩子之类的信息，可以首先直接使用家庭级别的数据对群组进行粗粒度的划分。问题在于，即使应用了明显的筛选器，相对于可能会做出响应的潜在客户数量，剩余池可能依然非常大。因此，数据挖掘的一个主要应用是目标市场选择——发现最有可能实际响应的潜在客户。 2.5.1 响应建模通常，直接营销活动的响应率只有很低的个位数。通过识别更有可能对直接征求进行响应的潜在客户，响应模型可用于提高响应率。最有用的响应模型会提供一个实际的响应似然(likelihood of response)估计，但并非严格要求如此。任何模型只要能够根据响应似然对潜在客户排序就够了。给出一个排序列表，直接市场营销人员可以通过邮寄或呼叫列表顶部附近的人，提高活动所能抵达的响应者比例。以下部分描述了该模型得分可以用来改进直接营销的几种方法。这些讨论独立于用来生成得分的数据挖掘技术。本书中的许多数据挖掘技术都可应用于响应建模。根据直接营销协会(Direct Marketing Association，一个行业协会)，通常一次10万封邮寄活动的成本约为10万美元，虽然价格会根据邮寄的复杂度而变化很大。其中一些费用，如开发创造性的内容、准备艺术品以及初始打印设置等，独立于该次邮寄的规模。其余的费用会直接根据邮寄的邮件数量而变化。已知邮件订单响应者或积极的杂志订阅者的邮件列表可以在“每千个姓名的价格”的基础上购买。邮件的车间生产成本和邮费都可以在类似的基础上收费。邮寄规模越大，固定成本将变得越不重要。为便于计算，本章的示例假设直接邮寄活动抵达一个人的费用是一美元。这并非一种不合理的估计，虽然简单邮件的成本较低而独特邮件的成本较高。 2.5.2 优化固定预算的响应利用模型得分的最简单方法是使用它们来指定排名。根据响应倾向评分对潜在客户排名之后，可以对潜在客户列表进行排序，从而使那些最可能响应的潜在客户位于该列表的顶部，而那些最不可能响应的位于列表底部。许多建模技术可用于生成响应评分，其中包括回归模型、决策树和神经网络。每当没有足够的时间和预算达到所有的潜在客户时，对潜在客户列表进行排序就有意义。如果必须排除某些人，那么应该留下最有可能响应的那些人。并非所有的业务都必须排除潜在客户。一个当地的有线电视公司可以考虑城里的每个家庭都是一个潜在客户，而且它有能力一年内联系所有的家庭好几次。当营销计划要求针对每个潜在客户而努力时，则不太需要响应模型！然而，数据挖掘仍然可能用于选择适当的信息和预测潜在客户可能的行为方式。更可能的场景是，营销预算不允许对每个潜在客户采取相同级别的花费。考虑一家公司Simplifying Assumptions Corporation(SAC)的潜在客户列表上有100万个姓名，其在某次营销活动中的预算是30万美元，其中每次联系的成本是1美元。这家公司可以通过响应模型对潜在客户列表打分，并向顶端30万个得分所对应的潜在客户发送优惠品，以最大化30万美元支出所能获得的响应数目，如图2-7所示。图2-7 累积收益或浓度图显示了使用模型的收益上层的曲线画出了浓度，即随着包括在活动中的潜在客户越来越多而获得的所有响应者的比例。其中直对角线是用于比较。它表示没有模型时会发生什么，此时浓度不是根据渗透率(penetration，联系的潜在客户的百分比)变化的函数。邮寄到随机选择的30%的潜在客户将会发现30%的响应者。利用该模型，邮寄到顶部30%的潜在客户将会发现65%的响应者。浓度对渗透率的比称为提升(lift)。这两条线之间的差异就是收益(benefit)。收益和提升将在补充内容中讨论。此处画出的模型在第三个十分位值(decile)处提升了2.17。利用模型，SAC在支出30万美元时获取的响应者将两倍于随机联系30%的潜在客户。收益和提升累积收益图表(参见图2-7)通常是用来讨论提升的。提升度量了浓度与渗透率的关系。如果人口中的响应者是10%，但是根据模型挑选的一组中响应者为20%，则提升为2。提升是在给定潜在客户列表的深度时比较两种模型性能的一种有用方法。然而，它未捕获另一个概念，在观察图时其直观上看起来很重要—— 即两行相距多远，以及在哪个渗透率它们分离得最远？统计人员Will Potts将浓度和渗透率之间的差异命名为收益。根据他的术语，差异最大的点称为最大收益点。注意最大收益点并不对应最高提升点。通常，提升在浓度图的左边获得最大化，此时浓度最高且曲线的斜率最陡峭。最大收益与每类累积概率分布函数之间的最大距离成正比在渗透率最大的位置分割潜在客户列表的模型得分，同样也是最大化Kolmogorov- Smirnov(KS)统计的得分。KS测试在一些统计员中颇受欢迎，尤其是在金融服务行业。它用于测试两个分布是否不同。在最大化收益的点处划分潜在客户列表将形成“好的列表”和“坏的列表”，其中响应者的分布最大限度地彼此分离。在这种情况下，“好的列表”中响应者的比例最大，而“坏的列表”中比例最小。浓度曲线上最大收益点反映了相应的ROC曲线和无模型线之间的最大垂直距离 ROC曲线(详见第5章的描述)，类似于更为熟悉的浓度或累积收益图表，因此它们之间有关系并不令人惊讶。ROC曲线显示了在两种类型的误分类(misclassification)错误之间的权衡。在累计收益图中的最大收益点对应了ROC曲线上类之间分离最大的点。最大收益点反映了最大化敏感性(sensitivity)和特异性(specificity)无加权平均值的决策规则如同医疗世界所使用的，敏感性度量了基于测试的诊断正确的似然性。它是在测试中获得阳性结果的人中是真阳性的比例。换句话说，它是真阳性除以真阳性和假阳性的和。特异性是在测试中获得阴性结果的人中是真阴性的比例。一个好的测试应该既是敏感的又是特异的。最大收益点是最大化这两种度量平均值的割点(cutoff)。假设误分类成本与目标类的发生率成反比，最大收益点反映了一个最小化预期损失的决策规则评价分类规则的方法之一是为每种类型的误分类指定成本，并基于该成本比较规则。无论他们是否代表响应者、不遵守规则者、黑客或具有某种特殊疾病的人，罕见的案例通常是最令人感兴趣的，因此错过其中一个案例比误分类一个常见案例的代价更高。根据这种假设，最大化收益会挑选一个好的分类规则。 2.5.3 优化活动收益率毫无疑问，活动的响应率翻倍是一个理想的结果，但是它真正的价值是多少呢？甚至活动是否有盈利？虽然提升是比较模型的一种有用方法，但是它并没有回答这些重要问题。为了处理收益率，需要更多的信息。特别是，关于收益率需要收入以及成本信息。让我们对SAC示例添加一些更详细的信息。 SAC公司以单一价格出售一款单一产品。该产品的价格是100美元。SAC制造、库存以及分发产品的费用总额是55美元。前面已经提到，它要抵达潜在客户的成本是1美元。现在有足够的信息来计算响应的价值。每个响应的毛收入是100美元。每个响应的净值在考虑与响应相关的费用( 55美元货物成本，1美元的联系成本)之后，获得每个响应的净收益为44美元。信息概述如表2-3所示。表2-3 SAC公司的损益矩阵邮寄响应是否是 $44 -$1 否 $0 $0 此表说明，若联系上一个潜在客户并且其响应，则该公司赚44美元。如果联系上一个潜在客户，但是没有响应，则该公司损失1美元。在这个简化的示例中，没有在选择不联系潜在客户时的成本和收益。一个更复杂的分析可能会考虑到这样的事实：存在不联系潜在客户的机会成本，其可能已经响应过，甚至非响应者也可能因为联系，而通过提高品牌意识成为更好的潜在客户，并且这种响应者可能比单次购买所表明的客户具有更高的生存周期值。这个简单的损益矩阵可用来将活动的响应转换成利润图。忽略活动开销的固定成本，如果每44个潜在客户未响应之后会有1个响应，则该活动就会保本。如果响应率比它要高，则该活动有利可图。警告：如果把失败的联系成本设置得太低，则损益矩阵会建议联系每个人。对于其他理由而言，这可能不是一个好主意。它可能会导致接二连三地向潜在客户提供不适当的优惠。一个更复杂的活动收益率分析会考虑该活动的启动成本、整个人口中的基本响应率，以及所联系人群的截止渗透率(cutoff penetration)。回顾一下，SAC的预算为300 000美元。假设整个人口中基本的响应率为1%。预算足以联系30万潜在客户，或者潜在客户池中的30%。在30%的深度时，该模型会提供的提升大约为2 ，所以SAC可以预期响应者的数量为它没有使用模型时的两倍。在这种情况下，两倍意味着2%而不是1%，获得6000个( 2% ×300 000 )响应者，其中每个人值净收入44美元。根据上述假设，SAC从响应者处获得600 000美元的毛额以及264 000美元的净额。与此同时，98%的潜在客户或者294 000个潜在客户没有响应。其中每个人的成本为1美元，因此SAC在活动中亏损30 000美元。表2-4显示了用于生成图2-7中累积收益图表的数据。这表明该活动可能有利可图，通过花较少的钱来联系少量、但是响应率更好的潜在客户。仅向1万个潜在客户，或者潜在客户列表顶部的10%邮寄，则会获得的提升为3。它将把基本的响应率从1%提到3%。在当前场景下，有3 000人会作出反应，产生132 000美元的收入。现在有97 000人没有响应，且他们每人的成本为一美元。因此，结果会产生35 000美元的利润。更好的消息是，SAC将留下200 000美元的营销预算，可将其用于另一个营销活动或者在此活动中提高优惠，也许会进一步提高响应。表2-4 每个十分位值获得的提升和累积收益渗透率收益累积收益提升 0% 0% 0% 0.000 10% 30% 30% 3.000 20% 20% 50% 2.500 30% 15% 65% 2.167 40% 13% 78% 1.950 50% 7% 85% 1.700 60% 5% 90% 1.500 (续表) 渗透率收益累积收益提升 70% 4% 94% 1.343 80% 4% 96% 1.225 90% 2% 100% 1.111 100% 0% 100% 1.000 一个较小、目标市场选择更好的活动可能比更大、更贵的活动更为有利可图。提升会随着列表变小而增加，那么更小会一直表现更好吗？答案是“否”，因为绝对收入会随着响应者数目的下降而减少。举一个极端的例子，假设模型可以通过发现一组响应率为100%(此时基本响应率为1%)的潜在客户而产生100的提升。这听上去很神奇，但是如果该组中只有10个人，那么它仍然仅仅值440美元。同时，更切合实际的例子中会包括一些预先的固定成本。图2-8给出了假定活动除了1美元的联系成本之外，还有固定成本20000美元时会发生什么，其中每个响应的收益为44美元，以及基本响应率为1%。该活动只在大约10%的小范围文件渗透率时才有利可图。图2-8 活动收益率是渗透率的函数利用模型来优化活动的收益率，似乎比简单地用于挑选将谁放入一个预先确定大小的邮件或者电话清单中更具有吸引力，但是该方法同样存在缺陷。首先，结果取决于该活动的成本、响应率以及每个响应者的收益，但是这些都是在活动运行之前所不知道的。在现实生活中，对这些只能进行估计。其中任何一项发生小变化都能把之前示例中的活动变得完全无利可图，或者使其在更大范围的十分位值处有利可图。图2-9显示了如果成本假设、响应率和收益都降低20%时，活动将会怎样变化。在悲观情况下，可以获得的最好结果是亏损20 000美元。在乐观情况下，这个活动在40%的渗透率处会获得最大161 696美元的利润。成本估计往往相当准确，因为它们都是基于邮费、打印费和其他可以事先定好的因素。响应率和收益的估计通常只能是猜想。优化活动的收益率听上去很诱人，但是如果没有在实际的测试活动中实施，则不可能有用。预先建模活动的收益率主要是假设分析，以确定基于各种假设所能获得的收益率边界。在运行之后计算活动的收益率更为有用。为了有效地做到这一点，具有各种响应得分的客户都必须包括在活动中——甚至是来自较低的十分位值的客户。图2-9 在响应率、成本以及每个响应者的收益方面发生20%的变化对活动的收益率有很大的影响警告：活动的收益率取决于许多只能预先估计的因素，因此唯一可靠的方法是使用实际的市场测试。 2.5.4 抵达最受信息影响的人一个微妙的简化假设是营销活动会激励响应。但是，存在另一种可能：模型仅仅可以识别在有活动或者没有活动时那些可能会购买这种产品的人。提示：为了测试模型以及它支持的活动是否有效，可以跟踪响应率与模型得分的关系，考虑那些不是活动一部分的支持组中的潜在客户，以及那些包括在活动中的潜在客户。营销活动的目标是改变行为。在这方面，抵达无论如何都会购买的潜在客户，不会比抵达尽管已接受优惠但不会购买的潜在客户更有用。标识为可能响应者的组也可能不太受营销消息的影响。他们在目标组的身份意味着他们过去很可能已经从竞争对手获得了类似的信息。他们可能已经拥有了产品或类似替代品，或者会坚持拒绝购买它。营销信息对于之前从未听过这一切的人而言可能会有更大差异。得分最高的分组无论如何都可能会有响应，即使没有营销投资。这导致了几乎自相矛盾的结论：在响应模型中得分最高的分组可能不会提供最大的营销投资回报。走出这种困境的方法是直接建模活动的实际目标，它不仅仅是抵达后续会购买的潜在客户。目标应该是抵达那些因为联系过而更有可能购买的潜在客户。这被称为增量响应建模(incremental response modeling)，是第5章和第7章讨论的主题。 2.6 通过当前客户了解潜在客户找到好的潜在客户的一种好办法是查看目前最好的客户来自哪里。这意味着使用某种方法来确定谁是当前最好的客户。这也意味着需要记录当前客户是如何获取的，以及在获取时他们看起来如何。依赖当前客户学习在哪里寻找潜在客户的危险在于当前客户反映了过去的营销决策。研究当前的客户不会提出在尚未尝试的位置寻找新的潜在客户。不过，当前客户的性能是评估现有获取渠道的好方法。为了潜在客户的目的，了解当前客户在他们自身还是潜在客户时的样子很重要。理想情况下您应该： ● 在客户成为客户以前开始跟踪他们。 ● 在获取时收集新客户的信息。 ● 建模获取时的数据和未来感兴趣的结果之间的关系。以下几小节对它们进行更详细的阐述。 2.6.1 在客户成为“客户”以前开始跟踪他们甚至可以在潜在客户成为客户之前开始记录他们的信息。网站会在第一次看到访问者时发出一个cookie，开始一个匿名的剖析以记录访问者在该网站上所做的事情。当访问者返回(在同一计算机上使用相同的浏览器)时，该cookie会被识别，同时剖析将会更新。当访问者最终成为一个客户或者注册用户时，导致这种转变的活动将成为客户记录的一部分。在脱机世界跟踪响应和响应者同样是好的做法。第一个需要记录的关键信息是潜在客户响应或者没有响应的事实。描述谁响应了、谁没有响应的数据是未来响应模型的一个要素。只要有可能，响应数据还应该包括刺激响应的营销行为、捕获响应的渠道，营销信息的时间选择以及响应进来的时间。确定许多营销信息中的哪些信息刺激了响应需要技巧。在某些情况下，它甚至是不可能的。为了使工作变得更加轻松，响应表单和目录中应包括标识代码(identifying code)。网站访问会获取引用链接。甚至连广告宣传活动也可以通过使用不同的电话号码、邮政信箱、Web地址，以及最后手段——询问响应者来区分。 2.6.2 收集新的客户信息当潜在客户开始成为客户时，存在一个收集更多信息的黄金机会。在从潜在客户转换为客户之前，关于潜在客户的任何数据往往都是地理和人口统计数据。购买列表中除了姓名、联系信息以及列表源之外不可能提供任何其他信息。使用地址可以根据所在社区的特征推断出潜在客户的其他事情。姓名和地址在一起可用于从营销数据提供商购买潜在客户家庭有关的信息。这类数据可用于较为广泛的目标，例如“年轻母亲”或“城市青少年”等一般性分组，但是它们不足以详细到形成个性化的客户关系。提示：在地理级别(邮政编码、人口普查域等等)的人口统计信息非常强大。然而，这些信息不提供个人客户或家庭的信息；它提供了他所在的社区信息。其中收集的对未来数据挖掘最有用的字段是初始购买日期、初始获取渠道、响应的优惠、初始产品、初始信用评分、响应时间和地理位置。作者发现这些字段可用于预测大量的有趣结果，如预期的关系持续期、坏账以及额外购买等。应保持这些初始值，而不是随着客户关系的发展用新值来覆盖它们。 2.6.3 获取时间变量可以预测将来的结果通过在获取时记录客户的一切信息，然后在随后的时间跟踪客户，企业就可以使用数据挖掘将获取时间变量与将来的结果相关联，诸如客户关系的寿命、客户价值和默认的风险等。然后，这些信息就可用来指导营销工作，使之集中于可产生最佳结果的渠道和信息。例如，您可以使用第10章描述的生存分析技术建立每个渠道的平均客户周期。通常，有些渠道所产生客户的生存周期会是从其他渠道所产生客户的两倍。假设可以估计客户每个月的价值，则可以将它翻译成一个实际的美元图，其可用于比较典型渠道A的客户和典型渠道B的客户的价值——该图和常常用来估计渠道的“每个响应的成本”度量一样有价值。 2.7 数据挖掘应用于客户关系管理客户关系管理的重点自然是已建立的客户。幸运的是，已建立的客户对挖掘而言是最丰富的数据源。最重要的是，通过已建立的客户生成的数据反映了实际的个人行为。客户是否准时付账？是支票、信用卡或PayPal？最后购买是什么时候？所购买的产品是什么？花了多少钱？客户呼叫了多少次客户服务？联系了客户多少次？客户最常使用什么运送方法？客户退货多少次？这类行为数据可用来评估客户的潜在价值，评估他们将结束关系的风险，评估他们将停止支付账单的风险，以及预见他们未来的需要。 2.7.1 匹配客户的活动对于向现有客户定制混合营销信息而言，响应模型评分对现有客户比潜在客户更有用。营销不会在一旦获取客户之后停止。有交叉销售活动、追加销售活动、使用激励活动、忠诚方案、保留活动等等。您可以将这些活动看作是在争夺客户的访问。当单独考虑每个活动，并且对所有客户给定在每个活动中的响应评分时，通常会出现一个相似的客户组会在许多活动中得到高分。一些客户就是比其他客户具有更多的响应，这一事实反映在模型的评分上。这种方法会导致客户关系管理质量较差。高分组会因为收到接二连三的信息而生气和不做出响应。与此同时，其他客户从未收到过公司的信息，因此无法激发他们扩大关系。一种替代方法是限制发送到每个客户的信息数量，使用评分来决定最适合每个人的信息。即使客户对每种优惠都评分很低，但是他们对某些优惠的评分也可能比其他人高。Mastering Data Mining(Wiley，1999年)这本书描述了该系统如何用于定制一家银行网站，根据客户的银行行为突出显示他们最有可能感兴趣的产品和服务。图2-10显示了其工作原理。图2-10 比较多个模型的评分以决定向客户提供哪些优惠对每个客户给予每个产品的倾向得分。倾向得分是估计客户将响应特定产品优惠的概率。得分逻辑之一是那些已经有产品的客户的倾向得分为0。在决策框中，倾向得分将乘以与每个产品相关联的第一年利润的平均值，以获得预期的美元价值。最后将向客户提供具有最高期望值的产品。 eBay提供了另一个示例。在线商城使用一个决策引擎来决定向通过Google搜索到达该站点的人所显示的内容。基于用户在搜索引擎输入的搜索字符串，以及在eBay系统存储的用户剖析中的搜索字符串，动态地创建一个登录页。登录页通常会包含一系列的链接组合，包括指向eBay公司自己卖方的链接，以及由外部广告服务放置在页面上的链接。当访问客户点击一个广告链接时，eBay会获得一个小额报酬，而当他们真正从一个商城卖家购买商品时，eBay将会获得一个更大额的报酬。经常实际购买的客户只给他们显示指向eBay卖家的链接。经常浏览而不购买的客户会看到更多的广告链接。对于这些客户，广告点击的期望值会高于链接向卖方的期望值。 2.7.2 减少信用风险学会避免不良客户(并注意到好的客户将要变坏)与抓住好的客户同样重要。由于暴露在消费者信用风险之下，因此大多数公司会把消费者信用筛选(credit screening)作为获取过程的一部分，但风险建模在获取客户之后不会结束。 1. 预测谁将违约评估现有客户的信用风险，对于任何向客户提供延后支付的业务而言都是一个问题。总有一些客户在接受服务之后，不对其进行支付。不偿还债务是一个明显的例子。报纸订阅、电话服务、电和煤气以及有线服务是众多通常只在使用之后支付的服务中的一些例子。当然，若客户在足够长的时间内不支付，则最后会被终止服务。到那时候，他们可能会欠下一大笔钱，而这笔钱必须得注销。根据预测模型的早期预警，公司可以采取措施来保护自己。这些措施可能包括限制获得服务的机会，或者减少延迟还款和中止服务之间的时间长度。有时会把未付款而导致服务终止称为非自愿流失，我们可以采取多种方法对其进行建模。通常，非自愿流失被视为一个二分结果，诸如逻辑回归分析和决策树之类的技术很适合这种情况。第10章将说明这个问题也可以被视为一个生存分析问题，实际上，把问题“客户下个月是否会不支付？”转换成“因为非自愿流失而损失一半客户需要多长时间？” 自愿流失和非自愿流失的很大区别之一在于非自愿流失往往涉及复杂的业务流程，例如账单因为经过不同阶段而延迟(这些通常被称为邓宁水平(Dunning Level)，以纪念IBM的一位研究人员，其最早开发出处理延迟支付客户的自动化技术)。最好的方法通常是建模业务流程中的每个步骤。 2. 改进催缴当客户已经停止支付，数据挖掘可以辅助催缴。模型用于预测可以催缴的数量，以及在某些情况下帮助选择催缴策略。催缴基本上是一种销售。公司尝试向拖欠债务的客户出售其应支付的账单，而不是其他一些账单。与任何其他的销售活动一样，有些潜在的支付者会倾向于接受某种类型的信息，而其他一些倾向于另一种类型的信息。 2.7.3 确定客户价值在客户价值计算方面，数据挖掘发挥了重要作用，尽管这种计算还需要获得正确的财务定义。客户价值的一个简单定义是在一段时间内该客户的总收益减去维护客户的总成本。但多少收益应归功于一个客户？是他到某个时间点的总开支吗？他这个月的开支是多少或预计在下一年的开支是多少？间接收益如广告收入和名单租赁等应该如何分配给客户？成本甚至会产生更多问题。业务具有各种各样的成本，它们可能会以独特的方式分配给客户。把客户无法控制的成本归咎于他们是否公平？两个Web客户订购完全相同的商品，并且都是保证免费送货。其中生活得离仓库更远的那一个客户可能要花更多的运输成本，但是他真的是价值更低的客户吗？如果下一个订单是从不同的位置发货呢？随着无处不在的全国统一利率计划，移动电话服务提供商正面临着同样的问题。当提供商并不拥有整个网络时，他们的成本远不能统一。其中一些呼叫是经过该公司自己的网络，而其他一些呼叫会在收费利率更高的竞争对手的网络上漫游。通过设法劝阻客户在访问提供商成本较高的州时呼叫，该公司可以提高客户价值吗？在整理出所有这些问题之后，而且一家公司已认可可追溯性的客户价值定义时，为了估计潜在客户的价值，数据挖掘可以发挥作用。其实际上是估计单位时间内客户带来的收益，然后估计客户的剩余生存周期。其中的第二个问题是第10章的主题。 2.7.4 交叉销售、追加销售和推荐对于现有的客户，客户关系管理系统的一个主要关注点是通过交叉销售和追加销售提高客户的收益率。数据挖掘用于找出对谁提供什么，以及什么时候提供。 1. 找到正确的提供时间 Charles Schwab(一家投资公司)发现客户通常以数千美元开立账户，即使他们有更大一部分用于储蓄和投资账户。当然，Schwab希望吸引其余的钱。通过分析历史数据，分析师发现：把大笔盈余转入投资账户的客户，这么做通常是在开设他们第一个账户之后的头几个月内。几个月后，试图让客户移入大笔盈余的可能性很小。窗口已经关闭了。因此，Schwab改变了策略，不再在客户的整个生存周期不断地发送信息，而是把精力集中在最初几个月。 2. 推荐一种交叉销售的方法是使用关联规则，这是第15章的主题。关联规则用于查找产品组，它们通常可以一起出售，或者同一个人会在一段时间内购买它们。若客户购买了其中的一些产品，但并非该组中的所有元素，则对于缺失元素而言，他是好的潜在客户。这种方法对于零售产品有效，在那里可以找到许多这样的群集。相同思想在其他领域的巧妙应用也很有效，例如产品更少的金融服务领域。 2.8 保留对于任何公司而言，客户流失都是一个重要问题；而且对于成熟的行业尤为重要，因为其初期阶段的指数性增长已经过去。毫不奇怪，流失(或者从积极的角度来看，是保留)是数据挖掘的一个主要应用。 2.8.1 识别流失建模流失(attrition)的挑战之一是明确它是什么，并了解它何时会发生。有些行业相比其他行业会更难。一个极端的例子是处理匿名现金交易的业务。当一个曾经忠诚的客户放弃他经常喝咖啡的酒吧，去街区南边的另一家酒吧时，记牢客户订单的咖啡师可能会注意到，但是这个事实不会被记录到任何公司的数据库中。即使在按名称标识客户的情况下，区分已经流失的客户和从未动摇过的客户之间的差异也可能很困难。如果一个忠诚的福特公司(Ford)客户每五年会购买一辆新的F150小货车，但是他在第六年没有买，那么该客户是否已经流失到另一个品牌了？当存在月度账单关系(如信用卡)时，流失会更容易被发现。即便如此，流失也可能会悄无声息。客户可能停止使用信用卡，但并未取消。流失在基于订阅的业务中很容易定义，部分因为这个原因，这些业务中的流失模型最受欢迎。长途公司、移动电话服务提供商、保险公司、有线电视公司、金融服务公司，Internet服务提供商、报纸、杂志以及某些零售商都共享一个订阅模型，其中客户有一个正式的、必须显式结束的合同关系。 2.8.2 为什么流失是问题损失的客户必须用新的客户来替代，而获取新的客户很昂贵。通常，新的客户在近期内所产生的收益比已建立的客户要少。对于市场相当饱和的成熟行业而言尤其如此——其中，想要拥有产品或服务的人可能都已经拥有了它，因此新客户的主要来源是离开竞争对手的人。图2-11说明了随着市场逐渐饱和，以及获取活动的响应率逐渐下降，获得新客户的成本将上升。该图显示了每个新的客户在直接邮寄获取活动中的成本，假定邮寄成本为1美元，而且它还包括某种形式的20美元优惠，比如一张优惠券或降低信用卡的利率。若获取活动的响应率高，如5%，那么一个新客户的成本是40美元。(送抵100人的成本为100美元，其中5位响应的成本是每人20美元。因此，获取5个新客户的成本为200美元)。随着响应率下降，成本会迅速地增加。当响应率下降到1%时，每个新客户的成本是120美元。在某些时候，花那些钱来保留现有客户比用来吸引新的客户更有意义。保留活动有效，但也很昂贵。移动电话公司可能向延长合同的客户提供一款昂贵的新电话。信用卡公司可能会降低利率。这些优惠的问题在于得到优惠的客户都将接受它。谁不想要一个免费电话或较低的利率？许多接受该优惠的人无论如何都将一直保持为客户。构建流失模型的动机是要找出谁最有可能流失，从而向高价值的客户提供优惠，因为如果没有额外的奖励他们可能会流失。图2-11 随着获取活动的响应率下降，获取每个客户的成本在上升 2.8.3 不同类型的流失前面讨论了为什么流失问题会集中在自愿类型。客户根据他们自己的自由意志，决定把他们的业务放在其他地方。这种类型的流失，称为自愿流失，实际上是三种可能性之一。其他两种分别是非自愿流失和预期流失(expected attrition)。非自愿流失，也称为强制流失(forced attrition)，发生在公司而非客户终止关系时——最常是因为未支付账单。预期流失在客户不再是产品的目标市场时发生。婴儿长牙齿后不再需要婴儿食品。家庭搬家后更换有线电视提供商。不混淆不同类型的流失很重要，但也很容易做到。考虑两个相同财务状况下的移动电话客户。由于一些不幸，两个客户都不能继续接受移动电话服务。两个电话都被取消了。其中一个通知了客户服务代理，其被记录为自愿离开。另一个在等待十分钟之后挂掉电话，并在不支付账单的情况下继续使用这个电话。第二个客户是被迫离开。两个客户的根本问题——缺乏资金——都是相同的，所以他们很可能将得到类似的分数。模型不能预测两个用户所体验的持有时间方面的差别。公司把强迫流失误判断为自愿流失将导致两次损失—— 一次是当他们花钱试图保留后来变坏的客户，另一次是增加了注销代价。对强制流失不准确的预测也可能会很危险。因为对不可能支付账单的客户的处理往往令人不快——停止电话服务、增加滞纳金，并更快地发送催缴信。这些补救办法可能会疏远其他的好客户，增加他们自愿离开的机会。从数据挖掘的角度看，同时解决自愿和非自愿流失会更好，因为所有的客户都不同程度地存在这两种风险。提示：当对流失建模时，对所有类型的流失进行建模是一个好主意。在他们彻底倒向其中一种或另一种流失之前，用户都处于非自愿和自愿流失的风险。对某一种风险得分较高的客户可能(或可能不)对其他的风险同样具有较高的分数。 2.8.4 不同种类的流失模型对流失建模有两种基本方法。第一种是把流失看成是二分结果，其中客户将离开或者留下。第二种试图估计客户的剩余生存周期。 1. 预测谁会离开为了把流失建模成二分结果，必须选定某个时限。如果问题是：“明天谁会离开？”，答案是几乎没有人。但是如果这个问题是：“谁将在下一个百年里离开？”，那么在大多数企业答案几乎是每个人。二分结果流失模型通常有一个较短的时限，例如60天或90天，或者一年。当然，时限不能太短，否则将没有时间实施模型预测。可以使用任何通常用于分类的工具来建立这种模型，包括逻辑回归分析、决策树和神经网络等。描述某一刻客户人口的历史数据将带有一个标志，以显示客户在某个后续时刻是否依然是活跃的。建模任务是区分哪些客户会离开以及哪些会留下。这种模型通常会根据客户离开的可能性对他们打分并排序。最自然的得分是简单地使用模型，得出客户在某个时期内离开的可能性。那些自愿流失得分超过某个阈值的客户将被包含在一个保留方案中。那些非自愿流失得分超过某个阈值的客户将放在一个观察列表中。通常，流失预测器是基于一组客户的混合信息，包括在获取时所了解的客户信息，如获取渠道和初始信用类别；在客户关系期间发生的事情，例如服务相关的问题、延迟还款和意外的高账单或低账单；以及客户的人口统计信息。第一类流失驱动给出了如何通过少获取易于流失的客户来降低未来的客户流失的信息。第二类流失驱动提供了如何减少已存在客户的风险的洞察力。 2. 预计客户将保留多长时间流失建模的第二种方法是生存分析，详见第10章。其基本思想是计算每个客户(或者每组客户，他们具有相同的模型输入变量的值，例如地理、信用等级以及获取渠道等)到目前为止将在明天之前离开的可能性。对于任何阶段，这种所谓的灾难可能性(hazard probability)都相当小，但是某些阶段的可能性会高于其他阶段。通过干预灾难，能够估算出客户能够生存到某个更远的未来日期的机会。 2.9 超越客户生存周期数据挖掘很自然地适合于客户生存周期。然而，并非所有的数据挖掘应用都直接与生存周期相关联。例如，预测通常是一个关键的业务流程。您可使用数据挖掘预测客户的数量和未来的流失率，同样可以使用它对客户进行划分，甚至发现意外的客户类型或行为。第11章给出了一个案例研究，分析如何区分客户投诉与其他类型的客户评论。这是一个将文本挖掘应用到客户关系管理的示例。并非所有的数据挖掘应用都处理客户数据。第21章包含了文本挖掘的示例，其中一个示例是为新闻故事指定关键词；关键词可以帮助读者发现需要的故事。第12章描述了Boston Globe的一个数据挖掘项目，其关注的是整个城镇而非个别订户。根据人口的相似性对城镇进行聚类。然后，将这些人口簇与地理邻接性相结合以创建不同的区域，针对它们定制报纸的版本。数据挖掘有许多应用。因为客户对于所有的业务都是相同的，因此以客户为中心的应用也最常见。本书所介绍的技术已经被用于客户关系管理系统以及其他系统。 2.10 经验教训在本书的大部分内容中，以客户为中心的应用程序作为重点是隐含在用于说明技术的示例选择上。但是，在本章该重点更为显式化。客户关系遵循一种自然的生存周期，开始于潜在客户和客户的获取，接着是激活，然后继续一段扩展周期，管理与已建立的客户的关系。客户关系管理系统的部分工作是，努力保持这些已建立的客户，同时设法赢回已流失的客户。客户关系所有阶段所生成的数据都可以用于挖掘。在获取阶段，数据挖掘同时支持广告和直接营销以识别正确的受众，选择最佳的通信渠道，以及挑选最适当的信息。潜在的客户可以与预期受众的剖析进行比较，并给出一个适应度得分。如果潜在客户的个人信息不可用，那么您可以运用相同的方法对地理上的社区指定适应度得分，利用可以从美国人口普查局、加拿大统计机构以及许多国家类似的官方来源等得到的类型的数据。数据挖掘在直接建模中的一个常见应用是响应建模。响应模型对潜在客户响应直接营销活动的可能性进行了打分。该信息可以用于提高活动的响应率，但是它自身不足以决定活动的收益率。估计活动的收益率需要依赖于对未来活动基本响应率的估计，与响应相关联的平均订单大小估计，以及落实和活动本身的成本估计。对响应得分的进一步以客户为中心的使用，是为每个客户从一些相互竞争的活动中选择最佳活动。这种方法避免了通常在独立的、基于得分的活动中会出现的问题，它们倾向于每次选择相同的人。在一个模型识别对产品或服务感兴趣的人的能力，以及该模型识别因为特定活动或优惠而发生购买行为的人的能力之间进行区分非常重要。增量响应分析提供了一种方法，以识别活动将在其中产生最大影响的市场分块。通过从当前客户在成为客户之前的已知信息中发现期望结果预测器，公司可以使用当前的客户信息来确定可能的潜在客户。这种分析对选择获取渠道和联系策略，以及筛选潜在客户列表都非常有价值。通过从客户第一次响应(甚至在他们成为客户之前)时，开始跟踪他们，同时当获取客户时收集和存储额外信息，企业可以提高客户数据的价值。在已经获取客户之后，重点将转移到客户关系管理系统。可用于活跃客户的数据比可用于潜在客户的数据更为丰富，因为它本质上是行为数据而不仅仅是地理和人口数据，它将更具预测性。数据挖掘能够基于客户当前的使用模式，确定应该向客户提供的额外产品和服务。它还可以建议进行交叉销售或追加销售的最佳时间。客户关系管理方案的目标之一是保留有价值的客户。数据挖掘可以帮助识别哪些客户是最具价值的，同时评估与每个客户相关联的自愿或非自愿流失风险。基于这一信息，公司可以把保留工作的目标定位为既有价值又有风险的客户，并采取步骤保护自己远离可能违约的客户。当把流失模型构造成“客户什么时候会离开？”时，该模型可用于估计客户价值。数据挖掘是一种贯穿整个客户生存周期的有效工具。下一章将从数据挖掘如何辅助业务转移到在业务环境中实现数据挖掘的挑战上。

书名：数据挖掘技术
作者：
出版社：清华大学出版社
原作名： Data Mining Techniques:For Marketing,Sales,and Customer Relationship Management, Third Edition
副标题：应用于市场营销、销售与客户关系管理
译者：巢文涵 | [美] 王芳 | 张小明
出版年： 2013-3
页数： 620
定价： 79.80元
装帧：平装
ISBN： 9787302310143

数据挖掘技术——第二章数据挖掘在营销和客户关系管理中的应用

《数据挖掘技术》其他试读目录