IBM
2002 年 3 月
当今各行各业都需要预警系统来降低风险,数据挖掘可以帮助预警系统来发现各种数据中的警告。
简介
每天,企业都要面对产品质量、法人责任、竞争环境的风云变幻、品牌衰退等问题的威胁。如果没有一个系统收集和分析能够指出潜在威胁的数据,那么企业就只能祈祷运气降临到自己头上了。
世界最大的轮胎制造商在 2000 年 8 月付出了惨重的代价才深深体会到了这一点。当时该公司在一款流行的运动休闲车的轮胎外胎面突然脱落造成的一连串事故后召回了 650 万个轮胎。根据美国高速公路交通安全局(National Highway Traffic Safety Administration,NHTSA)的统计,单在美国境内,由于轮胎引起的交通事故就可能达到 750 起,造成 62 人死亡。汽车制造商声称早在 1998 年就已经对这些轮胎的质量产生了怀疑。尽管早已指出了这个问题,但汽车和轮胎制造商未能意识到问题的严重性,直到很久之后,这个问题给这些公司及其顾客带来了可怕的后果。
涉及国家防御的政府机构也遇到了类似的问题。智能服务中的信息日益泛滥。整理所有信息并将它们放到一起以精确地指出紧急威胁并及时做出反映不再是件容易的事情了。幸好,数据挖掘技术可以帮助发现各种数据中隐藏的警告。
预警系统提供了系统地收集和分析数据以识别出现的威胁或问题的能力。为了让这些系统有用,只要数据中累积了足够多的证据支持该问题,就必须马上识别威胁。该系统不能遗漏太多真正的威胁,也不能预测太多永远不发生的威胁。好的预警系统有助于识别潜在的问题、分析它们的特征和起因,并量化它们的严重性。在某个特定月份中在某种条件下检测故障率的突然上升只是其任务的一部分;系统还应该能够估计这个故障率会否继续上升,并预测如果不予理睬其影响又如何。
这些系统有许多用途。跟踪新闻稿、专利公布和合并与收购活动可以帮助确认由于竞争对手、供应商、顾客或合作伙伴的策略变化而导致的潜在威胁。监控和分析新闻组和邮件列表中顾客张贴的内容和对呼叫中心的投诉可以帮助发现市场动态和品牌观念的趋势。汽车制造商经常扫描大型的保修索赔数据库,以检测零部件故障率的趋势,从而可以指出质量或安全问题。在与经济诈骗、洗钱、贪污、有组织犯罪和恐怖份子融资的斗争中,一些全球金融机构最近联合了力量来收集并利用公共信息,以更好地确认与客户交易相关的法律、规章和信誉风险。
管理已确认的重要问题涉及到一个组织的方方面面。因此,完善的预警系统通常包含了工作流管理和协作能力,以支持与打开、调查、关闭重要问题以及调度和跟踪操作(以便管理重要问题)相关的业务过程。官僚主义、过时的策略和组织的划分范围都可以给信息共享和集成式分析造成障碍。但是,这是数据挖掘的专题,我们假设这些非技术问题都可以解决,所以把精力完全放在技术问题上。
虽然每个领域都不同,但这些预警系统都有许多相同的元素。我们将详细说明这些元素。
数据收集
预警只是一种可能性,表示数据中隐含威胁的迹象。这些初期指标通常来自各种不同的来源。所收集的数据也许会来自现有的内部系统,该系统是为支持操作需要(如呼叫中心的保修索赔处理或顾客联系管理)而构建的。也可能来自外部数据库、新闻或专利服务器和 Web 的搜索结果。在确认所有相关来源之后,数据收集器会按常规计划或者甚至实时地搜索、选择、传送所有可能相关的数据,并供预警解决方案使用。在最近与汽车制造商一起进行的一项工作中,我们每天都从保修索赔系统、生产系统、呼叫中心、法律责任案例的资源库和 NHTSA 中收集数据。
数据仓库
警告指标通常被无关数据掩藏。对无关的故障和事件的观察也许永远也不能对预测警报趋势有所贡献。允许趋势发展需要集成来自所有可用来源的信息的能力。当任何信息可用时,数据仓库就将该信息合并到公共数据体系结构中,从而为预警解决方案提供了坚实的数据基础。不管信息来源如何,它都可以捕捉到涉及同一实体的所有信息。数据仓库还使数据在长时间内可被快速访问,从而使趋势和重要问题浮现出来。趋势的发展需要多长时间可能取决于产品的预期寿命(用忙闲度或服务时间来衡量)、保修期、法律责任期等。
信息抽取
在我们的实践中,我们发现一些最有价值的警告指标通常都包含在非结构化的数据中,尤其是文本。在汽车制造公司中,要处理取自六个来源(包括非结构化的文本字段)的数据,如关于故障的原因或症状的专家注释、对制造商的呼叫中心和 NHTSA 的客户投诉的副本以及诉讼案例的摘要。我们构建的解决方案每天会自动处理数以百计的记录,以寻找可以提高安全性或其它重要问题的指标。
进入预警解决方案的非结构化的数据使信息抽取成为必要。信息抽取是指将非结构化的数据转换成结构化的数据格式的过程,从而支持数据集成或数据分析。
信息抽取(只关注文本数据)的相关技术包括:
特性抽取。 文本挖掘工具(如 IBM Intelligent Miner for Text)可以自动派生一组特性,这些特性会捕捉适合于正在被分析的文档集合的关键术语和概念。特性可以是多单词术语、人名、组织名和地名、缩写和关键的数字,如货币金额和日期(请参阅图 1)。算法将“信用透支(credit facility)”、“信用额度(credit line)”、“里昂信贷银行(Credit Lyonnais)”和“瑞士信贷银行(Credit Suisse)”看成是四种独立的概念。每个特性都有可能成为一段结构化数据。 图 1:Intelligent Minerinput 执行的数字抽取。 文档群集和分类。 捕捉关键术语和概念的特性通常也描绘了文档内容的常规性质。根据特性,可以将文档分成一个或多个类(类别)。如果给定一组文档,群集技术就会构成一组组主题类似的文档。每个组都可以用该组中文档最突出的特性标记。当存在一组预先定义的类别和已经分配到这些类别的文档的示例时,文档分类技术就可以归纳出区别这些类别的模型。这些模型可以让您根据任何文档的特性,自动将其分类到一个或多个预先定义的类别。已分配的类表示结构化数据的有价值部分,不管该分配是由群集技术还是由分类技术执行的。 信息抽取的自然语言处理。 信息抽取通常要求在语句级别对文本进行更详细的分析。通常,特定种类的实体、事件、操作和它们之间的关系是潜在威胁域中的重要部分。例如,在汽车的示例中,我们创建的解决方案必须在每个文本块中标识所引用的汽车特定的零部件、对这些零部件所做的故障或症状报告,以及任何严重事件的发生(如翻车或死亡事故)。在金融服务中,将人名或业务实体名与特定的犯罪行为的定罪和所记载的辩解相关联是很重要的。为完成这样的任务,我们使用 IBM Research 开发的自然语言处理技术,它嵌入到了 Talent 系统。Talent(它不是商用产品,而是 IBM 服务提供的一个元素)使用可伸缩自然语言处理技术来分析大文档集合的内容,从而抽取信息并生成反映这些文档的词法和概念内容的助诊文件。所抽取的信息用于查询改进、导航文档数据库中的重要概念和准备并提供文档摘要。 Talent 包括用于词法和形态分析、语音部分标记、语法和句法分析以及解析的组件。输入中的文档被当作单词流提供给 Talent。在输出中,Talent 通过在被称为解析树的多级别层次结构中捕捉单词及其用法的特征之间的关系,来显示文档的结构。图 2 显示了在处理包含语句“Side air bag didn't deploy when vehicle was involved in accident.”的文档之后生成的解析树的简化版本。请注意,树上描述的关系确定了“vehicle”是动词组“was involved”的被动语态主语,并且有一个谓语介词短语“in accident”。解析树还确定了侧气囊没有弹出,而且用“when”从句进一步限定了该语句。如果没有这种文本分析,那么句子中每个单词的角色就会不能识别。如果没有那些资料,您就不能确定,例如,是气囊还是汽车没有弹出。 图 2:显示语句中单词的角色及其关系的解析树示例。
准备解析树是信息抽取的第一步。下一步是检查所关心的模式的树。主题专家为信息抽取准备了特定于领域的业务规则。每个规则都包含了与解析树的各组成部分相匹配的模式,以及用于只要发现匹配就以结构化数据格式从树中抽取信息块的指令。
以下是一个业务规则的示例,它将抽取一个实例,在该实例中,某个汽车零部件(如气囊)显示了“no deployment”故障。该规则的模式将指定一个主动语态句子,其中:
1. 主语短语匹配汽车零部件。
2. 动词组包含了任何时态的动词“to deploy”,但却是以否定形式。
规则的信息抽取操作将指定“no deployment”作为故障代码,将主语短语中所匹配的汽车零部件的代码指定为故障零部件。在一个领域中有几百个信息抽取规则并不罕见。通常,每个规则都要对每个文档进行处理,因此拥有一个非常有效的规则处理引擎很重要。例如,在汽车的示例中,我们设计了一个可以一整夜处理接近 10 万个文档的规则引擎。
Talent 中的自然语言处理组件和规则处理引擎的体系结构都是与语言无关的,但所实现的许多分析函数都主要适用于英语。多语言领域需要特定于语言的分析组件或在信息抽取之前将文档翻译成英文的机器翻译技术。
查询、报告和 OLAP
准备好数据基础之后,即已经有了正确集成的来自所有相关来源的数据和从任何非结构化的数据中抽取的信息,就可能查找预警指标、监控趋势和深入地分析数据。
查询、报告和在线分析处理(OLAP)工具是任何预警系统的必备部件。可以编制标准报告来按常规调度表生成和发布报告。在汽车公司里,我们编制了许多报告以满足新的管理报告需求。这些工具还提供了对用于特别分析以及分析预警系统识别的潜在问题的数据的访问。所关心的一些问题是:重要问题后面的事件是什么?随着时间的流逝,它们的频率趋势是什么?这些事件在什么条件下会发生?随着时间的流逝,是否会出现模式?这些工具有助于证实、反驳和改进搜索这些和其它问题的答案时的假设。
我们发现由 IBM 东京研究实验室开发的 IBM 的 Text Analysis and Knowledge Mining(TAKMI)工具在这一领域中非常有用。在日本国内,TAKMI 是一个独立的 IBM 产品,而在美国,它是作为服务来提供的,TAKMI 不同于大多数查询、报告和 OLAP 工具,因为它

