异常检测
有效的预警系统应该在数据可用时主动分析数据。通常,预警信号首先作为数据中的异常出现:偏离所建立的标准和预期的行为。如果在搜索异常之前没有假设预期有什么行为,那么搜索异常是最复杂的。搜索应该尽可能公正并且是数据驱动的。可以从历史数据归纳出各种情况的预期行为的模型。这样的模型让分析员可以将实际观察到的行为与预期行为进行比较,并确定任何偏差是否可能很重要。
出于某些原因,异常检测是一项很困难的任务。首先,通常很难开发精确的预期行为模型。其次,通常可能发生异常的潜在情况的数量非常大;因此搜索空间通常也很大。考虑观察汽车引擎着火事故。通常都会从许多角度来描述每个事故,包括汽车的品牌和型号、里程表上的里程数和事故的地理位置。要确定着火事故发生率是否有异常涉及独立地分析多维数据立方体中所有聚合级别的所有单元。单元的每个聚合相当于一组不同的条件(在这组条件下,可能在着火率中出现异常):例如,某个特定品牌和型号的汽车或在某个特定地理位置发生的异常。
IBM DB2 OLAP Server 的一个新组件,有时也称作 OLAP Miner,解决了异常或偏差检测的难题。在传统 OLAP 系统中使用的标准假设驱动的研究中,分析员使用诸如钻取、上卷和选择等操作在巨大的单元搜索空间中无助地导航。OLAP Miner 建立了新的发现驱动的探索范例。该软件首先挖掘异常的数据,并总结在数据立方体的各个级别上找到的数据。然后它使用这些结果,在导航期间将分析员指引到所关心的数据立方体的区域(请参阅图 3)。
图 3:DB2 OLAP Server 的偏差检测组件的抓屏。数据可视化、警告和重要问题管理
预警数据仓库会经常用新数据进行更新。可以借助查询、报告和 OLAP 工具来访问这些数据。同时,发现驱动的数据挖掘操作会经常查找异常并帮助发现模式和异常的趋势。在任何时候都会有一组重要问题正在进行处理。其中一些刚被确认为潜在重要问题,而且其它的可能处于调查和管理的各个阶段。整个系统的事件状态通常以数据和过程的形式通过仪表板(dashboard)(可以定制以满足每个用户的需要)提供给分析员和管理层。
仪表板提供了一个新的数据访问和表示层,它可以:
- 围绕业务活动(如打开一个用于调查的新的重要问题)组织仓库中的事故、事件和相关数据
- 定义与这些活动相关的业务度量,管理它们的工作流
- 提供交互式导航或探索的功能
- 通过动态链接的记分卡、报告、图表以及突出显示重要信息的地图来提供数据的集成视图
- 将对决策支持工具的访问集成到工作流管理系统中,并为分析员提供一个协作环境。
仪表板方便了数据探索和可视化以改善预警、决策支持,来辅助调查潜在重要问题,并辅助管理已确定的重要问题。
投资预防
有一句老话说:“一分预防赛过十分治疗。”预警系统有助于确认和限定新出现的威胁,让组织及时做出反应,以防止更严重的后果。预警依靠数据收集器、集成并存储数据以备分析的数据仓库、用于抽取信息和检测异常或确认趋势的数据和文本挖掘、用于处理潜在重要问题的业务过程,以及协作工作流管理系统,来方便重要问题管理。
我们只接触了一些突出显示预警系统中基本功能的挖掘应用程序:信息抽取、文档分类和群集、概念分析以及异常检测。综合预警功能的核心技术现在已经可用,预警系统将很快在商业和政府中找到更多用途。
综合预警系统是一项高回报的投资。主动管理产品质量、安全性问题、品牌形象和商业关系的质量可以形成更好的产品、更强大的品牌、节省成本、减少诉讼,以及改善与顾客、供应商和监管当局的关系。






