硅谷实验室
2003 年 8 月
采访 Nelson Mattos,他谈论了有关信息集成方面的一些内容,信息集成指什么,以及信息集成会对开发人员带来什么影响。
Nelson Mattos 博士是 IBM 的一位杰出工程师,同时还是 IBM 信息集成(Information Integration)的主管。Mattos 博士目前的工作是负责确立 IBM 在新兴的信息集成市场中的领先地位。他与标准组织、IBM 客户、业务伙伴以及开发团队进行合作,以帮助企业集成整个企业内的数字信息资产并在整个企业内利用这些资产的价值。Mattos 博士利用其深厚的研究背景,负责一些产品的战略、市场营销和开发,这些产品有 DB2® Information Integrator、DiscoveryLink®、复制及 Relational Connect 等。
DB2DD: Nelson,您在 IBM 有着有趣而快节奏的生涯,从研究工作开始做起,到现在担任信息集成主管。您的研究工作对您正在进行的工作有着什么影响吗?
Nelson: 自从我加入 IBM 以来,我一直在从事处于前沿的数据管理技术方面的工作。90 年代中期,我致力于 DB2® Universal Database™ 的对象-关系扩展,那时候,对象-关系扩展是一种关键的战略性扩展。除了涉及 SQL 方面的大量工作以外,那项工作还使我成为了 IBM 在系列标准成果方面的代表,这些成果确保了 IBM 的技术向标准发展。如果您想一想,您会发现我现在正在从事的工作与以前没有多大区别。和那时的对象-关系(它实际上为我们现在进行的大量信息集成工作提供了语义基础结构)一样,信息集成是数据管理行业中接下来要迈出的一大步。数据在 Web 上,在扫描的图像中,在 PDF 中,在电子数据表中,而这个列表在不断扩大。由于这是一个重要转变,因此与标准组织保持紧密联系很重要,这也就是为什么直到最近我都一直与 W3C 的 XML 和 Web 服务这类标准组织保持紧密合作的原因。
DB2DD: 信息集成是 IBM 在信息管理领域主要从事的内容。多年来,IBM 一直在数据集成技术方面处于领先地位。那么,IBM 现在为什么要把这作为重点呢?
Nelson: 如果您看一看各公司在 Y2K 以前的所作所为,就会发现它们把很大一部分精力都放在了新应用程序软件包上,因为在许多情况下部署新软件包比修正旧代码来处理 Y2K 问题更划算。此外,当时世界经济正处于扩张时期,IT 预算都很充裕。公司不断地部署这些软件包以支持其业务线,它们没有必要太多地考虑如何集成这些软件包。
Y2K 以后,对部署新软件包的需求未能达到 Y2K 的预期,经济形势发生了变化。经济的低迷导致了公司从部署新的解决方案转向利用已经部署的资产。利用这些资产的方法有:集成这些资产以发现新信息,关联不同资源库的信息,综合有关客户和供应商的信息以做出更好的业务决策,等等。
而且,并不就我一个人这么说。Morgan Stanley 2002 年 5 月所作的调查显示:35% 的受访 CIO 认为集成是战略上最为优先的工作。IDC 估计 40% 的 IT 预算已经投入到了集成工作上。
DB2DD: 就信息集成技术正在解决的特定业务及技术问题,您能给我们举一些实际生活中的例子吗?
Nelson: 可以。客户已经实现了运营数据存储或数据仓库,现在里面主要包含一些结构化数据。要做出业务决策,客户需要将这些信息与非结构化的实时数据结合起来,以扩展仓库的价值(例如,假定呼叫中心工作人员正在处理客户的来电)。应用程序可能需要访问 ODS 中的数据,并将这些数据与客户的电子邮件以及(可能代表来自该客户的硬拷贝信件的)扫描图像相结合。
另一个很好的示例是使用 Web 来管理其财务的客户。如果客户需要查看其整个资产组合的价值,那么这可能需要能集成银行账户、股票投资和债券基金等的能力。这些数据的来源可以各不相同,而且其中的一些信息还得实时收集,如来自华尔街的最新信息。
DB2DD: 真有趣。但就我看来,上面那些情形中不仅仅涉及信息集成问题。
Nelson: 对。IBM 认识到,要解决业务集成问题,需要三组技术。首先,您需要这样一类技术,它们能够以一致方式集成对用户的信息发送,同时该方式也允许个性化。其次,必须能够集成过程。例如,需要能够确保对产品的任何更改在各个方面都能反映出来,从 ERP 到 CRM 系统再到供应链。最后,您需要的技术就是能将物理上存储在不同资源库(如电子邮件、文件系统、Web 和数据库)上的信息集成起来。
DB2DD: 有没有一种方法可以用来对这些技术进行简单地分类?
Nelson: 有,的确有这样一种简单的方法:
- 门户网站技术着重于与用户的交互。
- 过程集成着重于业务事件。例如,某笔销售完成,那么这一事件就必须共享给生产数据库、供应链系统及 CRM 系统。
- 信息集成并不着重于事件,而是着重于资源库中目前所反映的业务状态。例如,客户账户当前值、库存级别以及销售额。
而且,如同您在我前面提及的情形中所见到的那样,我们常常发现这三种技术在一起使用。门户网站可以触发某个事件,而该事件会引发一个业务流程,业务流程又会更新不同资源库中业务的状态,将这些资源库集成起来用于业务分析,从而形成更好的业务决策。让我们来看一个客户,她通过 Web 正在管理自己的资产组合。她通过门户网站查看自己的账户信息,决定出售一些股票,这会触发一些协同的业务过程以确保事务一致性,而这些过程随后又会导致对各个资源库的更新,这些资源库存有与这笔出售及该客户有关的信息。通过使用信息集成,资产组合的新值被反馈给了客户,这使她能够做出下一个业务决策。
DB2DD:
Don Haderle较早的时候向我们讲过,集成信息可以使用不同的拓扑结构:数据仓储和联邦技术,在数据仓储中,可以将数据移入中央资源库,而使用联邦技术时,数据则呆在原来的位置。IBM 是否只偏爱其中一种方法呢?
Nelson: 不,实际上,这正是 IBM 与竞争对手之间的关键区别之一。IBM 认为,主要存在两种方法:合并数据访问(将数据移入中央资源库)和联邦访问(不集成数据,而是集成对数据的访问)。两种方法都是必要的。到底使用哪种方法,这取决于您试图解决的问题的特征。
在查询性能如此重要以至于需要本地访问时您会集中数据,或者因为数据集成需要昂贵且无法实时完成的转换而集中数据。在下列情况下要使用联邦:需要访问实时数据、数据格式大相径庭(如结构化和非结构化数据)或者要集成的数据量太大以至于认为将数据复制到中央资源库中是不合适的。数据的保密性和所有权问题也会阻止您复制数据。
然而,有必要说明一下的是,建议不要只使用一种方法而摒弃另一种方法。我们常常看到将这两种技术结合起来使用的情形。看一下呼叫中心示例。先使用集中的方法来利用客户数据构建数据仓库或运营数据存储,然后实时扩展该存储以引入诸如电子邮件和扫描文档之类的非结构化数据。
DB2DD: 搜索和分析呢?如果我有了这个巨大的“虚拟信息存储”,其中包含结构化和非结构化信息,那么最终用户如何才能找到他们所需要的信息呢?分析工具能够处理这些丰富的内容类型并能理解这些不同的数据类型吗?
Nelson: 搜索是信息集成基础结构的关键组件,否则,没有人也没有应用程序能够找到他们(或它们)需要集成的内容。实际上,DB2 Information Integrator 产品推出时将会带有集成的文本搜索,以便能够在众多不同的资源库中方便地找到信息。
至于分析,让我先退一步说。我们认为,信息集成基础结构能够提供各种 API 很重要,因为开发社区不会只使用一种接口。我们有 SQL 方面的人员,我们有使用其 OO API 的内容管理人员,我们还有新出现的 XML 开发人员。因此,要面向最广大的开发人员开放这一基础结构,该结构就必须支持这些开发人员所使用的接口。
因此,回到原来关于分析工具的问题上去。这些工具中的大多数目前都使用 SQL 接口;因此,这些工具将能够处理可以通过信息集成平台集成的任何信息。例如,我们曾测试过 Crystal Reports 及其它一些流行的报表工具,没有大的变化。在大多数情况下,即便有重大的性能改进时也是如此。
DB2DD: 因此,您会为开发人员提供一些 API 选择。如果在这一信息集成基础结构上开发新应用程序,那么开发人员会从中看到其它什么好处呢?
Nelson: 主要的好处之一在于:在开发新应用程序以及日后维护它们上的时间投资减少了。为什么会这样呢?现在,如果开发人员需要从不同资源库开发一个新应用程序,那么该应用程序就必须连接到各种资源库,用那个资源库的语言写一个请求,抽取数据,然后在应用程序自身中执行连接、关联和转换等操作。如果稍后需要扩展该应用程序以添加另一个数据源,那么就必须向该应用程序添加必要的逻辑以处理此新数据源。
有了信息集成,对于开发人员这一复杂性就消失了。他们只要连接到 DB2 Information Integrator,后者将知道如何将请求转换成后端系统的方言,然后执行正确的关联等操作。如果添加了新数据源,那么管理员只需确保到新数据源的连通性,并对访问远程数据源的底层视图做最小的变动。
DB2DD: 开发的工具呢?
Nelson: DB2 In






