使用联邦体数据库系统
为什么联邦系统有用?客户如何使用联邦技术?通常,联邦系统在存在多个数据源同时需要将各个数据源的信息组合起来时很有用。在这一节,我们研究一些客户正如何使用 IBM 的联邦技术来解决他们目前的业务问题。
分布式操作:一家大型制药公司
现在,许多公司都是全球性的公司,它们需要协调遍布世界各地的活动。例如,制药公司可能在欧洲和美国有它的研究实验室。每个实验室的科学家都在寻找新的药物来治疗某些特殊疾病。这些科学家都可以访问有关化合物的数据库,这些数据库存储在有专门用途的系统中,可以按这些化合物所具有的特殊特征或化学结构(结构上的相似性)来搜索这些数据库。在这两个实验室里,针对不同的生物体目标,科学家高速地筛选这些化合物来测试它们的效力。这些实验结果被存储在每个实验室的关系数据库中。科学家可以访问的其它数据源包括一些大型的有关染色体和蛋白质信息的平面文件、专利数据库、数据和分析的电子表格以及图象和文本文档。
这两个实验室中的科学家有不同的任务,他们所采用的治疗和医治手段也不一样。这使得他们做不同的实验,关注特定的化合物集合。然而,往往同样的化合物可能对不同的目标都有用,有时一个实验可能很好地揭示其它实验结果。因此,对于位于其中一个实验室的科学家来说,能够访问另一个实验室所得出的数据是很重要的,这样避免了重复劳动。虽然通过建立一个大型的数据仓库(里面有所有的化合物数据和实验结果)可以解决这个问题,但这种方法存在几处缺陷。首先,实验结果数据变化很快,每天需要添加来自大西洋两岸的数千条记录,这造成维护困难。其次,数据仓库必须在两岸进行复制,不然位于某一边的数据库势必得忍受访问数据时的迟缓。复制造成这种解决方案的成本升高,并增加了维护的复杂性。再次,需要将目前存储在专门资源库中的化合物数据迁移到关系数据库中,包括重新实现搜索算法和任何已有的应用程序。
联邦解决方案消除了这些问题。数据留在现有的数据源中,同时也保留了它们的本机存取路径,而且目前的应用程序也未改变运行方式。然而,可以在不考虑所处地域的情况下,方便地建立新的应用程序来访问任意数据源中的数据。为了快速访问,本地数据仍然在本地。如果需要,仍然可以访问不常访问的远程数据,联邦服务器会优化查询以确保尽可能有效地检索这些数据。对于双方实验室都经常访问的那部分数据,如果愿意仍可以进行复制。
异构复制
许多企业选择保留其数据的多个副本。例如,一家大型的零售商在美国各地有一些销售点,它需要备份位于各地区数据仓库中的数据。零售点使用一种关系数据库管理系统;使用另一种可伸缩性更好的 DBMS 来实现数据仓库。然而,这造成如何将数据从数据源传送到数据仓库这样的问题。IBM 的联邦技术不仅使移动数据、从数据源选择数据和向数据仓库插入数据变得方便,而且使重新塑造数据以及在将信息插入到数据仓库之前从各销售点聚集信息变得方便。
IBM 提供了一个复制产品 DB2 DataPropagator™,通过使用联邦数据库的特性以在关系数据库间复制数据,从而帮助您集成分布式数据库环境。DataPropagator 自动复制远程系统间的数据,避免手工卸装和装入数据库。对于非 DB2 关系数据源,定义了 Capture 触发器来捕获对数据源的更改,并将更改写入登台表。在 IBM 联邦数据库服务器上运行的 Apply 程序使用该登台表的别名来将那些更改从登台表复制到 IBM 联邦数据库或另一个非 DB2 关系数据库中的目标表。由于有了联邦技术而使异构复制变得容易。
分布式数据仓库
实现分布式数据仓库一直向人们展示了较高的可用性和较低的总成本。企业可以创建几个数据集市来只存储高级别的汇总数据,这些数据来自数据仓库。有了 IBM 的联邦技术,尽管数据集市和数据仓库可以在单独的系统上,但数据集市的用户仍然可以方便地从他们本地一级的汇总数据下钻到数据仓库。联邦技术通过提供一个虚拟数据仓库,使用户无需知道数据仓库是分布的。
空间地理应用程序
银行需要为它的新分行挑选一个地点。所选定的这个位置必须使预期利润达到最大。为此,银行需要考虑每个位置周围的人口统计信息(该人口统计信息是否符合目标客户基数?),要考虑这个地区的犯罪率(对于零售业务,低的犯罪率很重要),考虑是否靠近主要公路(为了吸引临近地区的客户),考虑是否靠近竞争对手(缺少竞争的地方极可能意味着高的销售额),考虑是否靠近任何已知的问题区域,必须避免这些区域(周围的垃圾堆或其它惹人讨厌的特征会对业务产生负面影响)。其中一些必要信息将来自银行自己的数据库。另一些信息必须检索外部的数据存储(包含有关这个社区的信息)来获得。这个应用程序展示了需要集成空间地理数据和传统业务数据。它需要高级的查询分析功能来关联数据,需要可在空间地理上下文中以可视化方式显示数据的最终用户工具。
通常,空间地理数据一直由专门的地理信息系统(GIS)来管理,但它不能将空间数据与存储在公司 RDBMS 以及外部数据源中的其它业务数据集成起来。DB2 Spatial Extender 是 IBM 与其业务伙伴 Environmental Systems Research Institute(ESRI)合作开发出的产品。DB2 Spatial Extender 使用 IBM 的联邦数据库向客户提供了两全其美的解决方案。客户可以利用内建在 DB2 Spatial Extender 之中、并结合了联邦系统中大量可用业务信息的地理空间智能。这使组织可以增强对自己业务的理解,利用已有数据的价值,构建复杂的新的应用程序,从而使企业走向成功。
结束语
尽管许多研究性社团相当关注该领域,但很少有商业性数据库管理系统已经解决了将关系和非关系数据源集成到联邦体中这一问题。有了这种联邦技术,IBM 已经朝这个目标迈出了一大步。IBM 独一无二的联邦查询处理技术使用户可以体验到 DB2 SQL 的所有强大功能与每个数据源的强大功能相结合而产生的威力。它向用户提供这些好处:透明性、异构性、高级功能、底层联邦数据源的自治、可扩展性、开放性和优化的性能。今天,我们正在使用联邦体来解决许多重要的商业需求。
在未来,我们将继续工作以改进联邦体的性能和功能。例如,已经运用自动摘要表(AST)机制实现了某种形式的高速缓存,它使管理员可以定义一组底层表中数据的具体化的视图 — 即别名。对于某些类型的查询,数据库可以自动地确定是否使用 AST 回答查询,而不用访问基本表。除了不断改进性能之外,我们还在研究一些工具来帮助配置、调优和管理联邦系统。我们正在开发为来自非关系数据源的数据生成统计信息的工具,以及用于监控联邦系统行为的工具。目前我们还在开发那些帮助包装器开发人员的工具。
最后,即使设计良好的联邦数据库管理系统及其附带的一套工具也只是数据集成这个较大问题的部分解决方案。完整的解决方案将必须集成应用程序和数据,并解决一些较高级别的问题,如数据质量、注释、术语方面的差异与表明何时以及用何方式组合信息的业务规则。IBM 正将注意力集中在这种更广泛的信息集成需求,以使客户实现他们自己的业务集成需求,而数据库样式的联邦体正是关键的集成技术之一。






