第291章 冬瓜(第2页)
分发请求可以采取不同的频度y比如一天两次或每隔15分钟1次。
对于许多组织而言y提供变化数据的一种比较好的方式是以数据表的记
录的形式表示这种方式可以使etL工具通过标准接口?比如odbc?的
方式无缝地访问变化数据cdc则需要维护上次变化分发的位置和分发
新的变化
这种应用场景和传统的etL很相似y不同的是ypullcdc只需要转移变化
的数据y并不需要转移所有的数据y这就极大地减少了资源消耗y也消
除了传统etL过程的宕机时间。
面向批处理的cdc技术简单y很容易实现y因为它和传统的etL很相似y
并且使用现有的技术当企业对时间延迟以分钟或小时来进行衡量时y
采取这种方式比较可行。
这种场景满足零延迟的要求y变化分发机制一旦探测到变化y就把变化
ph给etL程序y这通常是通过可靠的传输机制来实现的y比如事件分发
机制和消息中间件?如qseries?
虽然面向消息和面向事件的集成方法在eAi产品中更为常见y但现在y已
经有很多etL工具厂商在他们的解决方案中提供这种功能y以满足高端
实时的商务应用需求当bi应用需要零延迟和最新的数据时y这种实时的
数据集成方法就是必须的。
很显然ycdc技术提供了诸多好处y但也有几个值得思考的问题y具体如
下x
?
1?变化捕捉方法读取数据库的日志文件使用数据库触发器数据比
较和在企业程序内编写定制的事件通知
?
2?对操作型系统的入侵程度对系统造成影响由高到低源代码入侵进
程内或地址空间入侵?数据库触发器?不影响应用的操作型数据源?使
用数据库日志?。
捕捉延迟选择cdc解决方案时最主要的考虑因素实时程度越高y
入侵程度越高
?
4?过滤和排序服务过滤保证只有需要的变化才被分发]排序定义了变
化被分发的顺序
?
5?支持多个消费者cdc解决方案需要支持多个消费者y每个消费者可
能具有不同的延迟要求。
失败和恢复保证变化能够被正确分发]恢复时保证变化分发数据流
从最近一次的位置开始y且满足变化事务一致性
?
7?主机和遗产数据源将非关系型数据源映射成关系型数据源再进行
etL
?
8?和etL工具的无缝集成考虑不同etL工具之间的难易程度和互联。
数据集成为分散在企业不同地方的商务数据提供了一个统一的视图我
们可以使用不同的技术来构建这个统一视图这个统一视图可以是一个
物理数据视图y其中的数据来自多个分散的数据源y并被整合存储到一