内置于Pentaho Data Integration (Kettle)
GEM——通用ETL机器动机!想象一下,这个框架不仅能半自动化地处理日志记录、监控、数据沿袭等常见功能,还能加快开发周期!是不是很神奇?它的目标是限制PDI中的配置数量,让ETL开发变得飞快。核心概念之一是进程:这是ETL的独立部分,由特定的源(比如某个数据库、文件类型、Web服务)和一个公共目标(如临时数据库或数据仓库)定义。
每个进程包含一个或多个任务,这些任务由原子数据的提取、转换和加载组成。无论它读取多少源表或文件,每个任务都会被单一目标表定义,任务都会记录在ETL数据库的task_log
表中。而运行则是ETL的单次执行,迭代所有进程和任务,运行结果被记录在etl_log
表中。
关于环境,你有没有好奇它是什么呢?其实,它只是标识运行GEM的机器名称。通常是dev、uat或prod,但你完全可以用其他名称,比如说,叫它nelson-la也行啊!
如果你想进一步探索这些内容,不妨看看这些资料:有关于大数据处理的ETL框架的研究与设计(详情请点击这里),还有基于Oracle的简单ETL框架(点击这里了解更多),以及ETL测试的自动化执行及回归(更多内容请点击)。这些链接可以帮助你更深入地理解ETL的神奇世界!是不是有点激动呢?快来一探究竟吧!
用户评论