DataFlow 源码
产品开发背景 DataFlow是基于应用程序日志流的一套分布式ETL系统服务组件,其前身是LogCollector2.0日志系统框架,自LogCollector3.0版本开始正式更名为DataFlow3.0。 Sqoop等也可以完成日志的采集,传输,转换和存储;但这些工具都不存在事务一致性。等因素导致连接远端服务的发送器组件失败,而此时收集器组件可能并不知情,数据仍然会继续传送到通道组件,这容易导致通道组件内存占用从而引发OOM错误;并通过通道错误导致实时收集的数据发送失败,收集器也没有记录实时检查点,这意味着发送失败的数据将面临丢失。发生所有这些问题的根源在于公网传递数据的不稳定性所致,因此Flume是在这种问题背景的需求驱动下产生了DataFlow这款产品,DataFlow完全按照产品级标准使用JAVA语言进行开发,安装时无需再安装外置JDK支持,解压开箱即用。 产品功能特性 Data
用户评论