详谈数据同步工具ETL、ELT,反向ETL
什么是数据同步工具?
数据同步工具的作用是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。数据同步是大数据项目重要的一个环节。
关于ETL、ELT与反向ETL
何为ETL?
将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
ETL的理念着重体现在一些数据清洗转化功能,比如空值处理、规范化数据、数据替换、数据验证等等。
何为ELT?
将数据从来源端经过抽取(extract)、加载(load)、转换(transform)至目的端的过程。
在数据湖或数据中台则往往会采用ELT的方式进行数据同步。
ELT首先把数据用一种高效的方式从数据源抽取出来,然后在数据仓库中进行数据的转换处理。这种ELT的方式相比于ETL有很大的优势,从ETL到ELT的改变主要得益于云的普及,让存储成本下降,从而使得传统ETL这种将数据处理分段,只存储重要结果性数据的方式得以被改变。同时国内也出现了创新的技术路线:采用ELT+A(Active)的模式,来提升企业利用数据价值的效率 。
何为反向ETL?
反向ETL是一种提取已清理的和处理过的数据架构。它会将数据从数据仓库(或数据湖/集市)复制到一个或多个操作系统。数据可以被重新引入诸如Salesforce等其他应用程序,可用于业务运营和预测。通过操作已提取的数据源,各类用户可以使用常用的工具来访问数据,并获取相关的洞见。作为现代化数据技术栈的组件,反向ETL允许企业开展那些比单独使用商业智能(BI)工具,更为复杂的分析。
作为一种战略性全新的集成流程,反向ETL可以减少那些快速发展型企业在数据分析上花费的时间。该流程更专注于将数据与业务用户的操作工具相同步,以激活数据仓库中的数据。用户必须事先定义好数据,并将其映射到最终目的地的适当列/字段上。
同时,由于企业的数据存储(如,数据参考或关系数据库)已成为一种并非所有人都可以完全访问到的存储库,因此,我们需要通过反向ETL,来为不同的业务角色提供基本的数据。