重构数据处理方式，激活数据生产力

来源：光明网2023-12-15 11:21

　　数据作为一种新兴的生产要素，被称为数字时代的“新石油”，是基础性资源和战略性资源，也是重要的生产力。如何更高效地管理和利用数据，推动数据资源转化为数字资产，成为了各行各业面临的关键问题。

　　12月15日，Aloudata发布三款产品Aloudata AIR、Aloudata BIG、Aloudata CAN，依托自主研发的数据虚拟化引擎、数据语义引擎和主动元数据引擎描绘出一份自动化数据集成与管理的答卷，开创了“面向未来的 NoETL 数据工程架构”。

　　Aloudata创始人、CEO周卫林介绍，传统的数据处理采用ETL架构，是将企业中的分散、零乱、标准不统一的数据整合到一起，经过提取（Extract）、转换清洗（Transform）、加载（Load）到数据仓库和大数据平台，从而为企业的决策提供分析依据。

　　但随着数据量的不断增加，企业正在经历从大型数据仓库到大数据和数据湖的演变。传统的ETL架构已经不足以满足企业的数字化需求。Gartner数据显示，当前有68%的企业数据没有被分析，多达 82%的企业受到数据孤岛的阻碍。

　　NoETL应运而生，周卫林介绍，NoETL 是一种分布式的数据处理方式，它不需要进行复杂的人工调度和依赖管理，可以通过虚拟化手段快速连接数据孤岛，并最大程度实现自动化的数据准备、语义建模和指标开发等数据分析和处理流程。

　　这一架构和Data Fabric理念不谋而和。根据Forrester的定义，Data Fabric是指以一种智能和安全的并且是自服务的方式，动态地协调分布式的数据源，跨数据平台地提供集成和可信赖的数据，支持广泛的不同应用的分析和使用场景。

　　Gartner认为，未来的数据管理就像是“具备自动驾驶能力的汽车”，Data Fabric是一种新型的数据管理架构和理念，它强调将数据编织在一起，使得当人们需要数据时，只需从这个编织好的网络中提取所需数据。

　　周卫林解释，NoETL的本质是对ETL过程的透明化和自动化，具体来讲就是做到No Pipelines(没有数据管道)、No Tasks(没有任务运维)、No Cubes(没有性能调优)，实现在数据处理和分析环节，用户无需搭建复杂ETL链路、无需等待漫长排期即可灵活分析所有数据，让企业的数据管理从“被动式”转变为“主动式”，实现数据管理的“自动驾驶”。

　　“归根到底，Data Fabric的核心在于将有质量保障的数据及时交付给合适的人，这正是NoETL的目标”，Aloudata CPO肖裕洪表示，这意味着无论数据存放在哪里，无论其格式如何，系统都能够在正确的时间向正确的人提供正确的数据。“这种交付是及时的，且数据的使用应该是安全合规的，防止数据的滥用。”

　　肖裕洪介绍，为了实现这一目标，需要具备两个关键能力。首先，它需要一个增强的数据目录，这个目录能够动态搜罗企业中的所有数据，并将数据的技术术语转换为业务上的术语，使得人们能够使用自己的业务语言就能找到所需数据。此外，这个目录还需要具备智能化推荐功能，根据用户的需求和使用习惯，主动将数据推荐给适合使用它的人。

　　此外，NoETL还需要具备虚拟的数据访问能力。这意味着用户在找到所需的数据后，系统能够动态地协调这些分散的数据源，然后生成并提供用户所需的数据。这种能力使得用户无需关心数据的来源和格式，只需关注如何利用这些数据解决问题。

　　肖裕洪强调，NoETL不仅解决了传统数据管理方式的困境，还为我们打开了一个全新的数据管理时代。在这个时代，数据的获取和使用变得更加便捷和高效，数据的价值和影响力得到了极大的释放。无论是个人还是企业，都能够更好地利用NoETL带来的优势，实现数据的共享、整合和最大化利用。（宋雅娟）

[ 责编：谢芸 ]

阅读剩余全文（）