大数据在大模型趋势下的“新姿态”：大模型与企业数据充分协同

随着大数据、人工智能和云计算等技术的不断发展，大模型成为了企业数据体系中不可或缺的一部分。大模型趋势下，企业数据体系面临着新的挑战和机遇。比如，大模型的训练需要大量的数据，而数据的收集、清洗和处理需要耗费大量时间和人力。同时，大模型的训练需要高性能计算资源，这需要企业进行大量的投资，而且大模型的训练和推理需要强大的算法和计算能力，这进一步增加了技术难度和成本。

然而，大模型趋势也为企业数据体系带来了新的机遇。企业需要加强数据治理、数据存储、数据安全、数据整合、数据分析和挖掘以及业务应用等方面的能力，以应对大模型趋势带来的挑战和机遇，实现数字化转型。为此，在数据治理领域有多年实践经验的何昌华博士在刚刚结束的 ArchSummit 全球架构师峰会 2023（深圳站）中就《大模型趋势下的企业数据体系思考》展开了分享，他从“大模型的火爆引发数据处理进入新次元”等行业背景、“大模型时代的数据处理新需求及传统数据架构的桎梏”、“大模型时代的企业数据处理发展趋势”、“企业数据架构演变的前瞻展望”四个方面展开了分享，输出了众多精彩观点。

何昌华博士，斯坦福大学 PhD，数巅科技创始人、CEO。之前曾经在蚂蚁集团担任计算智能部门负责人，计算存储首席架构师；2017 年之前在硅谷任职于 Google，Airbnb 等互联网公司。在过往职业生涯中，何昌华主导开发过实时智能决策系统、金融级的分布式图数据库、新一代分布式计算引擎、下一代逻辑数仓、新一代搜索引擎架构等。

何博士从最开始用 MATLAB 写一些很简单的神经网络，到在 Google 的时候接触深度学习并在业务上有越来越多的应用，到后来蚂蚁时期做大规模搜索推荐的一些模型以及图学习的一些工作，经历了神经网络发展的完整过程。

一、大模型在企业落地过程中，对“数据体系”有三大需求

何昌华创建的数巅科技愿景是“让数据智能像水电一样简单”，希望数据智能可以让大家真正在企业内部采用，这本质上是非常高门槛的一件事情。过去半年大模型的飞速发展给行业非常大的震撼，数巅科技近期在大模型上也做了一些事情，探索怎么能让大模型跟企业数据充分的协同起来，这样能够真正释放大模型的潜力，能够释放大数据的价值。

很多人说，是不是大模型无穷的发展下去有足够大的规模，企业就可以把所有的数据灌进去，目前主流的数据计算存储体系以后就不再需要了。数巅科技却不是这样认为的——大模型不能取代数据计算存储体系的作用，其实大模型是需要跟企业的数据做深度协同才能够真正地做出一个好的决策。因为这些数据（尤其是结构化数据）的规模远超大模型，并且数据驱动的决策里面往往需要精确的计算。

为了让大家更明了地了解企业需求，在演讲中，何博士为大家介绍了大模型在企业内部落地的过程，引用了一个知名投资机构 A16Z 的图示，“事实上现在业界很多的框架也都是这种模式。大家可以看到只有在右边一个小的框里面是大模型，整条链路上其实其它的内容占了非常大的部分。”

图：大模型应用一般流程

流程的第一部分就是数据的加载和接入。我们都知道，大模型的构建肯定是要用到数据的，大模型可以接到大量各种各样的数据，但是对企业数据体系提出了一个非常重要的需求，就是希望数据是一个统一的高质量资产，可能是多模态的数据、有多种格式，也可能是需要有清晰的血缘定义，要求非常严格。

第二部分是编排框架。其实在大模型刚出来的时候大家还没有想到这条路，但是后来大家看到 OpenAI 发布了他们的 PLUGINS，它可以调用你的函数。通过大模型给出一些建议以后，调用 PLUGINS Function 真正实现它的功能，在这里最重要的是究竟有多少数据分析、模型甚至是深度的归因分析这样的自动化工具。总之，所有的这一切都是走向企业智能化应用的必经之路。

此外，我们还可以看到，大模型跟数据的交互非常频繁。何博士举了一个例子：“当企业要做一个决策，希望通过一个清晰的报表看一下过去三个月的交易额的变化来决定业务未来如何调整，但是真正的大模型可能比人做出更好的决策，它可能看的是 10 个指标，然后做对比进行反复的迭代，最后找到最优指标。在这种情况下，大家可以看到它的计算模式对计算量的需求是有数量级的增长的。”

由这个流程我们可以判断，统一的数据资产、自动化工具以及高效的计算能力，这三个需求是大模型在企业内部会碰到的最核心的三个需求。

面对这三个核心需求，现有的数据体系目前在这方面遇到很多问题，包括数据中台在内的各种方案都不好解决。计算机科学里面有一句话：当你发现一个问题很难解决的时候，你可以加入一层 indirection，所以数巅科技决定用数据虚拟化的技术来解决这个问题。其实数据虚拟化并不是一个新概念，但数巅科技的做法相较于目前行业还是有比较大的区别和创新，我们可以看下数巅科技的“智能数据虚拟化技术”的架构图：

图：智能数据虚拟化技术

按照从下到上的顺序，我们先看第一层是现在主流的一些数据体系，有各种各样的引擎在系统内计算存储数据。第二层数据连接层，相当于是定义了一个虚拟的能够连接到外部物理层的数据连接，在这一层虚拟化之后，事实上“我的数据”就是数据本身，它跟数据源就被解耦开了，虽然这种情况现在有很多引擎也可以做到，比如 Presto，data federation 工具等，但数巅科技认为在这一层之上还应该有更高层次的数据虚拟化。

譬如说企业在上面建立的一些数据虚拟表，这个通常是数据建模的过程，用户会直接消费这些数据表。同时在更上层，企业可以根据业务模型来建一些更上层的虚拟表，一层一层这样起来，大家可以看到整个建设过程其实是完全一个数据的语义，它不涉及到任何系统的改动或者任何中间表的加工。

这个概念及架构看似非常简单，但是整套体系最核心的问题就是计算能力。大家知道大数据整个历史之所以发展起来，就是因为数据量太大了，需要有强大的计算能力，需要有中间结果，需要不停地一层一层加工等等。在数巅科技的虚拟化引擎之中，所有这些技术上的实现细节都是通过智能化的手段来完成，譬如自动的生成物化视图，自动 check 数据的血源，非常高效。中间包括虚拟表组织、自动的物化血源以及自动优化这一整套技术功能，我们把它叫做一个数据虚拟化的引擎。因为一般企业已经有数据仓库或者数据湖，或者至少有一些数据源，所以基于企业现有的数据架构，数据虚拟化引擎的位置是在数据源与数据消费者之间。它会给消费者提供一个虚拟视图的数据去消费，消费者只需要关注数据究竟是什么业务语义，而不需要关注数据的“具体位置”、“用什么引擎”、“该如何取用”。与此同时，用户也包含一些与深度学习及大模型紧密连接的操作行为，当大模型进行数据调用的时候，通过虚拟化引擎的接口调用数据会更加的高效。

二、“数据虚拟化引擎”将切实解决企业业务需求

企业需求已经明确了，那如何解决这些需求呢？数巅科技给出了解决方案——数据虚拟化技术。面对企业的三个业务需求，数巅科技也分别从三个维度上提出自己的解决方案。

图：数据虚拟化技术解决三大需求

第一，统一数据资产。用虚拟表的语义很容易接入一个数据资产，定义一个虚拟表，map 外部数据源之后就形成了一份虚拟数据，其它工作都由虚拟化引擎内部执行完成。这其中，虚拟化引擎内置了对外部数据的格式转化，加速以及预处理的过程。

当用户在使用虚拟表数据的时候，如果需要新增表，或者衍生出新的数据资产，可以非常快速地新增虚拟表。虚拟化引擎由于是自动化的分析与执行，因此所有的数据血源都是可被追踪的，一旦有完整或部分的 SQL 来访问相同数据的时候，虚拟化引擎就会把它合并掉，资产被定义的 SQL 语义所唯一决定，由此不会存在有二义性的资产。

第二，实现数据驱动的自动化工具。在 OpenAI 的大模型里面，可以对接很多 PLUGINS，包括后面发布的支持函数的功能，它可以去帮你订票，可以去做跟第三方应用的对接，这些都属于一个大的生态。当我们聚焦到在企业内部做决策的场景时，自动化工具往往需要的是数据驱动，虚拟化引擎能够给它提供强大的能力。

举一个智能运营的场景案例，比如说用户要找到新信用卡发行的运营客群，大模型根据自身知识告诉你“日均交易金额按一定的阶段性区间来分成”这个信号可能非常有用，它就会到数据系统里面去找。在这个过程中，我们会发现，在特征宽表里面没有这样一个特征，但是有另外一个特征叫“日均交易金额”，按照常规流程我们就需要请数据工程师帮忙加工出“日均交易金额的分成”这个新特征，加工完了他还得合并到一个表，再把这个表推到线上服务系统，由我的模型这个工具来访问它才能够 work。

但在虚拟化引擎体系里面这个动作可以自动化完成，快速得到新特征，做出更好的决策。整个数据可以自动根据大模型的需求灵活扩充和加工，实现数据驱动自动化的关键一步。如果整条链路自动化，不需要人工加工新特征，才能真正实现大模型效果。

第三，高效的计算能力。能不能满足企业需求，最核心的要义就是“足够高效的计算”，包括预计算。通过虚拟表来访问底下的数据，能不能够做到与以前人工加工同样甚至更好的效果。关于这一点，数巅科技有两个核心探索：

智能加速，分析 SQL 能够做物化视图的优化

物化视图其实在数据库里是一个老课题，但因为数据库涉及到事务性，这一块在数据库里没有体现革命性的变化，然而在大数据分析这个领域，它其实是可以具备革命性的。物化视图技术本质上解决了人工去做 ETL 的过程。

数巅科技目前正在分阶段解决这个问题，目前是数据清洗通过人工加工、手工创建 DWD，到之后自动生成物化视图这种混合模式，但随着阶段的推进，之后做到完全的自动化效果会非常的好。对用户而言，直接消费的主体就是一个虚拟的宽表，不需要感知底层是实时数据还是批量数据，存在哪个引擎，用什么样的存储来处理，所以对用户来说他的体感非常好。

真正好用、高效的“计算存储底盘”

其实像 data fabric 等虚拟化的概念都是停留在了第一步，没有能够再往前继续走一步，而数巅科技觉得它的体系里面缺少了非常重要的一环——真正的存储。存储在这里是一个高效缓存，有 KV、图等多种格式。另外存储性能也是很关键的能力，但是我们要把存储用 SSD 做到跟内存几乎一样的性能。

此外，何博士表示，除了以上三个方面，计算引擎的优化也非常重要——数巅科技认为引擎最核心的能力应该就是 join，他们会把外部的数据做一些预计算，形成中间表放到高效存储，同时会有索引在高效存储里面建立起来。另外如果需要，也会直接去读取外部的数据。在这种情况下，引擎的能力就是企业能够快速地拿到外部数据以后把它 join 成为最后的结果，这个也是数巅科技目前最强大的一个能力。比如有些引擎擅长于做批处理、增量处理，便可以完全复用他们的能力去调用它。

据相关数据统计，经过以上这个完整的“技术栈的智能优化”闭环，与主流产品相比，数据查询的性能可以提升 10 倍以上。

三、大模型与企业数据的“终极未来”：充分协同

过去大数据和 AI 一直面临着一个问题，那就是虽然具有强大的能力，而且也很容易演示，但是在各种场景下能否被广泛地使用一直是一个挑战。何博士认为，这是判断大语言模型是否是这次工业革命的颠覆者的一个关键判断条件，只有当大语言模型能够在各种场景下被广泛应用，才能真正展现出其潜力和价值。

这就意味着，在企业部署大模型之后，构建可以自我演进的大模型框架是一个关键课题，自我迭代的大模型应用框架可以帮助企业根据自己的数据体系来构建大模型应用，让企业数据与大模型充分协同后发挥出最大价值。

图：自我迭代的企业大模型应用框架

在大模型与企业数据充分协同这一方面，数巅科技也做了许多探索——自我迭代的企业大模型应用框架。该框架可以接入各种大模型，将用户问题分解为一系列任务并分配执行。执行任务需要使用数据，虚拟化引擎统一管理数据资产，实现了高效计算，执行过程中，进行评估并反馈结果给用户，反馈包括人工标注微调的样本，虚拟化引擎管理数据传回给大模型进行调试。在这个体系中，大模型起到逻辑推理的作用，这是其更稀缺的能力之一。另外值得一提的是，在面对“大模型充当的知识库功能”这一企业诉求中，企业可以完全利用这套数据体系来组织，对比其他方式，它更实时，而且可以说，只要能够跟大模型的逻辑能力交互起来，这个体系就能为企业提供更好的服务。

然而，观察当下所有的大模型应用场景，很多人都会疑虑“大模型会不会吃掉一切”，何博士给出的观点非常值得大家思考，“关于大模型的未来，尤其是在企业内部，大模型跟企业数据同时都是需要的，我们要做的事情是让这两者能够充分的协同起来，能够真正在广泛的业务场景下帮助实现智能决策。”

目前数巅科技的愿景就是完美实现“大模型与企业数据的充分协同”，正如何博士在演讲后接受 InfoQ 专访时所说的那样，“我希望企业可以通过我们的产品能够充分地把数据能够管好、用好，能够跟大模型深度地协同起来，为企业提供智能的业务决策能力。”

以下附何博士在演讲后接受 InfoQ 专访的视频实录，大家可以一起再去深度了解下何博士对于“大模型与企业数据治理领域发展”的观察：

创作场景

大数据在大模型趋势下的“新姿态”：大模型与企业数据充分协同

一、大模型在企业落地过程中，对“数据体系”有三大需求

二、“数据虚拟化引擎”将切实解决企业业务需求

三、大模型与企业数据的“终极未来”：充分协同