写点什么

锚定应用!九章云极 DataCanvas 大模型系列成果重磅发布

  • 2023-11-22
    北京
  • 本文字数:2801 字

    阅读完需:约 9 分钟

大小:655.85K时长:03:43
锚定应用!九章云极DataCanvas大模型系列成果重磅发布

11 月 21 日,「筑基赋能 智向未来」九章云极 DataCanvas 大模型系列成果发布会(以下简称“发布会”)在北京重磅召开,本次成果发布距离今年 6 月 30 日 DataCanvas Alaya 九章元识大模型公布仅 4 个多月。


发布会上,九章云极发布了围绕 DataCanvas Alaya 九章元识大模型的开源底层 LLMOps 大模型工具链,开源 Alaya-7B 大模型系列,以及 TableAgent 数据分析智能体等一系列直击应用的大模型创新成果。

Alaya-7B 通识 &对话大模型+ LLMOps 工具链,大模型「全家桶」重磅开源


发布会上,九章云极 DataCanvas 公司自主研发的 DataCanvas Alaya 九章元识大模型矩阵正式开源一系列新成果,其中包括「Alaya-7B 大模型系列」中的 Alaya-7B Foundation Model 通识大模型和 Alaya-7B Chat Model 对话大模型两大模型,以及「LLMOps 大模型工具链」中的 LMS 模型运行工具和 LMPM 提示词管理器两大工具。


九章云极 DataCanvas 公司副总裁于建岗博士介绍,Alaya-7B 大模型系列是 DataCanvas Alaya 九章元识大模型矩阵的成员之一,基于 Alaya 通识大模型,由自我采集、精心筛选处理的万亿 token 数据集(包含网络上的中英文文章、新闻、百科等数据源)上从 0 开始预训练而成。


Alaya-7B Chat Model 是 Alaya-7B Foundation Model 的对话版本,通过在精心选择的微调数据集上进行微调,并对基于涉毒、涉黄以及不良偏见数据进行去毒,从而生成和人类价值观对齐的对话式大模型。Alaya-7B Chat Model 具备多轮对话、自我认知和偏见拒答的能力,能够完成知识问答、代码编写、信息提取、阅读理解、创意写作等多项语言任务。


于建岗博士称,Alaya-7B 大模型系列在保证模型表现的同时,对使用者的安装使用硬件要求更低、应用技术难度更低、训练所需的算力资源消耗更小,有助于加速大模型在各类行业场景的实际应用。


据悉,LLMOps 大模型工具链覆盖了大模型从训练、精调、压缩、部署、推理到监控的全生命周期过程。本次开源两大工具——LMS(Large Model Serving)模型运行工具和 LMPM (Large Model Prompt Manager) 提示词管理器——在大模型业务赋能过程中均起着关键作用。


  • LMS 模型运行工具,能够提高大模型的交付速度和质量,降低大模型的运维和运营成本,以及完成大模型生产化及服务运营等方面的需求。

  • LMPM 提示词管理器,通过帮助用户设计更好的提示词,引导大模型生成更加准确、可靠、符合预期的输出内容。该工具既可面向技术人员提供 development toolkit 的开发模式,也可以面向非技术人员提供人机交互的操作模式,满足更多人群使用大模型的需求。


九章云极 DataCanvas 正在不断尝试工具链、大模型和行业应用的融合创新。此前,工具链之一 DingoDB 多模向量数据库,与 DataCanvas Alaya 九章元识大模型联合打造了企业知识管家解决方案,赋能企业构建高度自动化与智能化的企业知识库,加速多模态大模型落地应用。


从 DingoDB 多模向量数据库、LMS 模型运行工具、LMPM 提示词管理器,到 Alaya-7B 通识+对话大模型系列,九章云极 DataCanvas 已经为用户提供了从数据管理到大模型应用的一站式、0 门槛、全链条开源工具组合。


开源地址

Alaya-7B 大模型:https://github.com/DataCanvasIO/Alaya

DingoDB 多模向量数据库:https://github.com/DingoDB

LMS 模型运行工具:https://github.com/DataCanvasIO/LMS

LMPM 提示词管理器:https://github.com/DataCanvasIO/LMPM


2023 年 7 月 9 日 OpenAI 发布了 Code Interpreter 插件,一时间让人人都是数据分析师的梦想照进现实。其实早在 6 月 28 日九章云极 DataCanvas 公司就已经率先对外发布了 TableGPT,如今 Code Interpreter 更名为 Advanced Data Analysis,而 TableGPT 也带着一系列的重大升级以 TableAgent 为名重装上阵,面向社会开放公测。


TableAgent 是在 DataCanvas Alaya 九章元识大模型基础上开发的能够实现私有化部署的企业级数据分析的智能体,有较强的意图理解能力、分析建模能力和洞察力。TableAgent 在充分的理解用户意图后,自主地利用统计科学、机器学习、因果推断等高级建模技术从数据中挖掘价值,进而提供观点分析和行动指导。主要特征包括:


  • 会话式数据分析,所需即所得;

  • 私有化部署,数据安全;

  • 支持企业级数据分析,大规模、高性能;

  • 支持领域微调,专业化;

  • 透明化过程,审计监督;


TableAgent 公测地址:https://tableagent.datacanvas.com


人人都是数据分析师


TableAgent 本次升级的一大亮点是可以为企业提供私有化部署。Code Interpreter 对国内众多企业用户的最大障碍是企业数据因为安全性、合规等种种原因,不能传输到线上的共有服务平台。TableAgent 为企业提供私有化部署,系统部署在企业内部,数据不外流,从根本上解决了安全合规的问题,同时 TableAgent 也可以满足企业级数据的大规模、高性能分析的要求,这也是 Code Interpreter 目前的短板。

 

数据分析不同于对话、摘要、写作这一类的语言任务,他需要理解数据、理解用户的分析需求,需要能够自动的写代码、调试代码、运行代码,还要理解代码运行生成的数据结果进而从中获得对数据的深刻洞察。

 

尤其是代码生成任务,与一般的写作任务不同,写作可以容忍出现错别字,不会导致内容生成失败,但代码生成任务即便只是变量名错一个字符,都会导致整体无法运行,任务失败。因此基于代码生成来实现开放式数据分析对模型能力是极大的挑战。

 

我们看到目前做数据分析的大模型应用多数是基于固定指标体系或者是对现有分析系统接口的调用,这种技术路线的不需要生成代码,但开放性不足,用户的分析需求受限于现有指标体系的设计和分析系统的能力。TableAgent 选择了难度更高的代码生成路线,创造性的提出专家模型组的方法来解决这些难题。

融合创新应用的新成果

 

九章云极 DataCanvas 公司自主研发的 Alaya 九章元识大模型是 TableAgent 背后的关键技术支撑。在 Alaya 基础大模型之上微调的 Alaya-ZeroX 模型组,通过一系列擅长不同能力的模型组合完成复杂的分析任务。不同参数规模的模型同时满足了对生成质量和推理性能的要求。

 

本次 TableAgent 发布带来的另外一个重要能力是专业化微调,不同行业不同企业在数据分析上有专业的语言背景和分析模型的独特需求,通用的分析工具很难满足专业化的要求,对此 TableAgent 为能够企业提供专业化微调。

 

TableAgent 为此配套设计了 T+(Table Family)系统,能够高效的实现定制化的微调工作,同时系统具有自我迭代的能力,系统性的体系支撑更高效的实现数据分析各个环节的升级,让用户在无感知的情况下即可获得不断升级的数据分析体验。


DataCanvas Table Family (T+)


  • TableAgent:数据分析智能体

  • TableBench:数据分析能力评测基准

  • TableTuning:数据分析 LM 微调

  • TableInstruct:数据分析指令集

  • TableLive:自迭代引擎 Alaya-ZeroX:数据分析 GPT 模型组

  • DeepTables & YLearn:结构化数据深度学习、因果学习工具包


TableAgent 未来将进一步融合非结构化数据的分析能力,并与公司自研的 DingoDB 多模向量数据库、DataCanvas Alaya 九章元识大模型联合创新。未来,将在复杂分析任务、自动化、人机交互、智能体协同等方面进一步升级。

2023-11-22 13:116065
用户头像
李冬梅 加V:busulishang4668

发布了 1188 篇内容, 共 811.4 次阅读, 收获喜欢 1303 次。

关注

评论

发布
暂无评论
发现更多内容

一次解决三大成本问题,升级后的 Zilliz Cloud 如何造福 AIGC 开发者?

Zilliz

SaaS Milvus Zilliz zillizcloud

Kubernetes网络模型Overlay和Underlay

虚实的星空

INFINI Labs 产品更新 | Easysearch 新增 kNN 搜索功能、Console 支持 LDAP 认证登录等

极限实验室

console Gateway 产品更新 easysearch 极限科技

PoseiSwap 更新第二期空投,持有 Zepoch 节点数量将决定空投回报

BlockChain先知

深入解析Redis的LRU与LFU算法实现

vivo互联网技术

redis LRU LFU

5个祖传的Python自动化办公项目,治愈你的抑郁

程序员晚枫

Python 微信 自动化 机器人 办公

中国大模型的落地DNA,写在这个双螺旋结构里

脑极体

AI

人脸识别技术在医疗行业的应用

数据堂

PoseiSwap 更新第二期空投,持有 Zepoch 节点数量将决定空投回报

股市老人

区块链生态架构 | 社区征文

TiAmo

区块链 Baas 年中技术盘点

活动开启 | 以梦筑码 · 不负韶华 开发者故事征集令,讲出你的故事,有机会参加HDC.Together 2023

HarmonyOS开发者

HarmonyOS

拥抱抑郁,制心一处,一切美好是深度投入的产物

B Impact

3DCAT实时云渲染助力VR虚拟现实迈向成熟

3DCAT实时渲染

实时渲染

如何优化Flutter的性能?

没有用户名丶

谈谈我这两年的前端开发经验

树上有只程序猿

为什么多数企业的数字化转型都失败了?

优秀

数字化转型 企业数字化 企业数字化 PaaS 平台

国产化适配再进一步,融云完成欧拉、TDSQL、优炫等多方适配

融云 RongCloud

开源 运维 信创 融云 适配

PoseiSwap 更新第二期空投,持有 Zepoch 节点数量将决定空投回报

鳄鱼视界

知识图谱之《海贼王-ONEPICE》领域图谱项目实战(含码源):数据采集、知识存储、知识抽取、知识计算、知识应用、图谱可视化、问答系统(KBQA)等

汀丶人工智能

自然语言处理 知识图谱 信息抽取

企业内容管理升级 3.0:构建生态协同,助力合规成长

风来兮

软件 电子档案 OCR 合规 #人工智能

WIZMAP-大规模 embedding 向量的可视化交互工具

Zilliz

机器学习 深度学习 Embedding 交互式可视化工具

在现场!2023世界人工智能大会

新云力量

人工智能 AI 人工智能大会

代码随想录训练营 Day09 - 字符串(下)

jjn0703

PoseiSwap 更新第二期空投,持有 Zepoch 节点数量将决定空投回报

西柚子

提升UE5写实效果的项目设置

3DCAT实时渲染

虚幻引擎5 UE5

2023-07-06:RabbitMQ中的AMQP是什么?

福大大架构师每日一题

Rabbit 福大大架构师每日一题

手把手教学构建证券知识图谱/知识库(含码源):网页获取信息、设计图谱、Cypher查询、Neo4j关系可视化展示

汀丶人工智能

人工智能 自然语言处理 nlp 知识图谱

锚定应用!九章云极DataCanvas大模型系列成果重磅发布_生成式 AI_李冬梅_InfoQ精选文章