AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

锚定应用!九章云极 DataCanvas 大模型系列成果重磅发布

  • 2023-11-22
    北京
  • 本文字数:2801 字

    阅读完需:约 9 分钟

大小:655.85K时长:03:43
锚定应用!九章云极DataCanvas大模型系列成果重磅发布

11 月 21 日,「筑基赋能 智向未来」九章云极 DataCanvas 大模型系列成果发布会(以下简称“发布会”)在北京重磅召开,本次成果发布距离今年 6 月 30 日 DataCanvas Alaya 九章元识大模型公布仅 4 个多月。


发布会上,九章云极发布了围绕 DataCanvas Alaya 九章元识大模型的开源底层 LLMOps 大模型工具链,开源 Alaya-7B 大模型系列,以及 TableAgent 数据分析智能体等一系列直击应用的大模型创新成果。

Alaya-7B 通识 &对话大模型+ LLMOps 工具链,大模型「全家桶」重磅开源


发布会上,九章云极 DataCanvas 公司自主研发的 DataCanvas Alaya 九章元识大模型矩阵正式开源一系列新成果,其中包括「Alaya-7B 大模型系列」中的 Alaya-7B Foundation Model 通识大模型和 Alaya-7B Chat Model 对话大模型两大模型,以及「LLMOps 大模型工具链」中的 LMS 模型运行工具和 LMPM 提示词管理器两大工具。


九章云极 DataCanvas 公司副总裁于建岗博士介绍,Alaya-7B 大模型系列是 DataCanvas Alaya 九章元识大模型矩阵的成员之一,基于 Alaya 通识大模型,由自我采集、精心筛选处理的万亿 token 数据集(包含网络上的中英文文章、新闻、百科等数据源)上从 0 开始预训练而成。


Alaya-7B Chat Model 是 Alaya-7B Foundation Model 的对话版本,通过在精心选择的微调数据集上进行微调,并对基于涉毒、涉黄以及不良偏见数据进行去毒,从而生成和人类价值观对齐的对话式大模型。Alaya-7B Chat Model 具备多轮对话、自我认知和偏见拒答的能力,能够完成知识问答、代码编写、信息提取、阅读理解、创意写作等多项语言任务。


于建岗博士称,Alaya-7B 大模型系列在保证模型表现的同时,对使用者的安装使用硬件要求更低、应用技术难度更低、训练所需的算力资源消耗更小,有助于加速大模型在各类行业场景的实际应用。


据悉,LLMOps 大模型工具链覆盖了大模型从训练、精调、压缩、部署、推理到监控的全生命周期过程。本次开源两大工具——LMS(Large Model Serving)模型运行工具和 LMPM (Large Model Prompt Manager) 提示词管理器——在大模型业务赋能过程中均起着关键作用。


  • LMS 模型运行工具,能够提高大模型的交付速度和质量,降低大模型的运维和运营成本,以及完成大模型生产化及服务运营等方面的需求。

  • LMPM 提示词管理器,通过帮助用户设计更好的提示词,引导大模型生成更加准确、可靠、符合预期的输出内容。该工具既可面向技术人员提供 development toolkit 的开发模式,也可以面向非技术人员提供人机交互的操作模式,满足更多人群使用大模型的需求。


九章云极 DataCanvas 正在不断尝试工具链、大模型和行业应用的融合创新。此前,工具链之一 DingoDB 多模向量数据库,与 DataCanvas Alaya 九章元识大模型联合打造了企业知识管家解决方案,赋能企业构建高度自动化与智能化的企业知识库,加速多模态大模型落地应用。


从 DingoDB 多模向量数据库、LMS 模型运行工具、LMPM 提示词管理器,到 Alaya-7B 通识+对话大模型系列,九章云极 DataCanvas 已经为用户提供了从数据管理到大模型应用的一站式、0 门槛、全链条开源工具组合。


开源地址

Alaya-7B 大模型:https://github.com/DataCanvasIO/Alaya

DingoDB 多模向量数据库:https://github.com/DingoDB

LMS 模型运行工具:https://github.com/DataCanvasIO/LMS

LMPM 提示词管理器:https://github.com/DataCanvasIO/LMPM


2023 年 7 月 9 日 OpenAI 发布了 Code Interpreter 插件,一时间让人人都是数据分析师的梦想照进现实。其实早在 6 月 28 日九章云极 DataCanvas 公司就已经率先对外发布了 TableGPT,如今 Code Interpreter 更名为 Advanced Data Analysis,而 TableGPT 也带着一系列的重大升级以 TableAgent 为名重装上阵,面向社会开放公测。


TableAgent 是在 DataCanvas Alaya 九章元识大模型基础上开发的能够实现私有化部署的企业级数据分析的智能体,有较强的意图理解能力、分析建模能力和洞察力。TableAgent 在充分的理解用户意图后,自主地利用统计科学、机器学习、因果推断等高级建模技术从数据中挖掘价值,进而提供观点分析和行动指导。主要特征包括:


  • 会话式数据分析,所需即所得;

  • 私有化部署,数据安全;

  • 支持企业级数据分析,大规模、高性能;

  • 支持领域微调,专业化;

  • 透明化过程,审计监督;


TableAgent 公测地址:https://tableagent.datacanvas.com


人人都是数据分析师


TableAgent 本次升级的一大亮点是可以为企业提供私有化部署。Code Interpreter 对国内众多企业用户的最大障碍是企业数据因为安全性、合规等种种原因,不能传输到线上的共有服务平台。TableAgent 为企业提供私有化部署,系统部署在企业内部,数据不外流,从根本上解决了安全合规的问题,同时 TableAgent 也可以满足企业级数据的大规模、高性能分析的要求,这也是 Code Interpreter 目前的短板。

 

数据分析不同于对话、摘要、写作这一类的语言任务,他需要理解数据、理解用户的分析需求,需要能够自动的写代码、调试代码、运行代码,还要理解代码运行生成的数据结果进而从中获得对数据的深刻洞察。

 

尤其是代码生成任务,与一般的写作任务不同,写作可以容忍出现错别字,不会导致内容生成失败,但代码生成任务即便只是变量名错一个字符,都会导致整体无法运行,任务失败。因此基于代码生成来实现开放式数据分析对模型能力是极大的挑战。

 

我们看到目前做数据分析的大模型应用多数是基于固定指标体系或者是对现有分析系统接口的调用,这种技术路线的不需要生成代码,但开放性不足,用户的分析需求受限于现有指标体系的设计和分析系统的能力。TableAgent 选择了难度更高的代码生成路线,创造性的提出专家模型组的方法来解决这些难题。

融合创新应用的新成果

 

九章云极 DataCanvas 公司自主研发的 Alaya 九章元识大模型是 TableAgent 背后的关键技术支撑。在 Alaya 基础大模型之上微调的 Alaya-ZeroX 模型组,通过一系列擅长不同能力的模型组合完成复杂的分析任务。不同参数规模的模型同时满足了对生成质量和推理性能的要求。

 

本次 TableAgent 发布带来的另外一个重要能力是专业化微调,不同行业不同企业在数据分析上有专业的语言背景和分析模型的独特需求,通用的分析工具很难满足专业化的要求,对此 TableAgent 为能够企业提供专业化微调。

 

TableAgent 为此配套设计了 T+(Table Family)系统,能够高效的实现定制化的微调工作,同时系统具有自我迭代的能力,系统性的体系支撑更高效的实现数据分析各个环节的升级,让用户在无感知的情况下即可获得不断升级的数据分析体验。


DataCanvas Table Family (T+)


  • TableAgent:数据分析智能体

  • TableBench:数据分析能力评测基准

  • TableTuning:数据分析 LM 微调

  • TableInstruct:数据分析指令集

  • TableLive:自迭代引擎 Alaya-ZeroX:数据分析 GPT 模型组

  • DeepTables & YLearn:结构化数据深度学习、因果学习工具包


TableAgent 未来将进一步融合非结构化数据的分析能力,并与公司自研的 DingoDB 多模向量数据库、DataCanvas Alaya 九章元识大模型联合创新。未来,将在复杂分析任务、自动化、人机交互、智能体协同等方面进一步升级。

2023-11-22 13:115803
用户头像
李冬梅 加V:busulishang4668

发布了 1062 篇内容, 共 679.7 次阅读, 收获喜欢 1223 次。

关注

评论

发布
暂无评论
发现更多内容

4个维度重构组织能力,实现人力资源数智化

用友BIP

人力资源

GaussDB(for Redis)多租户:读写权限控制和数据库隔离的完美融合

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

共话AIGC与企业数字化转型 PolarDB开源数据库技术沙龙南京站报名中!

阿里云数据库开源

数据库 postgresql 阿里云 开源 polarDB

软件测试 |BTREE索引与HASH索引

测吧(北京)科技有限公司

测试

软件测试 | MySQL创建或者修改视图

测吧(北京)科技有限公司

测试

前端视角的可观测性(一)

林十二XII

黄东旭:The Future of Database,掀开 TiDB Serverless 的引擎盖

PingCAP

数据库 开源 TiDB pingCAP

HDMI接口需注意的PCB可制造性设计问题

华秋PCB

接口 工具 PCB PCB设计 可制造性

实践分析丨AscendCL应用编译&运行案例

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 7 月 PK 榜

MatrixOne:HTAP数据库中的OLAP设计

MatrixOrigin

云原生 超融合 HTAP MatrixOrigin MatrixOne

PingCAP 陈煜琦:深耕中国市场,构建客户成功生态

PingCAP

MySQL 数据库 开源 TiDB pingCAP

用友BIP助力企业全球化运营与人才管理

用友BIP

中企出海 数智人力

MobPush 创建推送

MobTech袤博科技

前端 消息推送 智能推送 前端‘’ 推送系统

中原银行SQL治理实践

中原银行

SQL优化

基于开源IM即时通讯框架MobileIMSDK:RainbowChat v9.0版已发布

JackJiang

网络编程 即时通讯 IM

动态QPS压测模型【Go语言】

FunTester

Swagger 自动生成 Api 文档:提高效率的利器

Liam

程序员 接口文档 swagger 自动生成 API 文档

揭秘ChaosBlade CPU故障:实现CPU故障的黑科技

柠檬汁Code(binbin0325)

源码分析 cpu 混沌工程 ChaosBlade 故障模拟

使用 njs 0.7.7 提高 NGINX 配置的模块化程度和可复用性

NGINX开源社区

Flink Metrics&REST API 介绍和原理解析

腾讯云大数据

流计算 Oceanus

Docker 入门教程(简明易懂、零基础篇)

搞大屏的小北

Docker 容器 Docker-compose 入门 Docker 镜像

软件测试 | 创建触发器

测吧(北京)科技有限公司

测试

2023年广西等保测评机构名单看这里!新增一家哦!

行云管家

广西 等级保护 等保测评

扫盲低代码

互联网工科生

前端 低代码 应用开发

5分钟迁移关系型数据库到图数据库

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

Vulkan并非“灵药“

江湖修行

移动端 opengl Android; 渲染

中小微企业选择哪家云管平台好?理由有哪些?

行云管家

云计算 云管平台 云管理

锚定应用!九章云极DataCanvas大模型系列成果重磅发布_生成式 AI_李冬梅_InfoQ精选文章