NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

锚定应用!九章云极 DataCanvas 大模型系列成果重磅发布

  • 2023-11-22
    北京
  • 本文字数:2801 字

    阅读完需:约 9 分钟

大小:655.85K时长:03:43
锚定应用!九章云极DataCanvas大模型系列成果重磅发布

11 月 21 日,「筑基赋能 智向未来」九章云极 DataCanvas 大模型系列成果发布会(以下简称“发布会”)在北京重磅召开,本次成果发布距离今年 6 月 30 日 DataCanvas Alaya 九章元识大模型公布仅 4 个多月。


发布会上,九章云极发布了围绕 DataCanvas Alaya 九章元识大模型的开源底层 LLMOps 大模型工具链,开源 Alaya-7B 大模型系列,以及 TableAgent 数据分析智能体等一系列直击应用的大模型创新成果。

Alaya-7B 通识 &对话大模型+ LLMOps 工具链,大模型「全家桶」重磅开源


发布会上,九章云极 DataCanvas 公司自主研发的 DataCanvas Alaya 九章元识大模型矩阵正式开源一系列新成果,其中包括「Alaya-7B 大模型系列」中的 Alaya-7B Foundation Model 通识大模型和 Alaya-7B Chat Model 对话大模型两大模型,以及「LLMOps 大模型工具链」中的 LMS 模型运行工具和 LMPM 提示词管理器两大工具。


九章云极 DataCanvas 公司副总裁于建岗博士介绍,Alaya-7B 大模型系列是 DataCanvas Alaya 九章元识大模型矩阵的成员之一,基于 Alaya 通识大模型,由自我采集、精心筛选处理的万亿 token 数据集(包含网络上的中英文文章、新闻、百科等数据源)上从 0 开始预训练而成。


Alaya-7B Chat Model 是 Alaya-7B Foundation Model 的对话版本,通过在精心选择的微调数据集上进行微调,并对基于涉毒、涉黄以及不良偏见数据进行去毒,从而生成和人类价值观对齐的对话式大模型。Alaya-7B Chat Model 具备多轮对话、自我认知和偏见拒答的能力,能够完成知识问答、代码编写、信息提取、阅读理解、创意写作等多项语言任务。


于建岗博士称,Alaya-7B 大模型系列在保证模型表现的同时,对使用者的安装使用硬件要求更低、应用技术难度更低、训练所需的算力资源消耗更小,有助于加速大模型在各类行业场景的实际应用。


据悉,LLMOps 大模型工具链覆盖了大模型从训练、精调、压缩、部署、推理到监控的全生命周期过程。本次开源两大工具——LMS(Large Model Serving)模型运行工具和 LMPM (Large Model Prompt Manager) 提示词管理器——在大模型业务赋能过程中均起着关键作用。


  • LMS 模型运行工具,能够提高大模型的交付速度和质量,降低大模型的运维和运营成本,以及完成大模型生产化及服务运营等方面的需求。

  • LMPM 提示词管理器,通过帮助用户设计更好的提示词,引导大模型生成更加准确、可靠、符合预期的输出内容。该工具既可面向技术人员提供 development toolkit 的开发模式,也可以面向非技术人员提供人机交互的操作模式,满足更多人群使用大模型的需求。


九章云极 DataCanvas 正在不断尝试工具链、大模型和行业应用的融合创新。此前,工具链之一 DingoDB 多模向量数据库,与 DataCanvas Alaya 九章元识大模型联合打造了企业知识管家解决方案,赋能企业构建高度自动化与智能化的企业知识库,加速多模态大模型落地应用。


从 DingoDB 多模向量数据库、LMS 模型运行工具、LMPM 提示词管理器,到 Alaya-7B 通识+对话大模型系列,九章云极 DataCanvas 已经为用户提供了从数据管理到大模型应用的一站式、0 门槛、全链条开源工具组合。


开源地址

Alaya-7B 大模型:https://github.com/DataCanvasIO/Alaya

DingoDB 多模向量数据库:https://github.com/DingoDB

LMS 模型运行工具:https://github.com/DataCanvasIO/LMS

LMPM 提示词管理器:https://github.com/DataCanvasIO/LMPM


2023 年 7 月 9 日 OpenAI 发布了 Code Interpreter 插件,一时间让人人都是数据分析师的梦想照进现实。其实早在 6 月 28 日九章云极 DataCanvas 公司就已经率先对外发布了 TableGPT,如今 Code Interpreter 更名为 Advanced Data Analysis,而 TableGPT 也带着一系列的重大升级以 TableAgent 为名重装上阵,面向社会开放公测。


TableAgent 是在 DataCanvas Alaya 九章元识大模型基础上开发的能够实现私有化部署的企业级数据分析的智能体,有较强的意图理解能力、分析建模能力和洞察力。TableAgent 在充分的理解用户意图后,自主地利用统计科学、机器学习、因果推断等高级建模技术从数据中挖掘价值,进而提供观点分析和行动指导。主要特征包括:


  • 会话式数据分析,所需即所得;

  • 私有化部署,数据安全;

  • 支持企业级数据分析,大规模、高性能;

  • 支持领域微调,专业化;

  • 透明化过程,审计监督;


TableAgent 公测地址:https://tableagent.datacanvas.com


人人都是数据分析师


TableAgent 本次升级的一大亮点是可以为企业提供私有化部署。Code Interpreter 对国内众多企业用户的最大障碍是企业数据因为安全性、合规等种种原因,不能传输到线上的共有服务平台。TableAgent 为企业提供私有化部署,系统部署在企业内部,数据不外流,从根本上解决了安全合规的问题,同时 TableAgent 也可以满足企业级数据的大规模、高性能分析的要求,这也是 Code Interpreter 目前的短板。

 

数据分析不同于对话、摘要、写作这一类的语言任务,他需要理解数据、理解用户的分析需求,需要能够自动的写代码、调试代码、运行代码,还要理解代码运行生成的数据结果进而从中获得对数据的深刻洞察。

 

尤其是代码生成任务,与一般的写作任务不同,写作可以容忍出现错别字,不会导致内容生成失败,但代码生成任务即便只是变量名错一个字符,都会导致整体无法运行,任务失败。因此基于代码生成来实现开放式数据分析对模型能力是极大的挑战。

 

我们看到目前做数据分析的大模型应用多数是基于固定指标体系或者是对现有分析系统接口的调用,这种技术路线的不需要生成代码,但开放性不足,用户的分析需求受限于现有指标体系的设计和分析系统的能力。TableAgent 选择了难度更高的代码生成路线,创造性的提出专家模型组的方法来解决这些难题。

融合创新应用的新成果

 

九章云极 DataCanvas 公司自主研发的 Alaya 九章元识大模型是 TableAgent 背后的关键技术支撑。在 Alaya 基础大模型之上微调的 Alaya-ZeroX 模型组,通过一系列擅长不同能力的模型组合完成复杂的分析任务。不同参数规模的模型同时满足了对生成质量和推理性能的要求。

 

本次 TableAgent 发布带来的另外一个重要能力是专业化微调,不同行业不同企业在数据分析上有专业的语言背景和分析模型的独特需求,通用的分析工具很难满足专业化的要求,对此 TableAgent 为能够企业提供专业化微调。

 

TableAgent 为此配套设计了 T+(Table Family)系统,能够高效的实现定制化的微调工作,同时系统具有自我迭代的能力,系统性的体系支撑更高效的实现数据分析各个环节的升级,让用户在无感知的情况下即可获得不断升级的数据分析体验。


DataCanvas Table Family (T+)


  • TableAgent:数据分析智能体

  • TableBench:数据分析能力评测基准

  • TableTuning:数据分析 LM 微调

  • TableInstruct:数据分析指令集

  • TableLive:自迭代引擎 Alaya-ZeroX:数据分析 GPT 模型组

  • DeepTables & YLearn:结构化数据深度学习、因果学习工具包


TableAgent 未来将进一步融合非结构化数据的分析能力,并与公司自研的 DingoDB 多模向量数据库、DataCanvas Alaya 九章元识大模型联合创新。未来,将在复杂分析任务、自动化、人机交互、智能体协同等方面进一步升级。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-11-22 13:115196
用户头像
李冬梅 加V:busulishang4668

发布了 814 篇内容, 共 381.8 次阅读, 收获喜欢 1002 次。

关注

评论

发布
暂无评论
发现更多内容

OpsMind 前端低代码开发平台——MPlatform

OpsMind

大前端 低代码

多币种钱包系统开发|多币种钱包软件APP开发

系统开发

Hbase内核剖析

永健_何

大数据 HBase 底层技术 分布式数据储存

软件架构模式之分层架构

架构精进之路

架构设计 七日更 28天写作

拍乐云技术分享 | 美术教学中视频矫正是怎么做的?

拍乐云Pano

音视频 RTC 图像处理 拍乐云 视频处理

作业2

瑾瑾呀

使用 AWS CDK Python 从零开始构建 EKS 集群

郭旭东

AWS IaC AWS CDK

字节跳动&火山引擎:企业级机器学习平台建设实践

机器学习 云计算 AI 云原生

第一周作业-产品备忘录

Eva

喜讯 | 拍乐云Pano荣获「2020大数据产业创新技术突破」奖

拍乐云Pano

大数据 音视频 RTC 拍乐云

企业项目迁移go-zero全攻略(一)

万俊峰Kevin

微服务 microservice Go 语言

区块链钱包APP系统开发|区块链钱包软件开发

系统开发

焱融科技借公有云出海,服务国际知名卡车制造商自动驾驶业务

焱融科技

自动驾驶 分布式 存储 自动驾驶训练

区块链挖矿到底是什么,该怎么挖?

v16629866266

LocalDateTime、OffsetDateTime、ZonedDateTime互转,这一篇绝对喂饱你

YourBatman

LocalDateTime OffsetDateTime ZonedDateTime

老熟人,新朋友!写作平台邀新季!

InfoQ写作社区官方

热门活动

都在用Kafka ! 消息队列序列化怎么处理?

码农架构

Java kafka 架构 消息队列 消息中间件

第四周作业

oooh-la

谷歌面试题:如何从无序链表中移除重复项?

田维常

面试

基于KubeEdge和Kuiper的边缘流式数据处理实践

华为云开发者联盟

spark 边缘计算 kuberedge kuiper 边缘流式数据

重学JS | Set和Map是如何过滤重复值的?

梁龙先森

面试 大前端 编程语言 28天写作

Java 程序经验小结: 慎用可变参数

后台技术汇

28天写作

见证产品成长,共享AI力量!

百度大脑

想学AI开发很简单:只要你会复制粘贴

华为云开发者联盟

GitHub 开源 AI mindspore 推理

区块链数字钱包APP系统开发|区块链数字钱包软件开发

系统开发

2020下半年可信边缘云评估结果揭晓,2021年新一轮评估正式开启

浪潮云

大数据 可信云 可信边缘云

数据库表数据量大读写缓慢如何优化(3)【Elasticsearch的使用】

我爱娃哈哈😍

大数据 elasticsearch 架构 优化 死磕Elasticsearch

大数据场景下Volcano高效调度能力实践

华为云开发者联盟

大数据 spark Kubernetes Volcano application

MySQL 5.6.35 索引优化导致的死锁案例解析

vivo互联网技术

MySQL 数据库 死锁

PolarDB-X 并行计算框架

PolarDB-X

数据库 sql 大数据

数字货币钱包APP系统开发|数字货币钱包软件开发

系统开发

锚定应用!九章云极DataCanvas大模型系列成果重磅发布_生成式 AI_李冬梅_InfoQ精选文章