写点什么

锚定应用!九章云极 DataCanvas 大模型系列成果重磅发布

  • 2023-11-22
    北京
  • 本文字数:2801 字

    阅读完需:约 9 分钟

大小:655.85K时长:03:43
锚定应用!九章云极DataCanvas大模型系列成果重磅发布

11 月 21 日,「筑基赋能 智向未来」九章云极 DataCanvas 大模型系列成果发布会(以下简称“发布会”)在北京重磅召开,本次成果发布距离今年 6 月 30 日 DataCanvas Alaya 九章元识大模型公布仅 4 个多月。


发布会上,九章云极发布了围绕 DataCanvas Alaya 九章元识大模型的开源底层 LLMOps 大模型工具链,开源 Alaya-7B 大模型系列,以及 TableAgent 数据分析智能体等一系列直击应用的大模型创新成果。

Alaya-7B 通识 &对话大模型+ LLMOps 工具链,大模型「全家桶」重磅开源


发布会上,九章云极 DataCanvas 公司自主研发的 DataCanvas Alaya 九章元识大模型矩阵正式开源一系列新成果,其中包括「Alaya-7B 大模型系列」中的 Alaya-7B Foundation Model 通识大模型和 Alaya-7B Chat Model 对话大模型两大模型,以及「LLMOps 大模型工具链」中的 LMS 模型运行工具和 LMPM 提示词管理器两大工具。


九章云极 DataCanvas 公司副总裁于建岗博士介绍,Alaya-7B 大模型系列是 DataCanvas Alaya 九章元识大模型矩阵的成员之一,基于 Alaya 通识大模型,由自我采集、精心筛选处理的万亿 token 数据集(包含网络上的中英文文章、新闻、百科等数据源)上从 0 开始预训练而成。


Alaya-7B Chat Model 是 Alaya-7B Foundation Model 的对话版本,通过在精心选择的微调数据集上进行微调,并对基于涉毒、涉黄以及不良偏见数据进行去毒,从而生成和人类价值观对齐的对话式大模型。Alaya-7B Chat Model 具备多轮对话、自我认知和偏见拒答的能力,能够完成知识问答、代码编写、信息提取、阅读理解、创意写作等多项语言任务。


于建岗博士称,Alaya-7B 大模型系列在保证模型表现的同时,对使用者的安装使用硬件要求更低、应用技术难度更低、训练所需的算力资源消耗更小,有助于加速大模型在各类行业场景的实际应用。


据悉,LLMOps 大模型工具链覆盖了大模型从训练、精调、压缩、部署、推理到监控的全生命周期过程。本次开源两大工具——LMS(Large Model Serving)模型运行工具和 LMPM (Large Model Prompt Manager) 提示词管理器——在大模型业务赋能过程中均起着关键作用。


  • LMS 模型运行工具,能够提高大模型的交付速度和质量,降低大模型的运维和运营成本,以及完成大模型生产化及服务运营等方面的需求。

  • LMPM 提示词管理器,通过帮助用户设计更好的提示词,引导大模型生成更加准确、可靠、符合预期的输出内容。该工具既可面向技术人员提供 development toolkit 的开发模式,也可以面向非技术人员提供人机交互的操作模式,满足更多人群使用大模型的需求。


九章云极 DataCanvas 正在不断尝试工具链、大模型和行业应用的融合创新。此前,工具链之一 DingoDB 多模向量数据库,与 DataCanvas Alaya 九章元识大模型联合打造了企业知识管家解决方案,赋能企业构建高度自动化与智能化的企业知识库,加速多模态大模型落地应用。


从 DingoDB 多模向量数据库、LMS 模型运行工具、LMPM 提示词管理器,到 Alaya-7B 通识+对话大模型系列,九章云极 DataCanvas 已经为用户提供了从数据管理到大模型应用的一站式、0 门槛、全链条开源工具组合。


开源地址

Alaya-7B 大模型:https://github.com/DataCanvasIO/Alaya

DingoDB 多模向量数据库:https://github.com/DingoDB

LMS 模型运行工具:https://github.com/DataCanvasIO/LMS

LMPM 提示词管理器:https://github.com/DataCanvasIO/LMPM


2023 年 7 月 9 日 OpenAI 发布了 Code Interpreter 插件,一时间让人人都是数据分析师的梦想照进现实。其实早在 6 月 28 日九章云极 DataCanvas 公司就已经率先对外发布了 TableGPT,如今 Code Interpreter 更名为 Advanced Data Analysis,而 TableGPT 也带着一系列的重大升级以 TableAgent 为名重装上阵,面向社会开放公测。


TableAgent 是在 DataCanvas Alaya 九章元识大模型基础上开发的能够实现私有化部署的企业级数据分析的智能体,有较强的意图理解能力、分析建模能力和洞察力。TableAgent 在充分的理解用户意图后,自主地利用统计科学、机器学习、因果推断等高级建模技术从数据中挖掘价值,进而提供观点分析和行动指导。主要特征包括:


  • 会话式数据分析,所需即所得;

  • 私有化部署,数据安全;

  • 支持企业级数据分析,大规模、高性能;

  • 支持领域微调,专业化;

  • 透明化过程,审计监督;


TableAgent 公测地址:https://tableagent.datacanvas.com


人人都是数据分析师


TableAgent 本次升级的一大亮点是可以为企业提供私有化部署。Code Interpreter 对国内众多企业用户的最大障碍是企业数据因为安全性、合规等种种原因,不能传输到线上的共有服务平台。TableAgent 为企业提供私有化部署,系统部署在企业内部,数据不外流,从根本上解决了安全合规的问题,同时 TableAgent 也可以满足企业级数据的大规模、高性能分析的要求,这也是 Code Interpreter 目前的短板。

 

数据分析不同于对话、摘要、写作这一类的语言任务,他需要理解数据、理解用户的分析需求,需要能够自动的写代码、调试代码、运行代码,还要理解代码运行生成的数据结果进而从中获得对数据的深刻洞察。

 

尤其是代码生成任务,与一般的写作任务不同,写作可以容忍出现错别字,不会导致内容生成失败,但代码生成任务即便只是变量名错一个字符,都会导致整体无法运行,任务失败。因此基于代码生成来实现开放式数据分析对模型能力是极大的挑战。

 

我们看到目前做数据分析的大模型应用多数是基于固定指标体系或者是对现有分析系统接口的调用,这种技术路线的不需要生成代码,但开放性不足,用户的分析需求受限于现有指标体系的设计和分析系统的能力。TableAgent 选择了难度更高的代码生成路线,创造性的提出专家模型组的方法来解决这些难题。

融合创新应用的新成果

 

九章云极 DataCanvas 公司自主研发的 Alaya 九章元识大模型是 TableAgent 背后的关键技术支撑。在 Alaya 基础大模型之上微调的 Alaya-ZeroX 模型组,通过一系列擅长不同能力的模型组合完成复杂的分析任务。不同参数规模的模型同时满足了对生成质量和推理性能的要求。

 

本次 TableAgent 发布带来的另外一个重要能力是专业化微调,不同行业不同企业在数据分析上有专业的语言背景和分析模型的独特需求,通用的分析工具很难满足专业化的要求,对此 TableAgent 为能够企业提供专业化微调。

 

TableAgent 为此配套设计了 T+(Table Family)系统,能够高效的实现定制化的微调工作,同时系统具有自我迭代的能力,系统性的体系支撑更高效的实现数据分析各个环节的升级,让用户在无感知的情况下即可获得不断升级的数据分析体验。


DataCanvas Table Family (T+)


  • TableAgent:数据分析智能体

  • TableBench:数据分析能力评测基准

  • TableTuning:数据分析 LM 微调

  • TableInstruct:数据分析指令集

  • TableLive:自迭代引擎 Alaya-ZeroX:数据分析 GPT 模型组

  • DeepTables & YLearn:结构化数据深度学习、因果学习工具包


TableAgent 未来将进一步融合非结构化数据的分析能力,并与公司自研的 DingoDB 多模向量数据库、DataCanvas Alaya 九章元识大模型联合创新。未来,将在复杂分析任务、自动化、人机交互、智能体协同等方面进一步升级。

2023-11-22 13:116052
用户头像
李冬梅 加V:busulishang4668

发布了 1185 篇内容, 共 806.6 次阅读, 收获喜欢 1302 次。

关注

评论

发布
暂无评论
发现更多内容

Linux-通过 liveCD 进入救模式-重装 grub 修复损坏的系统

学神来啦

Linux 运维 linux运维 linux学习

客户端版本热更新

admin

Electron 热替换 客户端 小版本升级 热更新

2021秋招我这样准备,提前批就已经拿到了9个大厂offer

北游学Java

Java 面试 秋招

spring-boot-starter自动配置的理解

偏执

面试 spring Boot Starter

什么是JVM?深入解析JVM原理!

愚者

Java JVM

双因子认证是什么意思?有什么作用?

行云管家

信息安全 双因子认证

快手技术大咖分享“领域数据建设”实践经验

Geek老T

大数据 数据治理

银行4.0的AI世界——开启算法力的时代

索信达控股

Qunar容器平台网络之道:Calico

Qunar技术沙龙

容器 TCP/IP calico BGP #Kubernetes#

一夜爆火!完美贴合开发实际!阿里SpringBoot宝典助你面试超神

Java 编程 程序员 架构师 计算机

Qunar SwiftUI 的实践、评测与思考

Qunar技术沙龙

objective-c swift UI SwiftUI UIKit

智能获客黑科技系统开发搭建

用了七个步骤,4面通过拿offer,终“跳进”字节跳动

Java 编程 程序员 架构 面试

Spring Boot基础学习

偏执

面试 后端 spring Boot Starter

iOS底层面试题(中篇)

程序员 面试 iOS底层

淘宝商城的系统架构,是如何一步步突破“亿”级并发的?

Java架构师迁哥

Spring Boot指标监控与健康检查

偏执

面试 spring Boot Starter

springboot自动装配源码解析

偏执

面试 后端 spring Boot Starter

从零开始学习3D可视化之项目部署

ThingJS数字孪生引擎

大前端 数据 可视化 数字孪生

详解什么是JMM!

愚者

JMM

Redis 关键点思维导图

Mason

模块三作业

Geek_35a345

底层即真理!Netty+Redis+ZooKeeper解读高并发系统架构!

Java架构追梦

Java redis zookeeper 架构 架构编程

二本的他是如何在12天面试突击中,拿到阿里P7的offer

Java架构师迁哥

持续演进的云原生应用交付

CODING DevOps

DevOps 云原生 k8s 研发工具 交付工具

终于有人把大数据架构讲明白了

百度开发者中心

大数据 最佳实践 方法论 其他

现在双非本科的学历还有机会拿到大厂 offer 吗?

java小李

面试 spring Boot Starter

拼多多 +蚂蚁金服 +头条(已拿offer),面试真题分享!

Java 程序员 架构 面试 计算机

洗清杂念 辟除妄见 归于自然|靠谱点评

无量靠谱

fil是怎么挖的?Fil矿机有什么配置要求?

区块链 IPFS fil fil矿机 fil矿机配置

单机12万QPS——FunTester复仇记

FunTester

性能测试 接口测试 测试框架 压力测试 测试开发

锚定应用!九章云极DataCanvas大模型系列成果重磅发布_生成式 AI_李冬梅_InfoQ精选文章