写点什么

大模型赛道再添新玩家,快手自研大模型“快意”亮相

  • 2023-08-21
    北京
  • 本文字数:878 字

    阅读完需:约 3 分钟

大模型赛道再添新玩家,快手自研大模型“快意”亮相

近日,快手自研的大语言模型“快意”(KwaiYii)已开启内测,并为业务团队提供了标准 API 和定制化项目合作方案。

 

GitHub 链接:

https://github.com/kwai/KwaiYii

 

据官方介绍,快意大模型(KwaiYii) 是由快手 AI 团队从零到一独立自主研发的一系列大规模语言模型(Large Language Model,LLM),当前包含了多种参数规模的模型,并覆盖了预训练模型(KwaiYii-Base)、对话模型(KwaiYii-Chat)。

 

其中,13B 规模的系列模型 KwaiYii-13B 主要特点包括:


  • KwaiYii-13B-Base 预训练模型具备强大的通用技术支撑能力,在鳄鱼权威的中/英文基准上取得了同等模型尺寸下的 State-Of-The-Art 效果。例如,KwaiYii-13B-Base 预训练模型在 MMLU、CMMLU、C-Eval、HumanEval 等 Benchmark 上目前达到同等模型规模的领先水平。

  • KwaiYii-13B-Chat 对话模型具备出色的语言理解和生成能力,支持内容创作、信息咨询、数学逻辑、代码编写、多轮对话等广泛任务,人工评估结果表明 KwaiYii-13B-Chat 超过主流的开源模型,并在内容创作、信息咨询和数学解题上接近 ChatGPT(3.5)同等水平。

 

据介绍,快意大模型(KwaiYii)在 MMLU、CMMLU、C-Eval、HumanEval 等 Benchmark 上目前处于同等模型规模的领先水平,在最新的 CMMLU 中文向排名中,快意的 13B 版本 KwaiYii-13B 同时位列 five-shot 和 zero-shot 下的第一名,在人文学科、中国特定主题等方面较强,平均分超 61 分。

 

KwaiYii-13B-Chat 对话模型具备出色的语言理解和生成能力,支持内容创作、信息咨询、数学逻辑、代码编写、多轮对话等广泛任务。


快手方面表示,从人工评估的结果来看,KwaiYii-13B-Chat 超过了同等规模的开源模型,并接近 ChatGPT 同等水平。在内容创作、信息咨询、逻辑推理和数学解题上,基本与 ChatGPT(3.5)效果相当。在多轮对话能力方面,KwaiYii-13B-Chat 超过同等规模的开源模型,但与 ChatGPT(3.5)仍有一定差距。注意:人工评估结果受到评测数据覆盖面、标注主观性等因素的影响,无法全面反映大语言模型的所有能力。



据悉,快手 AI 团队将持续迭代“快意”大模型,一方面将继续优化模型性能并研发多模态能力 ,另一方面也在推进更多 C 端与 B 端业务场景下的落地 。

2023-08-21 11:294733

评论

发布
暂无评论
发现更多内容

低代码实现探索(三十三)前端脚本公式

零道云-混合式低代码平台

Kaggle冠军解读:风电场短期风况预测任务方案

百度大脑

唯一一家!腾讯云数据库入选“科创中国”先导技术榜

科技热闻

MySQL是怎么保证redo log和binlog是完整的?

华为云开发者联盟

MySQL Binlog Redo Log WAL机制 日志逻辑序列号

堡垒机哪家好?贵不贵?作用是什么?

行云管家

堡垒机 等级保护 过等保 等保2.0

MongoDB 数据实时同步利器-Tapdata Cloud 免费上手指南

MongoDB中文社区

mongodb

网络标准之:永远是1.0版本的MIME

程序那些事

Java 网络协议 程序那些事 2月月更

网站开发进阶(六十二)最强大的 CSS 布局——Grid 布局

No Silver Bullet

页面布局 2月月更 Grid

快上车!第十七届全国大学生智能汽车竞赛百度创意组来啦

百度大脑

用了区块链技术,破产清算办案更透明了!

CECBC

互联网应用开发如何搭上AI的快车?来厦门开发者Meetup一探究竟

百度大脑

向工程腐化开炮 | manifest治理

阿里巴巴终端技术

App 客户端开发 腐化治理 manifest

产品更新 | 云原生综合运维平台SchedulX V 0.2.0 已发布,支持部署服务至云服务器

星汉未来

如何应对数千微服务组件带来的挑战?

云智慧AIOps社区

php 架构 微服务 微服务架构 运维

全面解析湖仓一体与大数据演进历程|内含技术工具选型策略

云智慧AIOps社区

数据库 大数据 数据湖 Clickhouse 大数据运维

原生JavaScript灵魂拷问,你能答上多少(一)

战场小包

JavaScript 前端 2月月更

手把手教学电瓶车进电梯检测、多类别车辆追踪、异常行为检测产业级应用

百度大脑

StarRocks Contributor 人数破百!极速统一,你我协力!

StarRocks

数据库 数据分析 StarRocks

阿里卖家 Flutter for Web 工程实践

阿里巴巴终端技术

flutter Web 客户端开发 ffw

Flow vs Jenkins 实操对比,如何将Java应用快速发布至ECS

阿里云云效

Java 阿里云 cicd 云原生 ECS

盖世无双之国产数据库风云榜-2022年02月

墨天轮

数据库 GaussDB TiDB 国产数据库

Flink 新一代流计算和容错——阶段总结和展望

Apache Flink

大数据 flink 开源 编程 实时计算

网易数帆大数据场景下的DataOps实践

网易数帆

大数据 数据治理 DataOps

MongoDB在信息资源共享建设的应用实践

MongoDB中文社区

mongodb

我提交了一个 pr,竟然是为了吃

AlwaysBeta

GitHub 开源 程序员 生活 程序员人生

容器化 | 在 KubeSphere 中部署 MySQL 集群

RadonDB

MySQL 数据库 高可用 RadonDB KubeSphere

数字人民币 为经济添活力

CECBC

Go学习笔记——复合数据类型

为自己带盐

Go 学习笔记 2月月更

java培训:Netty的内存管理

@零度

Java Netty

等保2.0政策之物联网安全扩展要求包括哪四个?

行云管家

云计算 物联网 等保 等保2.0 扩展要求

外包学生管理系统架构设计文档

Geek_36cc7c

大模型赛道再添新玩家,快手自研大模型“快意”亮相_生成式 AI_凌敏_InfoQ精选文章