【ArchSummit架构师峰会】基于大模型的基础框架、中台、应用层等专题全覆盖 >>> 了解详情
写点什么

快手 Kwai Agents 系统、模型、数据全部开源

快手

  • 2024-01-04
    北京
  • 本文字数:1038 字

    阅读完需:约 3 分钟

快手Kwai Agents系统、模型、数据全部开源

7B 的模型也能玩转 AI Agents 了?近期,快手开源了 Kwai Agents,亲测发现,问它周末滑雪问题,它不但能帮你找到场地,连当天的天气都帮你考虑周到了。

 


大语言模型(LLM)通过对语言的建模而掌握了大量知识,并具备一定认知和推理能力。但由于无法跟世界保持实时的交互,在单独使用的情况下,常会出现一本正经地胡说八道的现象。而 AI Agents 就是解决这个问题的道路之一,它通过激发大模型任务规划、反思、调用工具等能力,使大模型能够借助现实世界工具提升生成内容的准确性,甚至有能力解决复杂问题。

 

据了解,KwaiAgents 是一个先进的 AI 智能体系统,由快手联合哈尔滨工业大学研发,通过使用大型语言模型来模仿人类认知技能,可应用于自然语言处理、语音识别等领域。Kwai Agents 可以使 7B/13B 的“小”大模型也能达到超越 GPT-3.5 的效果,目前该项目已将系统、模型、数据、评测全部开源,使得更多的研究人员可以参与其中。



技术报告:https://arxiv.org/abs/2312.04889

项目主页:https://github.com/KwaiKEG/KwaiAgents

 

从「KwaiAgents」的 Github 主页中可以看到,本次开源内容包含:

1.系统(KAgentSys-Lite):轻量级 AI Agents 系统,并配备事实、时效性工具集;

2.模型(KAgentLMs):Meta-Agent Tuning 后,具有 Agents 通用能力的系列大模型及其训练数据;

3.评测(KAgentBench):开箱即用的 Agent 能力自动化评测 Benchmark 与人工评测结果。

 


KAgentBench 通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下,各方面的 Agents 能力。下表显示了经过快手团队调优后,7B-13B 模型各项能力的提升,且超越了 GPT-3.5 的效果:

 


同时,作者们还请人类标注者在 200 个事实性和时效性的问题(如“刘德华今年几岁了”),对不同的大模型和 Agent 系统进行了交叉评估,可以看到 KAgentSys 系统和 MAT 之后模型提升显著(百分号前为正确率,括号内为 5 分制均分)。

 



通常仅依赖网页搜索对一些长尾问题和热门问题返回结果不佳。比如问到“安东内拉比梅西大多少天?”这类长尾问题,往往搜索结果返回的都是一些两者的八卦新闻,而返回不了一些关键信息。而 KAgentSys 通过调用百科搜索工具获取精准的出生日期,再调用 time_delta 时间差工具算出年龄差,就能精准回答这个问题了。

 

快手技术人员表示,AI Agents 是一条非常有潜力的道路,未来一方面会在这个方向持之以恒地沉淀核心技术,并为整个社区不断地注入新的活力;另一方面,也会积极探索 Agents 技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-01-04 17:227350

评论 2 条评论

发布
用户头像
还有脸来infoq,真是羞死。
2024-01-08 11:32 · 北京
回复
用户头像
垃圾快手, 只会纵容骗子骗中国老太太的大骗子平台。
2024-01-08 11:32 · 北京
回复
没有更多了

沿着数字中国的大江大河,领略云上三峡

脑极体

华为云 三峡

有了HotSpot JVM为什么还需要OpenJ9?

骑牛上青山

Java jdk JVM 虚拟机

从原理源码到企业级实战,腾讯大佬纯手打的Spring Boot笔记(2023版)真香

程序员小毕

spring 后端 springboot java程序员 java面试

大型软件开发集成类项目管理思路

大黄蜂

项目管理 大型软件开发 管理思路

写给go开发者的gRPC教程-protobuf基础

凉凉的知识库

golang 微服务 gRPC protobuf 微服务框架

湖仓一体电商项目(十八):业务实现之编写写入DWD层业务代码

Lansonli

数据湖 湖仓一体电商项目

模块五作业

程序员小张

「架构实战营」

同时踩下刹车和油门:英特尔的“精神内耗”

脑极体

芯片 英特尔

信用卡APP评测系列——工银e生活5.0打造个人生活服务平台,引领用户美好生活

易观分析

金融 银行 信用卡

Zebec 上线投票治理机制,全新流支付生态正在起航

股市老人

Zebec 上线投票治理机制,全新流支付生态正在起航

EOSdreamer111

Zebec 投票治理机制上线,全新流支付生态正在起航

西柚子

ABBYY FineReader16最新版本更新下载

茶色酒

ABBYY FineReader16 ABBYY16

活动预告 | 2023 QCon 全球软件开发大会 - AI 基础架构论坛

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

Jackson 的 DeserializationFeature.FAIL_ON_UNKNOWN_PROPERTIES

HoneyMoose

D触发器 (D-FF)详解

timerring

FPGA

2023JAVA面试题全集(超全面!超系统!超实用!)早做准备,早上岸!

架构师之道

Java 编程 程序员 计算机 java面试

「AVL平衡树专项」带你领略常用的AVL树与红黑树的奥秘(规则篇)

C++后台开发

数据结构 后端开发 红黑树 linux开发 C++开发

人工智能可能是创业最后的末班车

felix

人工智能 创业 互联网 中小企业

gcc属性__attribute__((naked))使用场景

SkyFire

GCC 内嵌汇编

Zebec 上线投票治理机制,全新流支付生态正在起航

鳄鱼视界

CTO:假如Java微服务随机掉线,你会怎么排查?

Java永远的神

Java 程序员 面试 微服务 架构师

Java高手速成 | EL表达式语言

TiAmo

Java EL

FLStudio2023水果中文版软件如何下载?

茶色酒

flstudio FLStudio21

深度剖析 Linux 伙伴系统的设计与实现

bin的技术小屋

Linux 内存管理 Linux内核 内存分配 Linux内核源码

Portraiture4.0版本最新永久免费版下载

茶色酒

Portraiture2023 Portraiture

硬核!互联网资深大佬手码2023版高并发编程速成笔记涵盖了并发编程的所有骚操作

Java永远的神

程序员 面试 后端 高并发 架构师

CleanMyMac2023知名MAC电脑清理软件

茶色酒

CleanMyMac X

全息电网 数字孪生智慧电网Web3D运维系统

2D3D前端可视化开发

智慧电网 数字电网 智能电网 数字孪生智慧电网 智慧电网三维可视化

案例研究:让线上故障沉淀为团队的经验

石云升

极客时间 2月月更 技术领导力实战笔记

什么是可演进架构

agnostic

快手Kwai Agents系统、模型、数据全部开源_自然语言处理_InfoQ精选文章