【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

快手 Kwai Agents 系统、模型、数据全部开源

快手

  • 2024-01-04
    北京
  • 本文字数:1038 字

    阅读完需:约 3 分钟

快手Kwai Agents系统、模型、数据全部开源

7B 的模型也能玩转 AI Agents 了?近期,快手开源了 Kwai Agents,亲测发现,问它周末滑雪问题,它不但能帮你找到场地,连当天的天气都帮你考虑周到了。

 


大语言模型(LLM)通过对语言的建模而掌握了大量知识,并具备一定认知和推理能力。但由于无法跟世界保持实时的交互,在单独使用的情况下,常会出现一本正经地胡说八道的现象。而 AI Agents 就是解决这个问题的道路之一,它通过激发大模型任务规划、反思、调用工具等能力,使大模型能够借助现实世界工具提升生成内容的准确性,甚至有能力解决复杂问题。

 

据了解,KwaiAgents 是一个先进的 AI 智能体系统,由快手联合哈尔滨工业大学研发,通过使用大型语言模型来模仿人类认知技能,可应用于自然语言处理、语音识别等领域。Kwai Agents 可以使 7B/13B 的“小”大模型也能达到超越 GPT-3.5 的效果,目前该项目已将系统、模型、数据、评测全部开源,使得更多的研究人员可以参与其中。



技术报告:https://arxiv.org/abs/2312.04889

项目主页:https://github.com/KwaiKEG/KwaiAgents

 

从「KwaiAgents」的 Github 主页中可以看到,本次开源内容包含:

1.系统(KAgentSys-Lite):轻量级 AI Agents 系统,并配备事实、时效性工具集;

2.模型(KAgentLMs):Meta-Agent Tuning 后,具有 Agents 通用能力的系列大模型及其训练数据;

3.评测(KAgentBench):开箱即用的 Agent 能力自动化评测 Benchmark 与人工评测结果。

 


KAgentBench 通过人工精细化标注的上千条数据,做到了开箱即用,让大家能够用一行命令评测一个大模型在不同模板下,各方面的 Agents 能力。下表显示了经过快手团队调优后,7B-13B 模型各项能力的提升,且超越了 GPT-3.5 的效果:

 


同时,作者们还请人类标注者在 200 个事实性和时效性的问题(如“刘德华今年几岁了”),对不同的大模型和 Agent 系统进行了交叉评估,可以看到 KAgentSys 系统和 MAT 之后模型提升显著(百分号前为正确率,括号内为 5 分制均分)。

 



通常仅依赖网页搜索对一些长尾问题和热门问题返回结果不佳。比如问到“安东内拉比梅西大多少天?”这类长尾问题,往往搜索结果返回的都是一些两者的八卦新闻,而返回不了一些关键信息。而 KAgentSys 通过调用百科搜索工具获取精准的出生日期,再调用 time_delta 时间差工具算出年龄差,就能精准回答这个问题了。

 

快手技术人员表示,AI Agents 是一条非常有潜力的道路,未来一方面会在这个方向持之以恒地沉淀核心技术,并为整个社区不断地注入新的活力;另一方面,也会积极探索 Agents 技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-01-04 17:227330

评论 2 条评论

发布
用户头像
还有脸来infoq,真是羞死。
2024-01-08 11:32 · 北京
回复
用户头像
垃圾快手, 只会纵容骗子骗中国老太太的大骗子平台。
2024-01-08 11:32 · 北京
回复
没有更多了

“智慧丽江 数说未来” 百分点科技助力“智慧丽江”城市大脑上线

百分点大数据团队

谈谈“鸡娃”现象

石云升

教育 5月日更

网络攻防学习笔记 Day13

穿过生命散发芬芳

5月日更 网络攻防

5分钟速读之Rust权威指南(一)

wzx

rust

成长

ES_her0

5月日更

看Amazon Graviton 如何实现优化性能、降低工作负载成本!

亚马逊云科技 (Amazon Web Services)

一举拿下贪心算法

Simon郎

Java 大数据 算法 LeetCode 数据结构与算法

【案例】星环智能分析工具 Sophon,助力上海农商行搭建决策型人工智能平台

星环科技

程序员的基础技能

风翱

程序员 5月日更 基础技能

学习笔记:03 | 判断与循环:给你的程序加上处理逻辑

Nydia

学习

区块链将开启新一轮颠覆式创新

CECBC

区块链

【案例】星环科技原厂数据备份恢复软件,让大数据与AI应用有备无患

星环科技

TDH8.0 使用必读 :为什么你需要存算解耦的多模型数据管理平台

星环科技

ARST- 日常打卡 4

pjw

自动化下载文件(IE浏览器)

IT蜗壳-Tango

5月日更

Crontab 的特殊字符

耳东@Erdong

Linux crontab linux运维 5月日更

百分点数据科学实验室:基于数据驱动的销量预测模型建构

百分点大数据团队

生态十年,禾之三变

脑极体

Git命令: add、cherry pick

程序员架构进阶

git 自我提升 28天写作 5月日更 工作流程

看亚马逊云科技如何助力英国教育科技公司 Firefly 快速落地中国|精选案例

亚马逊云科技 (Amazon Web Services)

HashMap

ltc

hashmap

Web渗透测试:信息收集篇

Thrash

Dubbo 事件通知

青年IT男

dubbo

差点败北,蚂蚁金服的六轮面试我是怎么撑过来的?(Java岗)

Java架构师迁哥

路上,小胖问我:Redis 主从复制原理是怎样的?

一个优秀的废人

redis redis集群 主从复制

Hive改表结构的两个坑|避坑指南

数据社

大数据 hive 面试 5月日更

PaaS容器化部署思考

lenka

5月日更

职场中低调的老实人,该如何表现自己的亮点

小天同学

成长 职场成长 工作体会 5月日更

百分点科技联合市场研究协会(CMRA)发布《2021五一出行消费体验报告》

百分点大数据团队

Python 分支结构详解

若尘

分支 Python编程 5月日更

数据

顿晓

数据 5月日更

快手Kwai Agents系统、模型、数据全部开源_自然语言处理_InfoQ精选文章