写点什么

如何构建高质量数据集与进行公正模型评测,AICon 带你一探究竟

  • 2024-07-08
    北京
  • 本文字数:1724 字

    阅读完需:约 6 分钟

如何构建高质量数据集与进行公正模型评测,AICon 带你一探究竟

高质量的数据集对于大模型的性能至关重要。获取这样的数据集需要经过精心的数据收集、清洗、标注、增强和平衡处理。同时,数据安全和隐私保护也是不可忽视的环节。大模型的评测同样重要,它包括准确性、鲁棒性、泛化能力、效率、可解释性以及伦理和偏见的考量。


AICon 全球人工智能开发与应用大会针对这些关键议题,策划了【数据集构建以及评测】论坛。这个论坛将聚焦于数据集的构建策略、模型的评测方法,以及如何确保模型的公平性和透明度。目前已经有几个精彩的议题

精彩推荐议题一:


如果有一个分享,可以带你了解全栈式行业数据处理和模型训练的方法,那你应该听听!


近年来,闭源大语言模型(LLMs)和开源社区在通用领域取得了显著进展,甚至在某些方面超越了人类。然而,在医学、政务等专业领域,语言模型的表现仍然不足。面对决这些挑战,智源研究院通过行业合作伙伴联合实验室机制,基于行业数据集构造和示范模型训练实践,提出了数据集构建技术体系,以及包含持续预训练、监督微调(SFT)以及强化学习(RLHF)技术的完整行业模型训练范式,获得了良好的模型性能效果。


我们非常荣幸邀请到北京智源人工智能研究院大模型行业应用总监周华老师,在本次演讲中,他将首先介绍人工智能大模型在行业落地的发展趋势,并分析当前面临的主要问题。随后,他会分享智源研究院在推动大模型行业落地方面的工作思路和研究方向。接着,他将详细讲解行业数据集构建的范式,以及行业模型训练的有效方法。在演讲的实践案例部分,周华将依次分享两个案例:首先是 Aquila-Med 示范模型的数据集构建和模型训练经验,其次是 Aquila-SQL 模型的训练过程及其在实际应用中的表现。


通过他的分享,你可以了解到企业内部大模型构建的方法、行业大模型训练的技术经验以及数据处理的方法和技术体系。

精彩推荐议题二:


如过有一个演讲,能带你了解了解多模态评测相关进展,那不能错过,尤其还是北京大学二级教授张铭的分享。


现有的数据集主要集中在检验模型解决专家级别难题的能力上,难以反映模型在基础知识方面的掌握情况。由于缺乏和人类表现相关的数据,因此科学家也不可能获取到更具实际意义的模型表现参考。为了攻克这些局限性,张铭团队构建了首个多模态 STEM 数据集,并且在此基础上实现对大语言模型与多模态基础模型的评测。评测的结果发现,即使是目前最先进的人工智能模型,其 STEM 基础水平也存在较大的提升空间,尚不具备解决更有难度的现实问题的能力。


此外,张铭团队还提出了一个新的社会学科数据集 Social,包含较大规模的文本评估数据,可用来评测大语言模型的社会学科基础能力;团队还设计了一种多智能体交互的方法,能够增强大语言模型在 Social 数据集上的表现。


我们非常有幸邀请到北京大学二级教授张铭,为我们分享《全方位评测神经网络模型的基础能力》话题,通过她的分享你可以了解到多模态评测相关进展探索以及大语言模型通用智能体方法进展探索。


精彩推荐议题三:


如果有一个演讲能够带你了解掌握幻觉评估的新方法、探索出模型幻觉原因与解决方案,那错过智源的分享就太可惜了。


大型语言模型 (LLMs) 在各种任务中取得了卓越的性能, 并在现实世界中得到了广泛应用。然而,LLMs 容易出现幻觉, 生成与已知知识相冲突或不忠实于原始信息来源的内容,影响了 LLMs 在很过高厉害场景上的应用。


现有的幻觉基准主要关注句子或段落层面的幻觉检测, 忽略了对话层面的评估、幻觉定位和原因解析。为了缓解现有幻觉评估的局限性, 智源提出了 HalluDial, 第一个全面的大规模自动对话级幻觉评估基准。


利用 HalluDial, 智源对 LLMs 在信息搜索对话中的幻觉评估能力进行了全面的元评估, 并引入了一个专门的判断语言模型 HalluJudge。HalluDial 的高数据质量使 HalluJudge 在幻觉评估中取得了优异或有竞争力的性能, 有助于自动评估 LLMs 中的对话级幻觉。


我们非常也有幸邀请到智源研究院智能评测组负责人杨熙 她将分享《大语言模型的幻觉检测》话题,为你提供不一样的幻觉解决思路。



活动推荐:


InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会,汇聚顶尖企业专家,深入端侧 AI、大模型训练、安全实践、RAG 应用、多模态创新等前沿话题。现在大会已开始正式报名,详情可联系票务经理 13269078023 咨询。



2024-07-08 19:147111

评论

发布
暂无评论
发现更多内容

【C语言】break 关键字

謓泽

11月月更

详解 Serverless 架构的 6 大应用场景

阿里巴巴云原生

阿里云 Serverless 云原生

云数据库时代,DBA将走向何方?

华为云开发者联盟

数据库 后端 华为云 企业号十月 PK 榜

HummerRisk V0.5:新版云合规报告、资源风险联动、拓扑展示等内容

HummerCloud

云安全 云原生安全 11月月更

软件测试面试真题 | 面试时被问到知识盲区,该怎么办呢?

测试人

软件测试 面试题 测试开发

软件测试面试真题 | 说一下常用的控件定位方法

测试人

软件测试 面试题 web测试 元素定位

GoFrame的gmap相比Go原生的map,天然支持排序和有序遍历!?

王中阳Go

Go golang 高效工作 学习方法 11月月更

河北首家城商行传统核心业务国产化,TDSQL突破三“最”为秦皇岛银行保驾护航

腾讯云数据库

数据库 分布式 tdsql 客户案例 腾讯云数据库

RocksDB 7 终于解决了 Compaction 时性能下降问题

Kvrocks

redis RocksDB kvrocks

知象光电完成过亿元C轮融资,加速发力全球市场

硬科技星球

EMQ《物联网平台大规模数据接入和处理性能评测方法》成功入选“可信边缘计算推进计划”

EMQ映云科技

物联网 IoT 边缘计算 边云协同 11月月更

不借助 Fiori client,直接在手机浏览器里调用 SAP UI5 BarcodeScanner 实现条形码扫描的可能性?

汪子熙

JavaScript 前端开发 Fiori SAP UI5 11月月更

拥抱“大信创”浪潮,优博讯开启成长新曲线

极客天地

Go语言躲坑经验总结

百度Geek说

Go 企业号十月 PK 榜

Serverless Developer Meetup 杭州站精彩回顾!【附赠PPT】

阿里巴巴云原生

阿里云 Serverless 云原生

JavaScript的垃圾回收机制

肥晨

js 垃圾回收机制 11月月更

ModelBox姿态匹配:抖抖手动动脚勤做深呼吸

华为云开发者联盟

人工智能 华为云 企业号十月 PK 榜

DevData Talks | 让效能度量产生真正的价值,要避开多少“坑”?

思码逸研发效能

研发效能 研发管理工具 企业研发管理

SOFARegistry | 大规模集群优化实践

SOFAStack

开源 SOFA SOFARegistry'

详解AQS中的condition源码原理

华为云开发者联盟

开发 华为云 企业号十月 PK 榜

【重磅】Serverless Devs 进入 CNCF 沙箱,成首个入选的 Serverless 工具项目!

阿里巴巴云原生

阿里云 Serverless 云原生

「文本检测与识别白皮书-3.2」第三节:常用的文本识别模型

合合技术团队

人工智能 机器学习 深度学习 模型 文字识别

京东云开发者|IoT运维 - 如何部署一套高可用K8S集群

京东科技开发者

运维 k8s IoT etcd K8s 多集群管理

Paddle模型性能分析工具Profiler:定位瓶颈点、优化程序、提升性能

汀丶人工智能

自然语言处理 nlp 性能分析 11月月更

3层结构+7大特点,带你认识华为云IoTEdge

华为云开发者联盟

云计算 物联网 华为云 企业号十月 PK 榜

装了我这 10 个 IDEA 神级插件后,同事也开始情不自禁的嘚瑟了

沉默王二

IntelliJ IDEA

HTTP和HTTPS是什么 二者区别是什么

肥晨

11月月更 http和https http工作原理

前端面经

肥晨

前端面试题 11月月更 前端面筋 超全面试题

为什么要用CSS精灵图

源字节1号

软件开发 前端开发 后端开发 小程序开发

2022世界互联网大会 | VoneCredit为中小企业纾困解忧

旺链科技

区块链 产业区块链 世界互联网大会 企业号十月PK榜

uniapp多端分享(app,小程序,公众号)

格斗家不爱在外太空沉思

vue.js uniapp 11月月更

如何构建高质量数据集与进行公正模型评测,AICon 带你一探究竟_AI&大模型_李忠良_InfoQ精选文章