“新王登基”— Claude 3 横空出世，最强大模型易主| 大模型一周大事

大模型的快节奏发展，让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态，为广大读者提供全面的行业回顾和要点分析。现在，让我们回顾过去一周的大模型重大事件吧。

一、重点发现

Anthropic 公司新发布的 Claude 3 大模型系列，在技术和性能上取得了显著突破。该模型不仅在处理长文本和多模态数据上表现出色，还在多项基准测试中超越了业内领先的 GPT-4/3.5 等模型。这意味着过去一年中遥遥领先的 ChatGPT-4 迎来了强劲的对手。Claude 3 的上下文对话处理能力大幅提升，不仅能更精准地理解用户需求，更能提供智能的回应。这一技术的突破将为用户带来更为流畅、自然的交互体验，尤其在内容创作、代码生成和跨语言交流等领域具有广阔的应用前景。

另外，研究团队在开发这款产品时特别注重模型的可解释性和安全性。例如，在回应生成方面研究团队做了更多考虑以避免产生过于人性化、非理性和不道德的言论。同时，尽力避免让 Claude 3 连接到可能产生偏见或有害信息的公开数据。研发人员希望通过这种方式来减少 AI 偏见和错误决策的风险，同时提高用户对 AI 系统的信任。

二、具体内容

政策动态

3 月 5 日，国务院总理李强在政府工作报告中指出，要深入推进数字经济创新发展。制定支持数字经济高质量发展政策，积极推进数字产业化、产业数字化，促进数字技术和实体经济深度融合。深化大数据、人工智能等研发应用，开展“人工智能 +”行动，打造具有国际竞争力的数字产业集群。

大模型持续更新

3 月 3 日，Anthropic 发布了新一代大模型系列 Claude 3，遥遥领先快一年之久的 GPT-4 终于迎来了强劲的对手。根据官方测评结果来看，Claude 3 在推理、数学、编码、多语言理解和视觉方面，全面超越 GPT-4 在内的所有大模型。

开源领域

MyShell 公司宣布其多语言、多口音的文本转语音库 MeloTTS 正式开源。MeloTTS 支持的语言包括英语、西班牙语、法语、中文、日语和韩语，为开发人员提供了丰富的选择。
零一万物宣布开源 Yi-9B 模型，官方称其为 Yi 系列模型中的“理科状元”——Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型，实际参数为 8.8B，默认上下文长度为 4K tokens。

多模态领域

复旦大学邱锡鹏团队联合 Multimodal Art Projection（MAP）、上海人工智能实验室的研究者提出了一种名为 AnyGPT 的多模态语言模型，该模型能够以任意的模态组合来理解和推理各种模态的内容。具体来说，AnyGPT 可以理解文本、语音、图像、音乐等多种模态交织的指令，并能熟练地选择合适的多模态组合进行响应。
Stability AI 继图片生成（Stable Difussion 3 上线）、视频生成（Stable Video 上线）后紧接在 3D 领域发力，3 月 5 日宣布携手华人团队 VAST 开源单图生成 3D 模型 TripoSR。据了解 TripoSR 能够在 0.5s 的时间内由单张图片生成高质量的 3D 模型，甚至无需 GPU 即可运行。
来自苹果的研究者发布了一个可以利用 LLM 生成动画的框架 Keyframer，该框架允许用户采用自然语言提示来创建静态 2D 图像的动画。

科研领域

清华大学、加州大学、中山大学、苏州大学、深势科技和北京科学智能研究院（AI for Science Institute，Beijing，AISI）组成的多机构团队，合作提出了 Uni-MOF，一种用于大规模三维 MOF 表示学习的创新框架，专为多用途气体预测而设计。
牛津大学团队发现，基于密码子训练的大型语言模型在各种任务中表现出色，优于其他先进模型，特别是在物种识别和蛋白质预测中表现突出，即使对比训练参数多 50 倍的模型也有显著优势。这显示了密码子层面训练在提升模型性能方面的潜力。

应用探索

产品新功能/插件

OpenAI 宣布为 ChatGPT 推出了名为 “朗读”（ReadAloud）的新功能。不仅支持 37 种语言，还可以自动检测文本语言并进行朗读。
Midjourney v6 版本的 /describe 新功能已经上线，上传图片后会生成更长更详细的提示词，同时更符合 V6 模型的倾向。这意味着用户现在可以更加轻松地获取关于上传的图片的详细信息，用户可以上传一张图片，然后系统将生成更长更详细的提示词，让用户更好地了解图片的内容和特点。
sd-forge-layerdiffuse 插件正式发布，可以让 Stable Diffusion 生成带透明通道的 PNG 图片（透明图像的生成和编辑）。
一款名为 DUSt3R 的 AI 新工具在 GitHub 上登上 Github 热榜第二名。DUSt3R 能够在短短 2 秒钟内通过仅有 2 张图片完成 3D 重建。

智能体

北大最新具身大模型研究成果 ManipLLM 将这一愿景变成了现实：在提示词的引导下，大语言模型在物体图像上直接预测机械臂的操作点和方向。进而，得以操控机械臂直接玩转各项具体的任务（打开抽屉、冰箱，揭锅盖、掀马桶盖）

终端 AI

清华大学、哈尔滨工业大学提出了将模型参数压缩到 1bit 表示的新方法，以及量化模型参数的初始化方法，并通过量化感知训练（QAT）把高精度预训练模型的能力迁移至 1bit 量化模型。实验表明，这一方法能够在极大幅度压缩模型参数的同时，保证 LLaMA 模型至少 83% 的性能。把大模型放在手机里跑的愿望就快要实现了！
一名 OpenAI 前员工仿照 Chat with RTX 打造的新框架—— Chat with MLX（MLX 是苹果机器学习框架）上线，让苹果电脑也跑起了本地大模型，而且只要两行代码就能完成部署。其中自带支持的开源大模型多达七种，包括中文在内共有 11 种可用语言。
Adobe 正式将其生成式人工智能（GAI）技术 Firefly 引入移动设备。最新版本的 Adobe Express 测试版在 Android 和 iOS 上都推出了 Firefly GAI 功能，为用户提供了更广泛的图像创建和编辑选项。使用 Firefly，用户只需输入文本提示，就能生成所需图像，并插入、删除或替换人物、物体和背景等元素。

基础设施

标准/测试集

近期，IEEE 标准协会关于可解释 AI 体系架构的标准 P2894（Guide for an Architectural Framework for Explainable Artificial Intelligence）正式发布。此次发布的可解释 AI 体系架构标准为行业提供了构建、部署和管理机器学习模型的技术蓝图，同时通过采用各种可解释 AI 方法满足透明和可信赖 AI 的要求。
来自斯坦福大学、佐治亚理工等机构的研究者提出了一个新的基准任务—— Design2Code ,旨在系统评估当前多模态大语言模型在自动将网页设计转换为代码这一任务上的能力。

算法

美团、浙大等最新提出视觉任务统一架构—— VisionLLaMA 在图像生成、分类、语义分割和目标检测等多个主流视觉任务中性能提升显著，有效减少了视觉和语言之间的架构差异，实现了更好的泛化能力和更快的收敛速度。
来自浙江大学、微软亚洲研究院和北京大学的研究者提出了一个基于文本描述的视频编辑统一框架 UniEdit，不仅涵盖了风格迁移、背景替换、刚性 / 非刚性物体替换等传统外观编辑场景，更可以有效地编辑视频中对象的动作。这一模型的另一大优势就是无需训练，这大大提升了部署的便捷性和用户使用的方便度。
为了解决大语言模型后训练量化中的量化参数优化问题，来自上海人工智能实验室、香港大学、香港中文大学的研究者们提出了《OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models》。该算法同时支持大语言模型中的权重与激活值的量化，且覆盖多种量化 bit 位设置。
来自清华大学胡晓林副教授团队的研究者们提出了一种全新的视听语音分离模型—— RTFS-Net，这是第一个时频域多模态分离模型优于所有时域模型的方法，其通过压缩 - 重建的方式，在提高分离性能的同时，大幅减少了模型的计算复杂度和参数数量。
来自浙江大学、字节跳动的研究团队提出了一种基于光栅化（rasterization）的单目动态场景建模 pipeline，首次将变形场（Deformation Field）与 3D 高斯（3D Gaussian Splatting）结合，实现了高质量的重建与新视角渲染。
来自斯坦福大学的研究者提出了一种「latent transparency（潜在透明度）」方法，使得经过大规模预训练的潜在扩散模型能够生成透明图像以及多个透明图层。

除了每周的动态更新，InfoQ 研究中心也将以季度为周期，发布《大模型季度监测报告》，跟踪大模型行业的最新动态和相关产品测试。

第一期《大模型季度监测报告 23Q4》预计将于 2024 年 3 月底正式发布，届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点、价值观和中文特色五大维度展开。如您期望 InfoQ 对旗下产品进行测试，或想要参与报告内容共建，欢迎联系微信：Bettycbj1996（添加好友请注明来意）

创作场景