亮网络解锁器,解锁网络数据的无限可能 了解详情
写点什么

“新王登基”— Claude 3 横空出世,最强大模型易主| 大模型一周大事

  • 2024-03-11
    北京
  • 本文字数:3445 字

    阅读完需:约 11 分钟

大小:1.72M时长:10:01
“新王登基”— Claude 3 横空出世,最强大模型易主| 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

Anthropic 公司新发布的 Claude 3 大模型系列,在技术和性能上取得了显著突破。该模型不仅在处理长文本和多模态数据上表现出色,还在多项基准测试中超越了业内领先的 GPT-4/3.5 等模型。这意味着过去一年中遥遥领先的 ChatGPT-4 迎来了强劲的对手。Claude 3 的上下文对话处理能力大幅提升,不仅能更精准地理解用户需求,更能提供智能的回应。这一技术的突破将为用户带来更为流畅、自然的交互体验,尤其在内容创作、代码生成和跨语言交流等领域具有广阔的应用前景。

另外,研究团队在开发这款产品时特别注重模型的可解释性和安全性。例如,在回应生成方面研究团队做了更多考虑以避免产生过于人性化、非理性和不道德的言论。同时,尽力避免让 Claude 3 连接到可能产生偏见或有害信息的公开数据。研发人员希望通过这种方式来减少 AI 偏见和错误决策的风险,同时提高用户对 AI 系统的信任。

二、具体内容

政策动态

  1. 3 月 5 日,国务院总理李强在政府工作报告中指出,要深入推进数字经济创新发展。制定支持数字经济高质量发展政策,积极推进数字产业化、产业数字化,促进数字技术和实体经济深度融合。深化大数据、人工智能等研发应用,开展“人工智能 +”行动,打造具有国际竞争力的数字产业集群。

大模型持续更新

  1. 3 月 3 日,Anthropic 发布了新一代大模型系列 Claude 3,遥遥领先快一年之久的 GPT-4 终于迎来了强劲的对手。根据官方测评结果来看,Claude 3 在推理、数学、编码、多语言理解和视觉方面,全面超越 GPT-4 在内的所有大模型

开源领域

  1. MyShell 公司宣布其多语言、多口音的文本转语音库 MeloTTS 正式开源。MeloTTS 支持的语言包括英语、西班牙语、法语、中文、日语和韩语,为开发人员提供了丰富的选择。

  2. 零一万物宣布开源 Yi-9B 模型,官方称其为 Yi 系列模型中的“理科状元”——Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,实际参数为 8.8B,默认上下文长度为 4K tokens。

多模态领域

  1. 复旦大学邱锡鹏团队联合 Multimodal Art Projection(MAP)、上海人工智能实验室的研究者提出了一种名为 AnyGPT 的多模态语言模型,该模型能够以任意的模态组合来理解和推理各种模态的内容。具体来说,AnyGPT 可以理解文本、语音、图像、音乐等多种模态交织的指令,并能熟练地选择合适的多模态组合进行响应。

  2. Stability AI 继图片生成(Stable Difussion 3 上线)、视频生成(Stable Video 上线)后紧接在 3D 领域发力,3 月 5 日宣布携手华人团队 VAST 开源单图生成 3D 模型 TripoSR。据了解 TripoSR 能够在 0.5s 的时间内由单张图片生成高质量的 3D 模型,甚至无需 GPU 即可运行。

  3. 来自苹果的研究者发布了一个可以利用 LLM 生成动画的框架 Keyframer,该框架允许用户采用自然语言提示来创建静态 2D 图像的动画

科研领域

  1. 清华大学、加州大学、中山大学、苏州大学、深势科技和北京科学智能研究院(AI for Science Institute,Beijing,AISI) 组成的多机构团队,合作提出了 Uni-MOF,一种用于大规模三维 MOF 表示学习的创新框架,专为多用途气体预测而设计。

  2. 牛津大学团队发现,基于密码子训练的大型语言模型在各种任务中表现出色,优于其他先进模型,特别是在物种识别和蛋白质预测中表现突出,即使对比训练参数多 50 倍的模型也有显著优势。这显示了密码子层面训练在提升模型性能方面的潜力。

应用探索

产品新功能/插件

  1. OpenAI 宣布为 ChatGPT 推出了名为 “朗读”(ReadAloud)的新功能。不仅支持 37 种语言,还可以自动检测文本语言并进行朗读。

  2. Midjourney v6 版本的 /describe 新功能已经上线,上传图片后会生成更长更详细的提示词,同时更符合 V6 模型的倾向。这意味着用户现在可以更加轻松地获取关于上传的图片的详细信息,用户可以上传一张图片,然后系统将生成更长更详细的提示词,让用户更好地了解图片的内容和特点。

  3. sd-forge-layerdiffuse 插件正式发布,可以让 Stable Diffusion 生成带透明通道的 PNG 图片(透明图像的生成和编辑)。

  4. 一款名为 DUSt3R 的 AI 新工具在 GitHub 上登上 Github 热榜第二名。DUSt3R 能够在短短 2 秒钟内通过仅有 2 张图片完成 3D 重建。

智能体

  1. 北大最新具身大模型研究成果 ManipLLM 将这一愿景变成了现实:在提示词的引导下,大语言模型在物体图像上直接预测机械臂的操作点和方向。进而,得以操控机械臂直接玩转各项具体的任务(打开抽屉、冰箱,揭锅盖、掀马桶盖)

终端 AI

  1. 清华大学、哈尔滨工业大学提出了将模型参数压缩到 1bit  表示的新方法,以及量化模型参数的初始化方法,并通过量化感知训练(QAT)把高精度预训练模型的能力迁移至 1bit 量化模型。实验表明,这一方法能够在极大幅度压缩模型参数的同时,保证 LLaMA 模型至少 83% 的性能。把大模型放在手机里跑的愿望就快要实现了!

  2. 一名 OpenAI 前员工仿照 Chat with RTX 打造的新框架—— Chat with MLX(MLX 是苹果机器学习框架)上线,让苹果电脑也跑起了本地大模型,而且只要两行代码就能完成部署。其中自带支持的开源大模型多达七种,包括中文在内共有 11 种可用语言。

  3. Adobe 正式将其生成式人工智能(GAI)技术 Firefly 引入移动设备。最新版本的 Adobe Express 测试版在 Android 和 iOS 上都推出了 Firefly GAI 功能,为用户提供了更广泛的图像创建和编辑选项。使用 Firefly,用户只需输入文本提示,就能生成所需图像,并插入、删除或替换人物、物体和背景等元素。

基础设施   

标准/测试集

  1. 近期,IEEE 标准协会关于可解释 AI 体系架构的标准 P2894(Guide for an Architectural Framework for Explainable Artificial Intelligence)正式发布。此次发布的可解释 AI 体系架构标准为行业提供了构建、部署和管理机器学习模型的技术蓝图,同时通过采用各种可解释 AI 方法满足透明和可信赖 AI 的要求。

  2. 来自斯坦福大学佐治亚理工等机构的研究者提出了一个新的基准任务—— Design2Code ,旨在系统评估当前多模态大语言模型在自动将网页设计转换为代码这一任务上的能力。

算法

  1. 美团、浙大等最新提出视觉任务统一架构—— VisionLLaMA  在图像生成、分类、语义分割和目标检测等多个主流视觉任务中性能提升显著,有效减少了视觉和语言之间的架构差异,实现了更好的泛化能力和更快的收敛速度。

  2. 来自浙江大学、微软亚洲研究院和北京大学的研究者提出了一个基于文本描述的视频编辑统一框架 UniEdit,不仅涵盖了风格迁移、背景替换、刚性 / 非刚性物体替换等传统外观编辑场景,更可以有效地编辑视频中对象的动作。这一模型的另一大优势就是无需训练,这大大提升了部署的便捷性和用户使用的方便度。

  3. 为了解决大语言模型后训练量化中的量化参数优化问题,来自上海人工智能实验室、香港大学、香港中文大学的研究者们提出了《OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models》。该算法同时支持大语言模型中的权重与激活值的量化,且覆盖多种量化 bit 位设置。

  4. 来自清华大学胡晓林副教授团队的研究者们提出了 一种全新的视听语音分离模型—— RTFS-Net,这是第一个时频域多模态分离模型优于所有时域模型的方法,其通过压缩 - 重建的方式,在提高分离性能的同时,大幅减少了模型的计算复杂度和参数数量。

  5. 来自浙江大学、字节跳动的研究团队提出了一种基于光栅化(rasterization)的单目动态场景建模 pipeline,首次将变形场(Deformation Field)与 3D 高斯(3D Gaussian Splatting)结合,实现了高质量的重建与新视角渲染。

  6. 来自斯坦福大学的研究者提出了一种「latent transparency(潜在透明度)」方法,使得经过大规模预训练的潜在扩散模型能够生成透明图像以及多个透明图层。


除了每周的动态更新,InfoQ 研究中心也将以季度为周期,发布《大模型季度监测报告》,跟踪大模型行业的最新动态和相关产品测试。


第一期《大模型季度监测报告 23Q4》预计将于 2024 年 3 月底正式发布,届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点、价值观和中文特色五大维度展开。如您期望 InfoQ 对旗下产品进行测试,或想要参与报告内容共建,欢迎联系微信:Bettycbj1996(添加好友请注明来意)



公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-03-11 14:004027

评论

发布
暂无评论

线程有哪些状态,彼此之间如何切换

武哥聊编程

Java 多线程 28天写作

程序员面试时一定要注意这五个陷阱!你记住了吗?

Java架构师迁哥

还在为计算机网络协议烦恼?了解这一篇就够了

Java架构师迁哥

全球首例银行“大型机”下移背后

数据君

我们,让9300万人办事少跑一趟

数据君

《程序员修炼之道》- 务实的方法(4)

石云升

程序员 28天写作

为什么强烈推荐 Java 程序员使用 Google Guava 编程!

沉默王二

Java Guava

企业项目迁移go-zero全攻略(二)

万俊峰Kevin

微服务 microservice Go 语言

【得物技术】无侵入式mock平台在得物的实践

得物技术

测试 数据 得物技术 Mock hulk

如何为多元化的产品场景选择完美的色彩组合?

百度Geek说

产品 设计

Git操作文档

Paul

就这?Object类一点不难理解

后台技术汇

28天写作

CSS(八)——CSS盒模型

程序员的时光

程序员 大前端 七日更 28天写作

Java 读写锁 原来这么简单

Java架构师迁哥

姐夫深夜不睡觉就在看spring+mybatis这两份源码资料,吸引力就这么强大吗?

荒芜

Java spring 源码 mybatis spring Boot Starter

在世界球场一球成名:HMS 生态为游戏开发者送出的助攻

脑极体

滴滴Logi-KafkaManager开源之路:一站式Kafka集群指标监控与运维管控平台

滴滴云

kafka 运维 监控 滴滴Logi

Elasticsearch Bulk API 批量增删改查

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

Cisco路由器调试命令大全,看完就全部学会!

使用nodejs构建Docker image最佳实践

程序那些事

Docker nodejs 程序那些事 docker image nodejs和docker

加速AI边云协同创新!KubeEdge社区建立Sedna子项目

华为云原生团队

人工智能 开源 边缘计算 边缘技术

交易系统架构演进之路:服务治理

比伯

Java 编程 程序员 架构 技术宅

2021首次分享面试阿里P6心得:1000字超全面试题答案解析

比伯

Java 编程 程序员 架构 面试

驶向数字智能的瀚海,“懂行人”助力石油人乘风破浪

脑极体

Spark底层原理详细解析(深度好文,建议收藏)

五分钟学大数据

大数据 spark

JS 防抖与节流

旗袍码农

快速了解云原生架构

阿里巴巴云原生

架构 容器 微服务 云原生 k8s

产品训练营--第三期作业(1)

曦语

产品训练营

《王者荣耀》背后的数据秘密

数据君

webpack | plugin机制详解

梁龙先森

大前端 webpack 28天写作

幕后故事 | YRCloudFile助力顶级视效制作公司MORE VFX打造视觉盛宴

焱融科技

高性能 存储 焱融科技 3D渲染 影视制作

“新王登基”— Claude 3 横空出世,最强大模型易主| 大模型一周大事_生成式 AI_InfoQ研究中心_InfoQ精选文章