写点什么

发布屡次截胡?OpenAI 与谷歌携新版大模型再度交锋 | 大模型一周大事

  • 2024-05-20
    北京
  • 本文字数:2635 字

    阅读完需:约 9 分钟

大小:1.31M时长:07:37
发布屡次截胡?OpenAI与谷歌携新版大模型再度交锋 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

本周,人工智能领域迎来了一波大模型发布的高潮,行业玩家纷纷推出自家的创新成果,AI 巨头间的角力再次升温。OpenAI、谷歌、百度和腾讯等公司相继亮相了各自的大模型。其中,OpenAI 的新一代模型 GPT-4o 与谷歌的 Gemini 家族最为引人注目。新模型不仅在多模态理解能力、长文本理解、运行速度等性能上有所突破,更在应用场景和用户体验上带来了新的想象空间,预示着 AI 技术将在未来扮演更加关键的角色。

二、具体内容

大模型持续更新

  1. 5 月 12 日,斯坦福大学的研究者开发了一个名为 ThunderKittens 的 AI 加速框架。该框架通过简化的 CUDA DSL 让开发者能够更容易地编写高效的 GPU 内核,显著提高了 GPU 利用率。 ThunderKittens 在 RTX 4090 上实现了约 122 TFLOP 的性能,且在 H100 上的性能比 FlashAttention-2 高出约 30%。

  2. 5 月 14 日,OpenAI 发布了新一代模型 GPT-4o ,这是一个全能模型。该模型集成了文本、语音、图像三种模态的理解力,能够实时生成文本、音频和图像的输出。GPT-4o 在英语文本、代码、非英语文本、视觉和音频理解方面都有显著提升。

  3. 5 月 15 日,谷歌发布 Gemini 家族新成员 Gemini 1.5 Flash ,并宣布更新 Gemini 1.5 Pro 。Gemini 1.5 Flash 是一款专为速度而优化的小型模型,旨在处理高频任务,提供快速响应。它能够分析和处理包括文本、图片和视频在内的多种信息类型,拥有高达 100 万个 Token 的处理能力。Gemini 1.5 Pro  具备 200 万 token 的超长上下文窗口,能够处理大量信息,如 2 小时视频、 22 小时音频、超过 6 万行代码或 140 多万单词。

  4. 5 月 15 日,百度发布了全球首个 L4 级自动驾驶大模型 Apollo ADFM ,并宣称其安全性是普通人类驾驶员的 10 倍以上,能覆盖城市级全域复杂场景。

  5. 5 月 16 日,亚信科技认知增强平台 TAC MaaS 与渊思·编程大模型渊思·自智网络大模型渊思·智能运维大模型 3 个行业大模型。

  6. 5 月 17 日,腾讯云正式发布教育行业大模型。该模型基于自研混元大模型,融合了教材、习题、论文等资源,并通过腾讯云 TI 平台优化,特别在中文阅读理解、问答和教育相关任务上表现优异。

  7. 5 月 17 日,字节跳动发布了豆包大模型(原云雀大模型) AI 产品家族。豆包大模型家族包括九款模型,满足不同场景需求,并且字节跳动还推出了 AI 应用产品“扣子”和豆包 App 。

开源领域

  1. 5 月 13 日,零一万物发布了其 Yi 大模型家族的新成员 Yi-1.5 并正式开源。 Yi-1.5 包含 6B、9B、34B 三个版本的预训练和微调模型,采用 Apache 2.0 许可证。作为 Yi-1.0 的持续预训练版本, Yi-1.5 在 500B 个 token 上进行了训练,以提升编码、推理和指令执行能力,并在 300 万个指令调优样本上进行了精细调整。 

  2. 5 月 14 日,腾讯宣布其混元文生图大模型全面开源。该模型支持中英文双语输入及理解,拥有 15 亿参数量,并采用了与 Sora 一致的 DiT(Diffusion With Transformer) 架构,使其在文生图生成方面表现优异,效果超越开源的 Stable Diffusion 模型。

多模态领域

  1. 5 月 15 日,谷歌发布了视频生成模型 Veo ,该模型能够根据文本提示生成超过 60 秒的高质量 1080p 视频,支持多种电影风格,并具备深层次的语言与视觉理解能力。Veo 能够准确捕捉文本中的细微差别,并在视频场景中逼真呈现细节。

科研领域

  1. 5 月 13 日,百度大数据实验室与上海交通大学团队合作开发了名为 RNAErnie 的基于 Transformer 的 RNA 语言模型。该模型通过基序感知预训练和类型引导的微调策略,在多个数据集和任务中表现出色,准确率和 F1 得分显著提高,证明了其在 RNA 序列分析方面的优越性和泛化潜力。

  2. 5 月 16 日,来自亚马逊与得克萨斯大学奥斯汀分校的研究团队发表论文《SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation》。 SynthesizRR 是一种创新的数据集合成技术,通过结合检索和精细化(Refinement)方法,解决了传统大型语言模型在生成示例时出现的重复性、偏差和风格差异问题。该技术通过引入多样化的内容“种子”,显著提升了词汇和语义的多样性,并在多个复杂任务的数据集上,与人类文本的相似性以及学生模型的提炼性能方面取得了显著进步。

应用探索

智能体

  1. 5 月 13 日,宇树科技推出了新款人形机器人 Unitree G1 ,其起步价为 9.9 万元人民币,相比之前推出的 Unitree H1 价格大幅下降。Unitree G1 身高 1.27 米,体重 35 公斤,具有多达 43 个关节电机(基础版为 23 个),能够模拟复杂动作并实现精细的运动控制。这款机器人可以折叠存放,运行速度可达 2 米/秒,并且配备了 3D LiDAR 传感器和深度摄像头,具备 360 度全景深度感知能力。

  2. 5 月 15 日,谷歌发布名为 Project Astra 的 AI Agent 。Project Astra 能够接收信息、记忆所看到的内容、处理信息并理解上下文细节,以实现与周围世界的自然交互。它在声音和视觉处理方面表现出色,能够进行无延迟的实时语音交互,并快速响应用户的问题,通过连续编码视频帧和组合视频、语音信息来处理收到的内容。

基础设施

  1. 5 月 15 日,谷歌发布第六代 AI 芯片 Trillium 。这款新型 TPU 在计算性能上实现了高达 4.7 倍的提升,同时内存带宽翻倍,能效比上一代产品提高了 67% 。Trillium 芯片采用了谷歌自研的第三代 SparseCore 技术,有效加速了模型训练并降低了服务延迟。预计 Trillium 将在今年年底向云客户提供,进一步巩固其在云计算和 AI 领域的领导地位。


报告推荐

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI 应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国 AGI 市场发展研究报告 2024》,欢迎大家扫码关注「AI 前线」公众号,回复「AGI」领取。



报告预告

金融行业是否找到了大模型落地应用的最佳路径?取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏?金融机构一定要应用大模型吗?如何考量金融大模型应用效果?欢迎大家持续关注 InfoQ 研究中心即将发布的《大模型在金融领域的应用洞察》



2024-05-20 17:144715

评论

发布
暂无评论
发现更多内容

太赞了,京东研发一哥力荐的高可用网站构建技术

Java 架构 京东

内核调试环境搭建

郑州埃文科技

网络安全 网络环境

ByConity与主流开源OLAP引擎(Clickhouse、Doris、Presto)性能对比分析

墨天轮

数据库 字节跳动 OLAP Clickhouse Doris

房地产行业IT运维安全就用行云管家堡垒机!

行云管家

运维 房地产 IT运维

kafka集群是如何选择leader,你知道吗?

JAVA旭阳

kafka

国内好用的堡垒机推荐-行云管家堡垒机

行云管家

网络安全 堡垒机

阿里大神级Elasticsearch学习笔记,还学不会就埋了

Java elasticsearch 分布式搜索引擎 ES

电商行业实践专栏上线|阿里巴巴风控实战如何解决大规模风控的技术难点?

Apache Flink

大数据 flink 实时计算

Git入门指南:从新手到高手的完全指南

小万哥

git Linux 程序员 后端 C/C++

小程序容器与PWA的完美结合:提升应用性能与用户体验

FinFish

私有小程序技术 小程序容器 PWA 小程序化 小程序技术

精准快速搜索文件:Find Any File 激活版

真大的脸盆

Mac 办公效率 文件搜索 搜索工具 搜索文件

MatrixOne 助力开启分布式计算格局新征程

MatrixOrigin

分布式数据库 HTAP MatrixOrigin MatrixOne 矩阵起源

如何避免写重复代码:善用抽象和组合

阿里技术

Java 代码实战

双非渣硕,开发两年,苦刷算法47天,四面字节斩获offer

Java 数据结构 算法 LeetCode

Hybrid Shuffle 测试分析和使用建议

Apache Flink

大数据 flink 实时计算

大语言模型技术原理

NineData

AIGC ChatGPT AI大语言模型 大语言模型 技术原理

Spring Boot实现第一次启动时自动初始化数据库

Java spring Spring Boot

Mysql DDL执行方式-pt-osc介绍 | 京东云技术团队

京东科技开发者

MySQL 数据库 企业号 5 月 PK 榜 DDL执行方式 pt-soc

从7天到1天,Kyligence 和亚马逊云科技助力欣和提高数据应用价值

Kyligence

数字化转型 指标平台

全国流体力学盛会召开,飞桨AI4S携最新科研进展亮相西湖大学

飞桨PaddlePaddle

人工智能 百度飞桨 科学计算

软件测试/测试开发丨学习笔记之Web自动化测试

测试人

程序员 软件测试 自动化测试 测试开发

医疗领域实体抽取:UIE Slim最新升级版含数据标注、serving部署、模型蒸馏等教学,助力工业应用场景快速落地

汀丶人工智能

人工智能 自然语言处理 知识图谱 关系抽取 命名实体识别

Kafka集群是如何选择leader,你知道吗?

Java kafka 集群

Flutter三棵树系列之BuildOwner | 京东云技术团队

京东科技开发者

flutter 移动开发 源码解读 企业号 5 月 PK 榜 BuildOwner

辅助测试和研发人员的一款小插件【数据安全】 | 京东云技术团队

京东科技开发者

浏览器 数据安全 插件开发 企业号 5 月 PK 榜

莉莉丝游戏与火山引擎ByteHouse达成合作,为实时数仓建设提速

字节跳动数据平台

数据仓库 云原生 实时

500行代码手写docker-实现硬件资源限制cgroups

蓝胖子的编程梦

容器 k8s ,docker Cgroups #k8s

如何将千亿文件放进一个文件系统,EuroSys'23 CFS 论文背后的故事

百度Geek说

数据库 云计算 百度 企业号 5 月 PK 榜

发布屡次截胡?OpenAI与谷歌携新版大模型再度交锋 | 大模型一周大事_生成式 AI_崔白洁 | InfoQ研究中心_InfoQ精选文章