写点什么

发布屡次截胡?OpenAI 与谷歌携新版大模型再度交锋 | 大模型一周大事

  • 2024-05-20
    北京
  • 本文字数:2635 字

    阅读完需:约 9 分钟

大小:1.31M时长:07:37
发布屡次截胡?OpenAI与谷歌携新版大模型再度交锋 | 大模型一周大事

大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面的行业回顾和要点分析。现在,让我们回顾过去一周的大模型重大事件吧。

一、重点发现

本周,人工智能领域迎来了一波大模型发布的高潮,行业玩家纷纷推出自家的创新成果,AI 巨头间的角力再次升温。OpenAI、谷歌、百度和腾讯等公司相继亮相了各自的大模型。其中,OpenAI 的新一代模型 GPT-4o 与谷歌的 Gemini 家族最为引人注目。新模型不仅在多模态理解能力、长文本理解、运行速度等性能上有所突破,更在应用场景和用户体验上带来了新的想象空间,预示着 AI 技术将在未来扮演更加关键的角色。

二、具体内容

大模型持续更新

  1. 5 月 12 日,斯坦福大学的研究者开发了一个名为 ThunderKittens 的 AI 加速框架。该框架通过简化的 CUDA DSL 让开发者能够更容易地编写高效的 GPU 内核,显著提高了 GPU 利用率。 ThunderKittens 在 RTX 4090 上实现了约 122 TFLOP 的性能,且在 H100 上的性能比 FlashAttention-2 高出约 30%。

  2. 5 月 14 日,OpenAI 发布了新一代模型 GPT-4o ,这是一个全能模型。该模型集成了文本、语音、图像三种模态的理解力,能够实时生成文本、音频和图像的输出。GPT-4o 在英语文本、代码、非英语文本、视觉和音频理解方面都有显著提升。

  3. 5 月 15 日,谷歌发布 Gemini 家族新成员 Gemini 1.5 Flash ,并宣布更新 Gemini 1.5 Pro 。Gemini 1.5 Flash 是一款专为速度而优化的小型模型,旨在处理高频任务,提供快速响应。它能够分析和处理包括文本、图片和视频在内的多种信息类型,拥有高达 100 万个 Token 的处理能力。Gemini 1.5 Pro  具备 200 万 token 的超长上下文窗口,能够处理大量信息,如 2 小时视频、 22 小时音频、超过 6 万行代码或 140 多万单词。

  4. 5 月 15 日,百度发布了全球首个 L4 级自动驾驶大模型 Apollo ADFM ,并宣称其安全性是普通人类驾驶员的 10 倍以上,能覆盖城市级全域复杂场景。

  5. 5 月 16 日,亚信科技认知增强平台 TAC MaaS 与渊思·编程大模型渊思·自智网络大模型渊思·智能运维大模型 3 个行业大模型。

  6. 5 月 17 日,腾讯云正式发布教育行业大模型。该模型基于自研混元大模型,融合了教材、习题、论文等资源,并通过腾讯云 TI 平台优化,特别在中文阅读理解、问答和教育相关任务上表现优异。

  7. 5 月 17 日,字节跳动发布了豆包大模型(原云雀大模型) AI 产品家族。豆包大模型家族包括九款模型,满足不同场景需求,并且字节跳动还推出了 AI 应用产品“扣子”和豆包 App 。

开源领域

  1. 5 月 13 日,零一万物发布了其 Yi 大模型家族的新成员 Yi-1.5 并正式开源。 Yi-1.5 包含 6B、9B、34B 三个版本的预训练和微调模型,采用 Apache 2.0 许可证。作为 Yi-1.0 的持续预训练版本, Yi-1.5 在 500B 个 token 上进行了训练,以提升编码、推理和指令执行能力,并在 300 万个指令调优样本上进行了精细调整。 

  2. 5 月 14 日,腾讯宣布其混元文生图大模型全面开源。该模型支持中英文双语输入及理解,拥有 15 亿参数量,并采用了与 Sora 一致的 DiT(Diffusion With Transformer) 架构,使其在文生图生成方面表现优异,效果超越开源的 Stable Diffusion 模型。

多模态领域

  1. 5 月 15 日,谷歌发布了视频生成模型 Veo ,该模型能够根据文本提示生成超过 60 秒的高质量 1080p 视频,支持多种电影风格,并具备深层次的语言与视觉理解能力。Veo 能够准确捕捉文本中的细微差别,并在视频场景中逼真呈现细节。

科研领域

  1. 5 月 13 日,百度大数据实验室与上海交通大学团队合作开发了名为 RNAErnie 的基于 Transformer 的 RNA 语言模型。该模型通过基序感知预训练和类型引导的微调策略,在多个数据集和任务中表现出色,准确率和 F1 得分显著提高,证明了其在 RNA 序列分析方面的优越性和泛化潜力。

  2. 5 月 16 日,来自亚马逊与得克萨斯大学奥斯汀分校的研究团队发表论文《SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation》。 SynthesizRR 是一种创新的数据集合成技术,通过结合检索和精细化(Refinement)方法,解决了传统大型语言模型在生成示例时出现的重复性、偏差和风格差异问题。该技术通过引入多样化的内容“种子”,显著提升了词汇和语义的多样性,并在多个复杂任务的数据集上,与人类文本的相似性以及学生模型的提炼性能方面取得了显著进步。

应用探索

智能体

  1. 5 月 13 日,宇树科技推出了新款人形机器人 Unitree G1 ,其起步价为 9.9 万元人民币,相比之前推出的 Unitree H1 价格大幅下降。Unitree G1 身高 1.27 米,体重 35 公斤,具有多达 43 个关节电机(基础版为 23 个),能够模拟复杂动作并实现精细的运动控制。这款机器人可以折叠存放,运行速度可达 2 米/秒,并且配备了 3D LiDAR 传感器和深度摄像头,具备 360 度全景深度感知能力。

  2. 5 月 15 日,谷歌发布名为 Project Astra 的 AI Agent 。Project Astra 能够接收信息、记忆所看到的内容、处理信息并理解上下文细节,以实现与周围世界的自然交互。它在声音和视觉处理方面表现出色,能够进行无延迟的实时语音交互,并快速响应用户的问题,通过连续编码视频帧和组合视频、语音信息来处理收到的内容。

基础设施

  1. 5 月 15 日,谷歌发布第六代 AI 芯片 Trillium 。这款新型 TPU 在计算性能上实现了高达 4.7 倍的提升,同时内存带宽翻倍,能效比上一代产品提高了 67% 。Trillium 芯片采用了谷歌自研的第三代 SparseCore 技术,有效加速了模型训练并降低了服务延迟。预计 Trillium 将在今年年底向云客户提供,进一步巩固其在云计算和 AI 领域的领导地位。


报告推荐

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI 应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国 AGI 市场发展研究报告 2024》,欢迎大家扫码关注「AI 前线」公众号,回复「AGI」领取。



报告预告

金融行业是否找到了大模型落地应用的最佳路径?取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏?金融机构一定要应用大模型吗?如何考量金融大模型应用效果?欢迎大家持续关注 InfoQ 研究中心即将发布的《大模型在金融领域的应用洞察》



2024-05-20 17:144415

评论

发布
暂无评论
发现更多内容

Leangoo领歌敏捷工具提供哪些Scrum敏捷培训?

顿顿顿

敏捷开发 敏捷开发管理工具 scrum工具 scrum培训 敏捷培训

龙蜥社区首次突破!高性能存储 SIG 现身 LSF/MM/BPF 2023 分享 EROFS 的演进路线

OpenAnolis小助手

开源 高性能存储 龙蜥社区 sig EROFS

当代数据库与数据管理技术的先驱者之一 Mohan 教授指导 IoTDB 时序数据库 Timecho 研发团队

Apache IoTDB

IoTDB Apache IoTDB

常用语言的线程模型(Java、go、C++、python3) | 京东云技术团队

京东科技开发者

Java c++ Go 线程模型 企业号 7 月 PK 榜

基于ClickHouse解决活动海量数据问题 | 京东云技术团队

京东科技开发者

数据库 Clickhouse 数据处理 企业号 7 月 PK 榜

虚拟ECU实践:汽车发动机控制器仿真

DevOps和数字孪生

软件定义汽车 虚拟ECU

联通 Flink 实时计算平台化运维实践

Apache Flink

大数据 flink 实时计算

Flink 在新能源场站运维的应用

Apache Flink

大数据 flink 实时计算

关于 Elasticsearch 不同分片设置的压测报告

极限实验室

索引 压测 ES

火山引擎A/B测试“广告投放实验”基础能力重构实践 (DataFunTalk渠道)

字节跳动数据平台

Seal AppManager如何基于Terraform简化基础设施管理

SEAL安全

Kubernetes Terraform 平台工程 SealAppManager 企业号 7 月 PK 榜

从TL、ITL到TTL | 京东物流技术团队

京东科技开发者

ThreadLocal ThreadLocalMap 企业号 7 月 PK 榜

虚拟ECU:助力汽车故障诊断

DevOps和数字孪生

软件定义汽车 虚拟ECU

私有化的即时通讯软件能给企业带来什么好处?

BeeWorks

虚拟平台中的“有意”/“无意”故障注入

DevOps和数字孪生

故障注入 虚拟平台

华为云云原生数据库,让企业离应用更进一步

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

WorkPlus AI助理:结合ChatGPT对话能力与企业数据,助力企业级AI构建!

BeeWorks

带你掌握利用Terraform不同数据源扩展应用场景

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 7 月 PK 榜

IPD(集成产品开发)跟敏捷、DevOps一样吗?有什么区别?

禅道项目管理

DevOps 敏捷开发 IPD

如何使用openEuler WSL sideload

openEuler

Linux 前端 操作系统 wsl openEuler

手机直播app源码部署搭建:带货潮流,商城功能!——山东布谷科技创作

山东布谷科技

软件开发 直播 源码搭建 直播APP源码 手机直播源码

如何学习ABAQUS有限元仿真分析软件

思茂信息

abaqus abaqus软件 abaqus有限元仿真 有限元分析 有限元仿真

河南理工大学高校专区入驻飞桨AI Studio,优质教育资源等你来学!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

运输车辆超时停车预警难?TDengine 流式计算助力吉科软轻松解决

爱倒腾的程序员

数据库

MobPush:Android客户端SDK厂商通道回执配置指南

MobTech袤博科技

程序员 前端 sdk 客户端开发 Andrdoid

大语言模型评估全解:评估流程、评估方法及常见问题

Baihai IDP

人工智能 白海科技 LLMOps 大模型评估 企业号 7 月 PK 榜

火山引擎DataLeap如何解决SLA治理难题(一):应用场景与核心概念介绍

字节跳动数据平台

数据中台 数据治理 SLA 数据研发 企业号 7 月 PK 榜

任务调度之时间轮实现 | 京东云技术团队

京东科技开发者

定时任务 数据结构与算法 时间轮 企业号 7 月 PK 榜

发布屡次截胡?OpenAI与谷歌携新版大模型再度交锋 | 大模型一周大事_生成式 AI_InfoQ研究中心_InfoQ精选文章