写点什么

谷歌深夜祭出 Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent 时代最强 AI 模型登场了?

  • 2024-12-12
    北京
  • 本文字数:2777 字

    阅读完需:约 9 分钟

大小:1.34M时长:07:47
谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent时代最强AI模型登场了?

就在 OpenAI“12 天连续轰炸”的第五天,谷歌终于坐不住了。

 

刚刚,谷歌正式发布了 Gemini 2.0 系列人工智能模型的首个版本,该模型名为 Gemini 2.0 Flash,提供聊天版本供全球用户使用,同时还有一个实验版的模型可供开发人员免费使用,该版本具有文本转语音和图像生成功能。


据谷歌称,这是 Agent 时代迄今为止为最强大的 AI 模型,相比上一代 Gemini 模型,2.0 在速度上快两倍,并且比更大的“专业”版 Gemini 1.5 更加强大。此外,该版本带来了增强的性能、更多的多模态性和新的原生工具。

相比上一代模型,Gemini 2.0 增加了什么?

 

谷歌首席执行官 Sundar Pichai 在一份声明中表示:“如果 Gemini 1.0 致力于组织和理解信息,那么 Gemini 2.0 则致力于让信息变得更加有用。”



谷歌最新的大语言模型在大多数用户请求领域都比其前代产品表现更好,例如代码生成和根据用户请求提供事实正确响应的能力。

 

在谷歌 DeepMind CEO Demis Hassabis 和谷歌 DeepMind CTO Koray Kavukcuoglu 代表 Gemini 团队撰写的博文中,详细介绍了 Gemini 2.0 版本的具体特性。

 

据他们称,Gemini 2.0 Flash 以 1.5 Flash 的成功为基础,是谷歌目前最受开发者欢迎的版本,在同样快速的响应时间下具有增强的性能。值得注意的是,2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的两倍。2.0 Flash 还具有新功能。除了支持图像、视频和音频等多模式输入外,2.0 Flash 现在还支持多模式输出,例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。



过去一个月,Gemini 团队一直在分享 Gemini 2.0 的早期实验版本,并得到了开发人员的积极反馈。

 

Gemini 2.0 Flash 现已作为实验模型通过 Google AI Studio 和 Vertex AI 中的 Gemini API 向开发者提供,所有开发者均可使用多模式输入和文本输出,早期合作伙伴可使用文本转语音和原生图像生成功能。

 

1 月份将全面上市,同时将推出更多模型尺寸。为了帮助开发人员构建动态和交互式应用程序,谷歌还发布了新的 Multimodal Live API,它具有实时音频、视频流输入以及使用多个组合工具的能力。

 

要访问实验版本 Flash 2.0 的聊天优化版本,Gemini 用户可以在桌面和移动网络上的模型下拉菜单中选择它。该公司表示,它将很快在 Gemini 移动应用程序上提供。

 

Gemini Flash 2.0 的多模版本将通过 Google 的 AI Studio 和 Vertex AI 开发者平台提供。

 

该公司还表示,计划在 2025 年初将 Gemini 2.0 扩展到更多谷歌产品。

推出 Deep Search 新功能

 

谷歌此次发布的还不仅仅是大模型。谷歌宣布将推出一项名为Deep Research的新功能,它使用高级推理和长上下文功能充当研究助手,探索复杂主题并代表用户编写报告。它今日起已经 Gemini Advanced 中可用。

 

据谷歌方面称,Search 无疑是受到人工智能影响最深远、变革最显著的产品。如今,AI Overviews 已触达 10 亿用户,该功能使用户能够提出全新的问题类型,迅速成为 Search 有史以来最受欢迎的功能之一。接下来,谷歌会将 Gemini 2.0 的高级推理能力融入 AI Overviews,以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编码。同时,谷歌还计划明年将 AI Overviews 功能面向更多国家开放,适配更多语言。

 

 

2.0 基于谷歌定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持,今天 Trillium 也全面向用户开放,以便他们能够基于此进行开发。

通过 Gemini 2.0 解锁 Agent 体验

 

Gemini 2.0 Flash 已经进行了原生用户界面操作能力的改进,其他改进还包括多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用、原生工具使用和改进的延迟等。

 

自大模型诞生以来,AI Agent 的实际应用是一个非常火爆的研究领域。谷歌正在通过一系列原型探索这一新领域,这些原型可以帮助人们完成任务并完成工作。其中包括对 Project Astra 的更新,这是谷歌的研究原型,旨在探索通用人工智能助手的未来功能;新 Project Mariner,它从浏览器开始探索人机交互的未来;以及 Jules,一个可以帮助开发人员的 AI 代码 Agent。

 

Gemini API 集团产品经理 Shrestha Basu Mallick 和谷歌实验室产品总监 Kathy Korevec 表示:“从今天开始(对于受信任的测试人员),你可以将 Python 和 JavaScript 编码任务转移给 Jules。Jules 可以异步工作并与你的 GitHub 工作流程集成,处理错误修复和其他耗时任务,而你则专注于你真正想要构建的内容。

 

谷歌也表示,即便技术持续迭代,但 Gemini 系列模型仍处于开发的早期阶段,他们很高兴看到那些值得信赖的测试人员如何使用这些新功能以及他们可以从中学到什么经验,这样就可以在未来的产品中更广泛地使用它们。

 

硬刚一众 AI 独角兽,谷歌更胜一筹?

 

Gemini 2.0 是谷歌在科技行业日益激烈的人工智能竞赛中的最新成果。谷歌正在与科技巨头微软、Meta 以及一众 AI 明星独角兽如 OpenAI、Perplexity 和 Anthropic 等初创公司展开激烈战争。

 

谷歌这一波出手在技术社区引发了热议,一名 Reddit 用户对 Gemini 2.0 的发布表示震惊,他评论道:

 

“我不知道我现在的感受是什么。兴奋、担忧、不安、好奇以及对 AI 的绝对敬畏交织在一起。超现实的是,我们正在经历这种改进,并且每次发布的迭代都给我们留下了深刻的印象。我甚至都不敢想象 10 年后的情况。看看 2004 年到 2014 年的科技各个方面都取得了巨大进展,但与这两年 AI 势头相比还有很大差距。”

 

有用户调侃,谷歌甚至都等不及 OpenAI 把“疯狂发布周”过完再来炸场,结合前两日 Sora 潦草发布,有不少网友直接站队谷歌:

 

“谷歌的 Gemini 绝对是是 GPT-5 级别的威胁,我从未见过一家公司发布如此强大的模型让开发者免费试用。”

 

随着新 Flash 模型的发布,这场 AI 军备竞赛已经进入白热化阶段。据谷歌公司称,Agent 模型“可以更好地了解你周围的世界,提前思考多个步骤,并在你的监督下代表你采取行动。”

 

上周,在《纽约时报》 DealBook 峰会上与安德鲁·罗斯·索尔金 (Andrew Ross Sorkin) 的对话中,谷歌 CEO 皮查伊对微软的人工智能进步提出了质疑,表示他“很乐意在任何时候”对两家公司的模型进行并排比较。

 

安德鲁·罗斯·索尔金问皮查伊:“相对于其他参与者,你认为自己处于什么位置?”

 

皮查伊表示他很想进行并排比较,随后他补充道:“他们使用了别人的模型。”

 

“你这是在向我发起挑战。”索金回答道。

 

皮查伊笑着摇了摇头,补充道:“我只是——我非常尊重他们和他们的团队。” 

 

微软当家人纳德拉对于谷歌技术实力也给予了很高的肯定。

 

早在今年 3 月份,微软 CEO 纳德拉在挪威银行投资管理播客上表示:“谷歌本应就是大型科技公司 AI 竞赛的默认赢家。谷歌是一家非常有能力的公司,他们既有人才,又有计算能力。他们是这个领域的垂直整合参与者。他们拥有从数据到芯片到模型到产品和分销的一切。”

2024-12-12 07:0012349
用户头像
李冬梅 加V:busulishang4668

发布了 1150 篇内容, 共 770.3 次阅读, 收获喜欢 1282 次。

关注

评论

发布
暂无评论
发现更多内容

软件测试 |JMeter服务器模式、重置JMeter命令

测吧(北京)科技有限公司

测试

北京.NET线下技术沙龙倒计时一天

MASA技术团队

.net MASA

免费下载|《建设数字中国 升级数智底座-企业数智化底座白皮书》

用友BIP

2023用友BIP技术大会

DPU 厂商大禹智芯加入龙蜥社区,共建领先的 IT 基础设施

OpenAnolis小助手

开源 操作系统 龙蜥社区 DPU 大禹智芯

如何让数据安全管理工作化繁为简?uDSP 十问十答

原点安全

数据库 数据安全 动态脱敏 分类分级 uDSP

这年头怕数据泄露?全密态数据库:无所谓,我会出手

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

滴滴前端必会vue面试题汇总

bb_xiaxia1998

Vue 前端

工赋开发者社区 | Gartner发布2023年十大数据和分析趋势

工赋开发者社区

机器学习平台PAI支持抢占型实例,模型服务最高降本90%

阿里云大数据AI技术

人工智能 机器学习

阿里巴巴“高并发”核心笔记!《基础+实战+源码+面试+架构》

程序知音

Java 并发编程 高并发 java架构 Java进阶

量化交易系统开发合约策略

薇電13242772558

量化策略

技术改变一切,实现企业数字化演变

智达方通

全面预算管理

打造河南水务行业数智化标杆!中州水务电子化采购平台正式上线

用友BIP

软件测试 | 配置JMeter

测吧(北京)科技有限公司

测试

技术干货|如何利用 ChunJun 实现数据离线同步?

袋鼠云数栈

开源

​GPT充当大脑,指挥多个模型协作完成各类任务,通用系统AutoML-GPT来了

工赋开发者社区

众筹一个标题,救救孩子!被选中的包食宿来参加奇妙敏捷之旅·青岛站!

禅道项目管理

敏捷 敏捷实践

Alien Skin Eye Candy 7 for Mac汉化激活(PS眼睛糖果滤镜) v7.2.3.189

真大的脸盆

Mac Mac 软件 PS滤镜插件 特效滤镜插件

九大核心专题,630页内容,肝了23天吃透,我收割了6个Java岗offer

程序知音

java面试 java架构 Java进阶 后端技术 Java面试八股文

Cloud Studio 云端开发保障企业源代码安全

CODING DevOps

软件工程 代码安全 Cloud Studio

Cloud Studio 内核升级之触手可及

CODING DevOps

软件工程 Cloud Studio 云端IDE

企业数字转型加速器!居然是他!该不会还有人没用上吧?

加入高科技仿生人

低代码 数智转型 智能科技

vue组件通信方式有哪些?

bb_xiaxia1998

Vue 前端

共享电动车生产批发厂家怎么找

共享电单车厂家

共享电动车厂家 共享电单车厂商 共享电动车生产

AIGC背后的技术分析 | 不止抠图、上色,看人工智能如何影响设计

TiAmo

AIGC AI绘画

创新灵感来源于用户实践,TDengine 首次公开四项专利申请

爱倒腾的程序员

时序数据库 #TDengine taosdata

使用增强版 singleflight 合并事件推送,效果炸裂!

捉虫大师

golang 性能优化

2023 届 36under36 发布,涛思数据 92 年联合创始人侯江燚上榜

爱倒腾的程序员

时序数据库 taosdata

软件测试 | 如何运行JMeter

测吧(北京)科技有限公司

测试

更高效便捷的开发体验——Cloud Studio 编辑器命令行工具

CODING DevOps

软件工程 研发效能 Cloud Studio 在线编辑

Cloud Studio 内核升级之专注体验

CODING DevOps

软件工程 Cloud Studio 云端IDE

谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent时代最强AI模型登场了?_Google_李冬梅_InfoQ精选文章