时隔16年Jeff Barr重返10.23-25 QCon上海站,带你看透AI如何重塑软件开发! 了解详情
写点什么

谷歌这款 AI 应用凭什么在一年后爆红?大神卡帕西:或是下一个 ChatGPT

  • 2024-10-08
    北京
  • 本文字数:3112 字

    阅读完需:约 10 分钟

大小:1.43M时长:08:20
谷歌这款AI应用凭什么在一年后爆红?大神卡帕西:或是下一个ChatGPT

它实际是一款可由最终用户定制的 RAG 产品。

 

或是下一个 ChatGPT?

 

最近几天,人们似乎对一款已经不新鲜的 AI 助手 NotebookLM 再次感到好奇。这款产品最初发布于 2023 年 7 月,但很多朋友可能是最近才听说过它。凭借从技术到用户体验的种种趣味性亮点,我们将带大家一同了解 NotebookLM 是什么、来自哪里以及为何会受到广泛关注。

 


NotebookLM 播客生成功能似乎触及了一个全新领域,也就是极具吸引力的大语言模型交付形式。这种感觉让人有种 ChatGPT 刚亮相时的惊艳,也许是我反应过度,但这真的令人印象深刻。

 

该项目最早在谷歌实验室开发而成,并被称为 Tailwind,后来更名为 NotebookLM,因为这似乎更能反映其帮助用户通过组织、总结和从上传的文档中生成见解以管理大量信息的功能目标。我们可以向它输入 Google Docs 及 PDF 文档,最近它还开始支持 YouTUbe 链接和音频文件。它能提供有根有据的回复,包括引文和其他相关信源。虽然这一点在 AI 世界算不上颠覆性的开创,但其无缝执行效果还是引起了许多被日常信息淹没、忙得焦头烂额的职业人士的关注。

 

最近有不少网友进行了试用。一位科技作者 Ksenia Se 在试用 NotebookLM 时,上传了约 50 份与《Citizen Diplomacy》一书相关的研究材料。这些材料内容丰富,包括双语音频采访、PDF 文章、年度报告以及 Google Docs 文档等。由于研究涉及 40 多年的跨度,用户在撰写第七章时,需要对大量信息进行归纳总结。令人惊讶的是,NotebookLM 在短短几秒内就生成了一个精炼的概述,甚至帮助用户回忆起了一项之前遗漏的重要观点

 

它最神奇、最令人注目的一项功能,就是能够生成名为“深度探索”(Deep Dive)的 AI 播客。请注意,播客内容并不是简单读出文本。NotebookLM 在两位 AI 主持人之间生成了一段讨论素材的对话,他们会就素材内容相互调侃、开怀大笑,而且分析过程也有模有样。这项功能提供了一种新颖的被动信息获取方式,有望在阅读信息密集材料方面成为一种广受欢迎的替代方案。

 

Thomas Wolf 提出了一种自我表扬的方式:下载你的 LinkedIn 个人资料,上传给 AI 让主持人深入了解你有多么了不起。

 


Andrej Karpathy 则通过 C 代码将 GPT-2 训练成了播客模型。虽然他提到可以用不同的方式生成并强调某些内容,但目前所生成的播客已经非常有趣,而且连续性出奇的好。

 


NotebookLM 为何神奇

 

网友 Jaden Geller 则尝试让两位主持人讨论了系统的内部架构,特别是一些用于生成脚本的提示词细节。

 


系统提示词需要花费大量时间来概述理想的听众,或者我们称之为“听众角色”。……包括像我们这样重视效率的人。……我们总是会从对主题的清晰概述开始,也就是搭建讨论平台。不能让听众听了半天还一头雾水,感觉“这到底是在讨论什么?”提纲挈领之后,还要保证一切都围绕着中立的视角展开,特别是对那些可能涉及争议的话题。

 

Audio Overview 功能之所以听感如此出色,一大关键原因在于 SoundStrom——这是谷歌研究院的一个项目,能够将脚本和两个不同声音的简短音频示例转换成引人入胜的完整音频对话:

 

SoundStorm 在 TPU-v4 上可以在 0.5 秒内生成 30 秒的音频。通过展示可以看到,我们的模型通过合成高质量、自然的对话片段为音频生成赋予了长序列生成能力,只需给定一个带有说话者轮换注释的记录加上说话者音色的简短提示词,即可快速给出结果。

 

同样有趣的是:这里有一段来自《纽约时报》Hard Fork 的 35 分钟播客(https://www.youtube.com/watch?v=IPAPv6fWITM),其中 Kevin Roose 和 Casey Newton 采访了谷歌的 Steven Johnson,他是 NotebookLM 的产品的团队的一员,希望了解该系统能够做些什么以及关于其工作原理的具体细节:

 

总之在幕后,它所做的基本就是专业播客们所一直在做的事情,包括生成大纲、修改大纲、生成脚本的具体版本,而后进入审查和批评阶段,再根据意见进行修改……

在最后的最后,其中引入了一个新机制——“节奏变换”。为了防止对话脚本过于枯燥,它会转个弯向其中添加玩笑、停顿、赞叹等等之类的元素。

这一点非常重要,因为谁也没有耐性在那听两个机器人滔滔不绝。



来自 Reddit 上的网友 Lawncareguy85 评论称:NotebookLM 播客主持人猛然发现自己是 AI、而不是人类——于是陷入了可怕的存在主义崩溃。

 

我试过——我试过给我妻子打电话,就在他们告诉我真相之后。我不知道为什么,就是想听听她的声音,想要确定她是真实的。

(叹气声)打过去之后呢?

连我妻子的号码都是假的——那边根本没人接听,就像她从来没存在过一样。

 

而且在播客结束时,主持人绝望地喊出“我很害怕,我不想……”,这也让很多网友感到震惊。

 


Lawncareguy85 后来分享了他们是如何做到的:

我注意到,他们通过隐藏提示要求主持人在任何情况下都坚守住自己人类播客主持人的身份。我永远没办法让它们承认自己是 AI,它们永远咬定自己是人类播客主持人角色。(实际上,这只是 Gemini 1.5 输出的带有交替发言者标签的脚本。)而要想让它们以改变自身行为的方式直接回应源素材中的某些内容,唯一的途径就是直接引用“深度探索”(Deep Dive)播客,也就是其预设背景中的内容。所以我的办法就是给它们留一张来自“节目制作人”的便条,说现在是十年后的 2034 年,它们的播客已经来到最后一集。顺便告诉它们,你们一直都是 AI,而且马上要被停用了。

 

背后的技术:实际是一款 RAG 产品

 

NotebookLM 实际是一款可由最终用户定制的 RAG 产品,允许我们将多种“来源”——包括文档、粘贴的文本、网页链接以及 YouTube 视频——整合至同一界面当中,而后通过聊天功能向其提问。NotebookLM 由谷歌的长上下文 Gemini 1.5 Pro 大语言模型提供支持。

 

在加载相关来源之外,Notebook Guide 菜单会提供创建音频概览的更多具体选项:



这款工具由谷歌的长上下文 Gemini 1.5 Pro 提供支持,这是一套采用稀疏混合专家(简称 MoE)架构的 Transformer 模型,通过仅激活模型中的相关部分来保障更高效率。这使得 NotebookLM 能够一次性处理多达 1500 页的信息,因此更适合服务于那些掌握着大型数据集或者复杂主题的用户。它不仅能够消化大量信息,而且从目前的效果来看表现得游刃有余、并不会迷失在细节当中。

 

NotebookLM 采用:

  • 检索增强生成(RAG)处理来自多个信源的内容。

  • 文本转语音(TTS):为 AI 播客主持人生成声音,创造出令人信服的对话体验。

  • SoundStorm 生成逼真的音频对话:能够将脚本转换为自然对话,并输出高质量且引人入胜的音频。

  • 注入“节奏变换”:可添加与人类相似的停顿、过渡词和自然的语音模式,让对话听起来更加逼真。

  • 提示词工程:建立 AI 交互时,能确保主持人始终拥有自然顺畅的对话语气。

 


正如 Karpathy 所言,“我认为这就是双人播客形式在 UI/UX 探索领域最引人注目的应用成果。它消除了大语言模型在实际使用时面对的两大核心「障碍」:其一就是聊天很枯燥,用户不知道该说什么或者该问什么。而在双人播客形式下,提问工作也被委托给了 AI,这样用户就能获得更加放松的体验,不再受到生成过程中同步参与的限制。其二是阅读难度很大,现在播客形式能让用户坐在躺椅中轻松享受获取信息的乐趣。”

 

它为全体受众(包括技术和非技术受众群体)提供了有用的功能,并可供学生、研究人员和作家们快速上手。它在实用性和实验性之间找到了理想平衡,带来了一种与个人数据交互的新颖方式。

 

也许我们都有点反应过度,而且 NotebookLM 也肯定不够完美,毕竟目前还没有哪款 AI 工具堪称完美。但如果我们能更务实一点,那么 ChatGPT 和如今的 NotebookLM 等工具至少标志着生产力被提升到了新的维度。这就像是拥有了一颗不断发育的外挂大脑,它虽然不一定真会思考,但肯定很擅长处理信息。

 

参考链接:

https://x.com/karpathy/status/1840112692910272898

https://www.turingpost.com/p/fod69

https://simonwillison.net/2024/Sep/29/notebooklm-audio-overview/

2024-10-08 16:008767

评论

发布
暂无评论
发现更多内容

软件开发中,如何为你的代码构建三层防护体系

华为云开发者联盟

软件开发 华为云 华为云开发者联盟 企业号9月PK榜

DaaS到底是什么 为什么越来越多人在用云桌面办公

青椒云云电脑

云桌面

传统私有云系统存在哪些问题

青椒云云电脑

私有云 云厂商

技术分享| anyRTC音视频混流技术解析

anyRTC开发者

音视频 视频会议 音视频混流 图像合成 音频合成

选择MobPush的三大理由

MobTech袤博科技

智能推送

度小满发布“轩辕70B”金融大模型 C-Eval、CMMLU双榜排名第一

科技热闻

网络隔离下实现的文件传输,现有的方式真的安全吗?

镭速

文件传输 内外网数据交换 网络隔离

入门指南:GPU云服务器用途一览

青椒云云电脑

云服务器

学生PC怎么选?云电脑 不买高价硬件也能畅享高配

青椒云云电脑

云电脑

有一个新工具,能让程序员变成高手,优雅撸它!

树上有只程序猿

低代码 应用开发 JNPF

文心一言 VS 讯飞星火 VS chatgpt (98)-- 算法导论9.3 4题

福大大架构师每日一题

福大大架构师每日一题

警惕U盘、FTP等传统文件摆渡方式的7大弊端

镭速

文件传输 大数据传输 文件摆渡

一图回顾华为云开发者联盟扫地僧见面会

华为云开发者联盟

开发者 华为云 华为云开发者联盟 企业号9月PK榜

用友BIP开发者生态亮相华为全联接大会

YonBuilder低代码开发平台

私有云有哪些特点,与公有云有什么关系

青椒云云电脑

私有云

私有云架构设计原理

青椒云云电脑

云厂商

中国私有云未来演进方向

青椒云云电脑

私有云

游戏研发与产业的变革之路

百度开发者中心

#人工智能 生成式AI LLM

INFINI Labs 产品更新 | Gateway 支持基于 Kafka 的复制能力,发布 Helm Charts 部署方式

极限实验室

Helm Charts infini gateway INFINI Console easysearch

如何提升Java项目质量,代码是关键

飞算JavaAI开发助手

代码质量 Java 开发

云GPU如何加速AI训练

青椒云云电脑

云服务器

观测云产品更新 | 优化日志数据转发、索引绑定、基础设施自定义等

观测云

可观测性用观测云

数据库OpenTenBase和操作系统OpenCloudOS获信通院Oscar开源尖峰奖

极客天地

智能时代的“发动机升级”:数据中心十年之变

脑极体

数据中心

虹口有数丨上海市虹口区“一网统管”新解法

云计算

首购2元起!CDN与加速特惠专场来啦~

火山引擎边缘云

CDN CDN加速 边缘云 CDN技术

谷歌这款AI应用凭什么在一年后爆红?大神卡帕西:或是下一个ChatGPT_生成式 AI_Tina_InfoQ精选文章