Google新出AI学习神器,推演LLM应用的终极形态

摘要:NotebookLM 是由 Google I/O Tailwind项目演变而来,并且集成了 “音频概览(本文使用播客指代)”功能。该功能可以将用户上传的各种格式的文档(包括文本、PDF 和音频)转换为生动有趣的音频播客。新颖的功能吸引了大量用户,并在海外社交媒

NotebookLM 是由 Google I/O Tailwind项目演变而来,并且集成了 “音频概览(本文使用播客指代)”功能。该功能可以将用户上传的各种格式的文档(包括文本、PDF 和音频)转换为生动有趣的音频播客。新颖的功能吸引了大量用户,并在海外社交媒体上迅速传播。

全文讨论速览:

播客效果有多出色?

先来试听一段NotebookLM生成的音频:

播客中两位主持人的语气真实自然,具备现场讨论的节奏。Google NotebookLM 的 Discord(海外)社区,在短短三周内就吸引了 65,000 名用户,对于一个 Google 内部试验性质的AI项目来说,是一个非常惊人的数字。

Google用了哪些方法让音频这么生动自然?

直接看创始团队的访谈:

让对话自然流畅:当你听NotebookLM的音频时,会发现有很多小的插话(Steven Johnson称之为“不流畅”),比如“真的吗?”或“完全同意”,还有停顿和“嗯……”,这些都是我们在真实对话中会期待的。这些并不是由LLM在文本中生成的,而是音频模型内置的。

听众喜欢紧张感:如果两个人总是对所有事情都达成一致,那就不太有趣了。他们调整了模型,以生成流畅的对话,这些对话反映了人类语言的语调和节奏。Google的SoundStorm论文与这个模型有关。

产生新见解:因为主持人的目标不是总结,而是娱乐,所以它会想出一些有趣的隐喻和比较,这些实际上有助于扩展内容,而不仅仅是像大多数模型那样进行改写。我们有听众从播客中制作出新的播客。

方法论环节,我们把AI音频套用上B站千万粉丝UP主影视飓风的HKRR方法:

共鸣、快乐:NotebookLM生成的对话可以通过幽默和生动的表达方式增强观众的快乐感和共鸣。知识传递:通过将重要信息以对话形式呈现,NotebookLM不仅能提供知识,还能通过互动式讨论加深理解。让我们开车、地铁途中,佩戴耳机聆听AI对话的同时获得实用的信息。节奏:AI主持人之间的对话具有自然流畅的节奏感。在讨论复杂主题时,AI主持人可以插入轻松幽默的交流,伴随主持人意见分歧从而激发听众思考,从而提升信息传递效果。

AI播客国内为什么没火起来?

NotebookLM音频不支持中文。已知的开源中文播客与谷歌有差距。中美播客市场有显著差异。**美国形成了庞大的听众基础,中国整体用户基数较小。

Meta快速跟进的Llama开源版本,效果如何?

内容节奏、结构不完整,且中文播客质量非常糟糕。并且开源版本的生成的对话脚本也没什么深度。

下面是Meta-Llama项目收录的NotebookLM开源版本的界面。

评价:如果要国内重现NotebookLM播客传播度,需要细致评估中美用户群播客使用习惯差异。但可作为重要技术储备,用于后续多模态输出。

NotebookLM核心功能是什么?

Google 发布了这款笔记应用程序,以增强我们捕获、组织和检索信息的方式。NotebookLM 由 Google 最新的语言模型提供支持,该模型支持多达 100 万个上下文窗口。

NotebookLM 的核心是解决与传统笔记相关的挑战:效率低下、难以组织大量信息以及筛选大量数据以查找相关点的耗时性。

NotebookLM 允许用户上传文档,根据特定主题创建多个笔记本,并查询他们的笔记以快速检索准确的信息。

与竞争对手相比,NotebookLM 能够与其他 Google 服务无缝集成,这使其成为已经投资于 Google 生态系统的用户的热门选择。

NotebookLM核心卖点是什么?会抢占哪块用户心智?

NotebookLM核心是“AI+轻松知识探索”领域用户需求的精准把握,播客功能是营销传播的入口。从开发团队访谈定位看,NotebookLM仍处于试验阶段。

团队研究了笔记工具的习惯和痛点,很多人希望能够更轻松地消化和理解大量信息。在NotebookLM可以和上传的文档进行交互,提出问题并获取答案,NotebookLM 自动生成文档摘要和关键主题。而 NotebookLM 的音频概述功能正好满足了这一需求。NotebookLM根据文档生成针对性的后续问题,帮助用户更深入地理解和思考。

从我的体验来看,Google生成的讨论质量出色,做到了深入理解、引起用户深入思考。它仍有幻觉,但足够在我AI工具箱占据重要位置。这些功能都旨在帮助用户更有效地管理和利用信息,提高学习和工作效率。

来观察评论区反馈的用户体验:

个人测试没评论这么夸张,仍有大模型幻觉,但Gemini模型支持下的文本的处理能力很强,回答质量较高。

NotebookLM从几个月前的默默无闻到快速增长,做对了哪些事情?

NotebookLM 最初的功能相对简单,专注于上传的资料,专注知识探索,问答和总结文档,并逐步迭代添加新功能。

Discord成为重要的反馈渠道: NotebookLM 团队积极利用 Discord 社区收集用户反馈,并根据反馈快速迭代产品功能。这表明,与用户保持密切沟通并快速响应他们的需求是 AI 产品成功的关键。

AI 能力的边界决定产品形式和价值: 充分理解AI 模型的能力边界,例如上下文窗口限制。NotebookLM没有尝试用工程手段强行解决所有问题,而是把精力集中在 AI 模型能够胜任的任务上。这种务实的态度有助于团队专注于打造真正有价值的产品。

什么会阻碍NotebookLM继续发展?

NotebookLM是半成品,交互体验一般。PerplexityAI也在AI知识探索上有所布局,会侵蚀NotebookLM市场。

Sam Altman无法按计划时间表推出GPT-5,对商业竞争资源分配影响如何?

AI 应用之战将更加激烈。GPT-5没有按预期时间线推出,极大缓解了厂商的显卡竞赛资金压力,提供了战略上的喘息机会。但与之对应的是AI 应用将迎来更加激烈的竞争,并且现阶段主要目标转向探索GPT-4o智能下的商业化。

两年投入大量资金基础设施构建,LLM厂商需要阶段性通过AI应用的成功,来向投资人/团队证明前期硬件投入的合理性。

2025年量产AI应用时间点临近?哪些因素促成量产AI应用?

经历了1年多的大模型之争,2024年全球市场上已经形成万卡梯队的开源Llama、Grok和商用闭源Gemini、Claude、GPT-4o等大型语言模型的竞争格局,这些模型在性能和场景上各有优势。

成本下降、输出Token质量、推理吞吐速度进步显著。大模型之战为接下来的AI应用竞争铺平了道路。

回归场景,大厂押注的多模态,先跑出来商业化落地的,是哪几个模态?

从个人角度讲不赞同过度使用多模态,它会错误地让人把几个模态放到了同等地位。尽管在研究角度讲多模态有相似之处,但在实际商业化上面向的是完全不同的领域。

图、视频在生成成本、速度和使用方式上和文本音频有较大区别。几种模态面向的商业类型完全不同。我倾向认为文本、音频、结构化图表是AI助手类工具成熟的落地方式。

下一款应用大概率出现在什么地方?

如果要说LLM产生最大影响是什么,答案就在LLM字面上——使用人类凝结在语言中的逻辑、思维,来增强人的智识。

因此我最感兴趣的也是知识类工具的变化。从高频使用GPT近两年来,我的观点是LLM接下来覆盖的不只是Notion类型的笔记软件,而是整个科普、知识付费、可以是为了满足人类好奇心涵盖的方方面面。

知识发现领域的AI应用是什么形态,解决什么问题?优化方向是什么?

和去年一样,个人最看好的仍是办公协作类AI助手。

PAI(Project、Action、Inbox,项目、行动、信息收集)是我非常喜欢的笔记理念,这是油管知识区博主关于Notion笔记的思考。

它时刻提示你,笔记是过程,基于笔记的行动/输出(解决某个问题、写一篇文章、制作视频等)是最重要的事。

通过不断提出问题->搜集信息->行动解决问题,循环。行动解决问题的满足感让我们能不断清空大脑,卸下知识负担,让陷入知识焦虑的工作者享受日结工的爽感。

关于知识类AI应用,有什么好用的方法论吗?

Capture,引用源,持续集成Google全家桶,用更简洁方式让用户添加基础材料。Organize,组织整理材料,自动整理引用源。Distill,忠于材料的洞察,NotebookLM目前我眼里做的Top的应用之一,期待后续持续迭代优化。Express,洞察转变为行动,沉淀为产品、代码、写作、自媒体的一个环节。NotebookLM做得很弱。

产品需要尽可能借助多的。这里使用Tiago Forte的《BUILDING A SECOND BRAIN》里面提到的CODE模式作为框架,思考下一步路径。

上述4点可以衍生出非常多的工具,放入产品探索工具箱里。提供给产品随时检查是否偏离预期,或是使用上述方法论进行产品迭代。

LLM版工作猴子理论是什么?

总结我的进一步观察,论述我在Cursor、Perplexity、NotebookLM产品里观察的共性,以及昙花一现失败的AI玩具不具备的能力。

我将其总结为“AI猴子理论”,适用于GPT-4阶段下,对AI的观察。

原版的“猴子理论”指的是一种工作模式,公司里每个人都有自己的责任及任务(猴子),每个人照顾好自己的猴子,并当他人把猴子放到自己身上时,对此保持警惕,应迅速处理并放回,避免过多的猴子停留在自己身上。

AI猴子理论:AI处理一条问答时,就是从用户手上拿到了一只猴子,这时候我们可以选择:

把猴子丢掉:模型产生幻觉、检索能力差、回答虽然看似正确但平平淡淡。每次交互返还合理数量的猴子挂回用户身上:归还用户值得一看的洞见、接下来值得做的事。

如果细致拆解,AI猴子理论关乎一套产品评估体系,及一套目标体系。这里我也在持续思考中,成体系后会有新文章填坑。

来源:腾讯技术工程一点号

相关推荐