摘要:将 Apple Intelligence 的推出称为失误是相当轻描淡写的。但是,我希望在几周内,我们可能会看到一些新功能(或者可能是计划的概念),这些功能实际上可能会让公司感觉可能会迎头赶上:
考虑到 Apple 在去年的 WWDC 上承诺的大量 AI 功能,一年后,该公司似乎比去年 6 月进一步落后于竞争对手。
将 Apple Intelligence 的推出称为失误是相当轻描淡写的。但是,我希望在几周内,我们可能会看到一些新功能(或者可能是计划的概念),这些功能实际上可能会让公司感觉可能会迎头赶上:
1:谷歌的笔记本 LM
由于支持自定义说明以及最近的多种语言,音频概述已成为我的日常学习密集和技术机器学习论文的重要组成部分。
尽管如此,每次我使用它时,我都会忍不住想,如果 Safari 具有类似原生音频概述的功能,那该有多棒。(或者,如果 Apple Notes 具有更广泛的类似 Notebook LM 的功能,就此而言。
从创建“稍后阅读”链接的每日自动音频摘要的可能性,到收听我在 Safari 中可能阅读的任何内容的即时综述,Apple 除了摘要工具之外,还有很多选择可以将 AI 引入其浏览器。
2:Anthropic 的 MCP
去年,Anthropic 宣布了模型上下文协议 (MCP):这是一种开放标准,允许 LLM 通过统一接口安全、无缝地与外部工具、API 和平台交互。
您正在查看 Claude 直接与 Blender 交互,并根据用户提示创建 3D 场景。
在过去的几个月里,MCP 已被 OpenAI、Zapier、Google DeepMind、Replit、Microsoft、Block 和许多其他公司和平台采用。它实际上有机会成为 LLM 平台交互的标准,就像 HTTPS 用于 Web 或 SQL 用于数据库一样。
考虑到 Siri Intents 和 Siri Shortcuts 已经存在的框架,我们更有可能看到该公司在下个月宣布自己的类似 MCP 的协议,而不是看到 Apple 正确采用 MCP。
无论如何,用户将从中受益匪浅,例如,要求 LLM(甚至是 Siri!)从 Pages 文档创建整个 Keynote 演示文稿。同样,依赖辅助功能工具的用户将解锁直到今天感觉像科幻小说的可能性。
3:OpenAI 的屏幕共享
目前,Apple 提供 Visual Intelligence,它允许用户“单击并按住它来执行有关餐厅或企业的详细信息等作;翻译、总结或大声朗读文本;识别植物和动物;和更多”。
但是,它仍然缺少 ChatGPT 用户自去年以来一直喜欢的关键功能:视频和屏幕共享。
虽然将 AI 应用于照片可能会有所帮助,但与仅仅打开相机或弄乱手机并使用 ChatGPT 谈论屏幕上的内容相比,它已经感觉像是史前工作流程。在您翻阅菜单时,让 ChatGPT 帮助您解决食物过敏问题,您就会明白我的意思。
综述
对于我们在过去几年中都看到的所有关于 AI 的讨论,事实是,更广泛的受众(想想奶奶)仍然难以超越 ChatGPT 上的一些无意识提示,并弄清楚这如何真正融入他们的生活。
使 AI 有用的关键是在用户已经存在的环境中真正提供其优势,而不是让他们在应用程序之间来回跳转。诚然,这些功能中的许多(如果不是全部)都可能涉及敏感数据的服务器端处理,但嘿,这就是工作。
只要用户知道发生了什么,他们就可以决定是否使用某个功能。但是,由于隐私挑战而放弃这些功能的开发不再是一种选择。
你怎么样?您希望看到 Apple 在 Mac 和 iPhone 上原生采用其他应用程序和服务的哪些 AI 功能?在评论中告诉我们。
来源:智视角