一手体验，豆包内测共享屏幕通话

摘要：活动中，他们不仅把大模型价格降下来了，还展示了豆包视觉大模型的解析能力；当时，我看到后表示惊讶：以后跟AI打电话，通过共享屏幕，它就能帮我理解一切，太快了。

去年10月份，字节举办一场豆包大模型相关的活动。

活动中，他们不仅把大模型价格降下来了，还展示了豆包视觉大模型的解析能力；当时，我看到后表示惊讶：以后跟AI打电话，通过共享屏幕，它就能帮我理解一切，太快了。

不过，当时展示的似乎更像一个炫技的demo，一直没开放出来；三个月过去了，期间看他们不断内测，今天终于拿到体验资格。

这个能力到底是什么？

简单讲，在与豆包进行语音通话时，界面会多出一个“共享屏幕”的按钮；点击后，它能实时看到桌面内容，并对场景进行解析，提供建议和帮助解决实质性问题。

我习惯使用快捷键，所以，直接按了Option + S来呼出功能。当然，你也可以点击界面上的按钮来使用，这主要取决于个人习惯。

首先，我问它：你能看到我屏幕不？

它说：我看不到。我心想，怎么回事？捣鼓了一分钟，我挂断电话又重新打开，这回可以了。估计是系统延迟导致的bug。

接下来，决定试试它的本事。当时，屏幕上开着三个页面：第一个和Kimi聊天的窗口，第二个我的微信群聊，第三个是正在写的文档。

我问它：你能看到我屏幕上都有啥不？

豆包回答：你所在的微信群里有个朋友叫宋敬纬，看他的名字像是来自分众传媒。他在群里说，60岁是该拼的时候，其他朋友也在讨论这个事儿。

我有点惊呆，豆包居然能看这么细。

我又接着问：那你能看到我跟Kimi在聊啥不？它说：你这Kimi窗口开着，看着好像有问题想问。要不我帮你想想，告诉它？的确，我开着Kimi的聊天窗口，但还没输入任何内容。这，难道要控制Kimi？

然后，我瞅一眼屏幕右边的文档，又问：你能看到我的文档不？他说：能看到，你正在写对豆包的体验......，的确，我正在写这篇体验文档。

最后，我打开Safari浏览器，上了百度搜索；它说：我看到你在搜索东西，需要帮忙不？我可以帮你想想。

这系统交互能力是很快，像有个眼睛盯着电脑屏幕；我觉得光看图片、读聊天记录、阅读文字实在有些基础。于是，又测试了一下它的数学能力。

让我手写一个复杂公式，现在脑子明显不够用。于是，把这个问题交给了Kimi。Kimi写完问题后，我把它复制到备忘录里，然后，通过共享屏幕让豆包帮我解答。

豆包大概只用了3秒钟，给出了答案：18元。除了答案，他还详细地解释了他的计算过程，整体非常丝滑。

体验到这，我突然想到一个问题：

既然豆包能够识别屏幕上的平面内容，那它能否处理立体或动态内容呢？比如：看短视频。

于是，我打开了一段前几天拍摄的短视频，时长约一分钟，问豆包能不能帮我“观看”这段视频。不出所料，豆包回答说无法直接观看。这也在情理之中，毕竟视频是动态的，对它来说可能难以实时解析。

不过，我没有放弃。

打开一个视频号，等视频内容播放完，再问它，视频讲了什么？豆包说，你在看一个视频号的内容，内容主要是两人相亲的场面。

这个过程中也有一些痛点。如果视频太长，豆包可能只听了一分钟左右，就会自动中断并开始总结，而此时视频可能还没有播放完。

所以，我测试了四点：看社群聊天记录、操作Kimi、看图片、看视频。

像屏幕共享软件、操作电脑桌面、解析内容和视觉的产品，有很多。比如：Highlight AI。

非常强大的桌面 AI 工具，我很早在用；它能直接操作微信、Notion 等应用，交互非常丝滑，直接用语音和自定义快捷键就能操作；我还能让它帮我提取公众号的内容，或者翻译屏幕上的文字。

谷歌的 ScreenAI，它主要能解析屏幕上的图标、图片和地图，并生成摘要。我还能用它分享一个网页的设计布局，或解答图标里的问题，非常适合处理视觉信息。

还有 OmniParser、ChatGPT，这些工具虽然侧重点不同，但都围绕着屏幕内容共享、操作、解析这三点展开的。

对于一个国内用户来说，我认为唯一劣势是：网络问题，体验不够好；有时候，使用过程中会频繁卡顿，甚至中断；豆包AI助理共享屏幕语音出现，恰巧解决了该问题。

我一直在想豆包这个能力，到底适合什么场景下使用？

后来觉得，AI助理不能直接用场景来定义它的用途，因为本质更像是一个全能的代理人。代理人要具备更广泛的能力，不应该被局限在某个特定场景下。

另外，我认为，AI助理的挑战已经从“能力”转向了“交互”。这种新的交互模式，可以看作图形用户界面（Graphical User Interface，简称GUI）的一次重大升级。

为什么这么说呢？

过去使用电脑时，主要依赖点击图标、按按钮、查找菜单等。虽然这种方式看似直观，但当功能越来越多时，屏幕会变得杂乱无章，学习成本也随之增加，使用起来也显得繁琐。

此外，每次想要完成一个任务，都要手动操作——点这儿点那儿，既被动又耗时。比如，同时处理多个任务时，我们需要在写文档、查资料、看文件之间来回切换，效率很低，体验也不够流畅。

而AI助理的出现改变了这一切。

它能够听懂我们的语言指令，想让它做什么，直接开口就行，完全不要记住复杂的操作步骤。我想记录一个想法，只需说“帮我记下来”；遇到问题时，可以说“帮我解决”，整个过程简单高效。

更重要的是，AI助理还能在后台自动完成任务，无需我们时刻盯着屏幕。它能够理解我的意图，将复杂任务分解成多个步骤，并逐步完成。

我有一个深刻的体会：以前问问题时，需要逐字输入，有时还没打完，思路就中断了。

现在，通过语音输入，可以一口气把问题说完，即使表达得不够完整，AI助理也能理解我的意思，并分段帮我解决问题。

在我看来，AI TOC产品经理应该深入思考一个命题：如何进一步优化交互方式，让用户和人的关系，从传统按钮变成更自然的对话。也许，唯有这样，才能真正做到从「工具」到「智能伙伴」。

你觉得呢？

来源：王智远

标签：图标豆包 kimi 王智远豆包内测

本文地址：https://news.43u.com.cn/a/743002.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐