一手体验,豆包内测共享屏幕通话

360影视 日韩动漫 2025-03-14 12:03 2

摘要:活动中,他们不仅把大模型价格降下来了,还展示了豆包视觉大模型的解析能力;当时,我看到后表示惊讶:以后跟AI打电话,通过共享屏幕,它就能帮我理解一切,太快了。

去年10月份,字节举办一场豆包大模型相关的活动。

活动中,他们不仅把大模型价格降下来了,还展示了豆包视觉大模型的解析能力;当时,我看到后表示惊讶:以后跟AI打电话,通过共享屏幕,它就能帮我理解一切,太快了。

不过,当时展示的似乎更像一个炫技的demo,一直没开放出来;三个月过去了,期间看他们不断内测,今天终于拿到体验资格。

这个能力到底是什么?

简单讲,在与豆包进行语音通话时,界面会多出一个“共享屏幕”的按钮;点击后,它能实时看到桌面内容,并对场景进行解析,提供建议和帮助解决实质性问题。

我习惯使用快捷键,所以,直接按了Option + S来呼出功能。当然,你也可以点击界面上的按钮来使用,这主要取决于个人习惯。

首先,我问它:你能看到我屏幕不?

它说:我看不到。我心想,怎么回事?捣鼓了一分钟,我挂断电话又重新打开,这回可以了。估计是系统延迟导致的bug。

接下来,决定试试它的本事。当时,屏幕上开着三个页面:第一个和Kimi聊天的窗口,第二个我的微信群聊,第三个是正在写的文档。

我问它:你能看到我屏幕上都有啥不?

豆包回答:你所在的微信群里有个朋友叫宋敬纬,看他的名字像是来自分众传媒。他在群里说,60岁是该拼的时候,其他朋友也在讨论这个事儿。

我有点惊呆,豆包居然能看这么细。

我又接着问:那你能看到我跟Kimi在聊啥不?它说:你这Kimi窗口开着,看着好像有问题想问。要不我帮你想想,告诉它?的确,我开着Kimi的聊天窗口,但还没输入任何内容。这,难道要控制Kimi?

然后,我瞅一眼屏幕右边的文档,又问:你能看到我的文档不?他说:能看到,你正在写对豆包的体验......,的确,我正在写这篇体验文档。

最后,我打开Safari浏览器,上了百度搜索;它说:我看到你在搜索东西,需要帮忙不?我可以帮你想想。

这系统交互能力是很快,像有个眼睛盯着电脑屏幕;我觉得光看图片、读聊天记录、阅读文字实在有些基础。于是,又测试了一下它的数学能力。

让我手写一个复杂公式,现在脑子明显不够用。于是,把这个问题交给了Kimi。Kimi写完问题后,我把它复制到备忘录里,然后,通过共享屏幕让豆包帮我解答。

豆包大概只用了3秒钟,给出了答案:18元。除了答案,他还详细地解释了他的计算过程,整体非常丝滑。

体验到这,我突然想到一个问题:

既然豆包能够识别屏幕上的平面内容,那它能否处理立体或动态内容呢?比如:看短视频。

于是,我打开了一段前几天拍摄的短视频,时长约一分钟,问豆包能不能帮我“观看”这段视频。不出所料,豆包回答说无法直接观看。这也在情理之中,毕竟视频是动态的,对它来说可能难以实时解析。

不过,我没有放弃。

打开一个视频号,等视频内容播放完,再问它,视频讲了什么?豆包说,你在看一个视频号的内容,内容主要是两人相亲的场面。

这个过程中也有一些痛点。如果视频太长,豆包可能只听了一分钟左右,就会自动中断并开始总结,而此时视频可能还没有播放完。

所以,我测试了四点:看社群聊天记录、操作Kimi、看图片、看视频。

像屏幕共享软件、操作电脑桌面、解析内容和视觉的产品,有很多。比如:Highlight AI。

非常强大的桌面 AI 工具,我很早在用;它能直接操作微信、Notion 等应用,交互非常丝滑,直接用语音和自定义快捷键就能操作;我还能让它帮我提取公众号的内容,或者翻译屏幕上的文字。

谷歌的 ScreenAI,它主要能解析屏幕上的图标、图片和地图,并生成摘要。我还能用它分享一个网页的设计布局,或解答图标里的问题,非常适合处理视觉信息。

还有 OmniParser、ChatGPT,这些工具虽然侧重点不同,但都围绕着屏幕内容共享、操作、解析这三点展开的。

对于一个国内用户来说,我认为唯一劣势是:网络问题,体验不够好;有时候,使用过程中会频繁卡顿,甚至中断;豆包AI助理共享屏幕语音出现,恰巧解决了该问题。

我一直在想豆包这个能力,到底适合什么场景下使用?

后来觉得,AI助理不能直接用场景来定义它的用途,因为本质更像是一个全能的代理人。代理人要具备更广泛的能力,不应该被局限在某个特定场景下。

另外,我认为,AI助理的挑战已经从“能力”转向了“交互”。这种新的交互模式,可以看作图形用户界面(Graphical User Interface,简称GUI)的一次重大升级。

为什么这么说呢?

过去使用电脑时,主要依赖点击图标、按按钮、查找菜单等。虽然这种方式看似直观,但当功能越来越多时,屏幕会变得杂乱无章,学习成本也随之增加,使用起来也显得繁琐。

此外,每次想要完成一个任务,都要手动操作——点这儿点那儿,既被动又耗时。比如,同时处理多个任务时,我们需要在写文档、查资料、看文件之间来回切换,效率很低,体验也不够流畅。

而AI助理的出现改变了这一切。

它能够听懂我们的语言指令,想让它做什么,直接开口就行,完全不要记住复杂的操作步骤。我想记录一个想法,只需说“帮我记下来”;遇到问题时,可以说“帮我解决”,整个过程简单高效。

更重要的是,AI助理还能在后台自动完成任务,无需我们时刻盯着屏幕。它能够理解我的意图,将复杂任务分解成多个步骤,并逐步完成。

我有一个深刻的体会:以前问问题时,需要逐字输入,有时还没打完,思路就中断了。

现在,通过语音输入,可以一口气把问题说完,即使表达得不够完整,AI助理也能理解我的意思,并分段帮我解决问题。

在我看来,AI TOC产品经理应该深入思考一个命题:如何进一步优化交互方式,让用户和人的关系,从传统按钮变成更自然的对话。也许,唯有这样,才能真正做到从「工具」到「智能伙伴」。

你觉得呢?

来源:王智远

相关推荐