摘要:上个月,字节跳动旗下 Agent「扣子空间」上线之初,曾经一度被挤爆服务器,全网分享内测码。
扣子空间 = 精通各项技能的实习生 + 各行各业的领域专家。
作者丨王悦
编辑丨陈彩娴
本播客由扣子空间(coze.cn)根据本文内容一键生成
上个月,字节跳动旗下 Agent「扣子空间」上线之初,曾经一度被挤爆服务器,全网分享内测码。
经过一个月时间的沉淀,AI 科技评论发现了扣子空间最新上线了一个新玩法—— 一键生成播客。
相比于主打任务规划与执行的通用 Agent,AI 播客 Agent 需要的能力确实更丰富,内容理解、多模态融合、语音合成、情感表达、多角色模拟、对话逻辑等能力都不可或缺,这对多模态性能有很大挑战。
市面上具备一键生成播客能力的 AI 产品并不多。谷歌 NotebookLM 的音频功能也可以将用户上传的文档、笔记、网页等内容转换为一段类似播客的音频对话,但目前在中文语音合成的自然度和情感表达上尚有不足,相比之下,扣子空间在中文语境中更有优势。
接下来一起实测一下扣子空间。
1 Agent 一键生成播客,比真人还丝滑
以 AI 科技评论发布的一篇对 Trans-N.ai 联创孙又晗的专访《前小马智行孙又晗创立 Trans-N.ai,出海日本获最大种子轮融资》为例,如果想把文字版的内容对应地转化成兼具声音、文字、图片的完整的播客形式,则需要经历完整的生产流程。
在内容上,需要创作者花费时间寻找创意和构思脚本;在音频制作上,则涉及硬件设备、剪辑软件、实际录制、手动剪辑、降噪处理等多个环节,整个过程需要投入大量的时间和精力。
而如果用扣子空间打开这期播客,只需直接在对话框中输入你的需求:请根据这篇文章生成一期播客,无需其他操作,即可一键获得完整的播客内容。
扣子空间生成的结果是:
首先必须要说的是,这段播客语音几乎100%尊重原文文字,没有出现胡编乱造的情况。其次,对话的 AI 主播语气生动自然,对长句的拆分准确,在转折之处还能听到情绪的变化。并且双方问答的形式很自然,有对话感。
☟上下滑动查看更多
Slide for more photos
原链接:
https://space.coze.cn/web?uri=7509674506227892287/
面对几千字的文字专访,扣子空间能理解和生成效果生动自然的播客,大家也可以自己尝试一下效果!如果上升一个难度,发送一个几万字的长文档,并且语言相对学术、艰深,扣子空间又该如何应对?
喂给扣子空间如下一篇论文,主题为《晚清天文学译词考察——以五种天文学译著为中心》,共17页PDF的篇幅,其中包含大量天文学专业术语:
论文链接:
将这篇论文生成一期播客,扣子给出的答案是:
整段播客对话可以说是专业电台主播的即视感。从内容理解和表达方面,口语化表达平衡了学术内容的严肃感,且逻辑清晰,循序渐进地探讨了译词的特点、来源、演变及研究意义,信息密度高。AI 男女主播问答配合自然,语气轻松。
☟上下滑动查看更多
Slide for more photos
跳出专业性强的内容,如果是生活化、轻松的通用话题,扣子空间能否准确get到五花八门的prompt要求,并生成富有表现力的内容。
喂给扣子空间如下一篇小红书笔记,要求根据这篇笔记生成一个“彩虹屁“播客。
扣子空间生成了如下播客:
这段音频中,不仅尊重了字数有限的小红书文案,还能自动合理化生成一些非原文的内容,如男主播调侃“这话题听着就饿”,更加贴合人类语境。而且,音频对话节奏明快,符合播客的娱乐属性,营造了人类主播的氛围感。
☟上下滑动查看更多
Slide for more photos
原链接:
再上升一个难度,让扣子空间围绕“2025端午节龙舟赛”这样的实时热点话题,生成一期新闻热点的时评播客:
从实时热点的内容捕捉上来看,扣子空间能捕捉到南昌国际赛、深圳福田邀请赛等赛事,信息丰富且数据翔实。并且,AI主播在讲解时的表现富有感染力,语气词的增加也跟自然拟真。
☟上下滑动查看更多
Slide for more photos
原链接:
2 不止「一键生成播客」
经过数十个案例的测评,AI 科技评论发现,扣子空间的能力并不局限于一键生成播客,它更像是一个,精通各项技能的「通用实习生」,并且这个「实习生」背后有各行各业的专家作为支持,无论是在生活、学习还是工作场景,扣子空间都能专业、及时地响应你的个性化需求。
Agent 搜图
AI 图像处理技术虽然在现阶段已被大量使用,但在特定场景下生成的图片仍存在「AI味儿」过重、与文字搭配不自然、与真实场景差距大、无法满足严肃创作需求的问题。最终,不得不手工使用搜索引擎,一张一张地去寻找与需求相关的图片
扣子空间的 Agent 搜图能力则更全面、准确。输入prompt:写一篇详细的乌兰察布的旅游指南,重点介绍值得一去的景点和当地的特色美食,要求图文并茂。得到的答案是:
☟上下滑动查看更多
Slide for more photos
在这份攻略中,美食、美景图片能够和文字准确对应。扣子空间不仅能够在海量的图片资源中搜到高质量的真实图片,还具备强大的视觉理解能力,准确地理解每张图片所包含的内容。
再拿云南毒蘑菇宣传科普文为例,要将毒蘑菇图片和文字介绍准确对应,扣子空间给出的结果是:
☟上下滑动查看更多
点击查看完整内容:
不仅图片和文字对应正确,扣子空间生成的内容更全面,共给出了39种蘑菇图片和介绍。
深度分析、多种形式呈现能力
工作或学习过程中,针对某一话题展开调研是常见需求,通常需要快速针对某一事件进行调研、收集海量信息,再条理清晰地呈现出来。
例如,电商运营场景中,将特定产品在某电商平台的1000条用户评论给到扣子空间,要求进行深度分析,用可视化的方式呈现,得到的结果是:
☟上下滑动查看更多
Slide for more photos
再抛给扣子空间一个数十页 PDF 的智能眼镜访谈记录文档:
☟上下滑动查看更多
Slide for more photos
提出的需求仅为“帮我总结访谈记录”,无需进行更多的交互,扣子空间就能输出如下结果:
☟上下滑动查看更多
完整结果可查看:
https://space.coze.cn/share/7494547494739640339?share_id=7494545764463558696&secret=DCttdruU&from=landingpage
在这两个案例中,扣子空间既能快速地处理海量文档,同时也能用多种图表的多种方式进行呈现,起码完成 80% 的任务。
无门槛写代码、开发工具
扣子空间能帮助小白用户写程序、代码,随心所欲打造生活场景中的小工具。
以开发一个健康营养计算器为例,在扣子空间中输入prompt:帮我写一个程序,让用户输入身高体重年龄性别,这些值最好是让用户自己输入,不要给默认值,然后计算出基础代谢,最好这个值计算之后可以人为去修改。
在这一过程中,开发者在扣子空间进行了多轮调优,完整交互过程:https://space.coze.cn/share-coding-expert/7504570762884956199
扣子空间呈现的是:
最终效果可点击链接进行体验:
在这一过程中,扣子空间能够自主规划开发任务、智能生成优质代码、自动进行完整测试,还能根据开发者需求精准修改代码。
多种实用网站开发
扣子空间也能帮助非技术人员,自行开发出高质量的多种类型网站,如游戏网站、机构官方网站、教学互动网站。
以游戏网站为例,prompt 的要求是:帮我做一个治愈岛·心灵小憩小网站,具体图片使用给定链接,整体风格偏治愈系和可爱。旨在放松身心,鼓舞人心,每一个画面的大小请自动调节到适应不同设备。
完整交互过程可参考:
最终得到的结果是:
☟上下滑动查看更多
Slide for more photos
工作场景中制作小而美的交互性网站,扣子空间也能轻松拿捏。
输入prompt:请根据高中物理必修2的抛物线运动,总结不同题型,设计一个html语言的教学演示。必要的结果需包括:手动设置初速度、角度、重力加速度、风力,演示过程中要留下抛物线痕迹(虚线)。请你再分析不同情况,完善需求,制作 html。得到的结果是:
完整效果可查看:
3
结语
纵观市面上的 Agent 操作系统,一类是通用型 AI 智能体,主打任务规划与执行、信息收集与处理、自主操作能力;另一类是低代码或无代码开发平台型 Agent,主打降低开发门槛,让普通用户也能快速构建定制化智能体。字节的扣子空间则兼具了通用能力和低代码、易开发的特点。
扣子空间生产力的进一步提升,加之专家Agent生态的加持、集成MCP后的能力边界拓展,都让其更加成为工作、学习、生活的最佳AI拍档。
而一个强大的Agent背后,是多模态能力和推理能力在支撑。
扣子空间「一键生成播客」能力的表现,既凸显了字节在多模态方面的强势,也展现了字节在 Agent 这一赛道的产品化、工程化实力。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
//
来源:AI科技评论一点号