谷歌发布多模态直播API：解锁看听说，开启AI音视频交互新体验

摘要：谷歌昨日在发布 Gemini 2.0 的同时，还发布了全新的多模态直播（Multimodal Live）API，帮助开发人员开发具有实时音频和视频流功能的应用程序。

IT之家 12 月 13 日消息，谷歌昨日在发布 Gemini 2.0 的同时，还发布了全新的多模态直播（Multimodal Live）API，帮助开发人员开发具有实时音频和视频流功能的应用程序。

该 API 实现了低延迟、双向的文本、音频和视频交互，以音频和文本形式输出，带来更自然流畅、如同人类对话般的交互体验。用户可以随时打断模型，并通过共享摄像头输入或屏幕录像与其进行互动，就内容提问。

该模型的视频理解功能扩展了通信模式，用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。该 API 已经向开发者开放，同时也向用户提供了一个多模态实时助手的演示应用。IT之家附上演示如下：

该 API 支持集成多种工具，开发者只需一次 API 调用，即可完成复杂的用例。

来源：IT之家一点号

标签：谷歌模态 api

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!