摘要:Seed1.5-VL 支持多种分辨率的图像输入,并通过原生分辨率变换(native-resolution transform)确保最大限度保留图像细节。在视频处理方面,提出了一种动态帧分辨率采样策略(dynamic frame-resolution sampl
⬆️本文播客版,敬请收听,Produce By NotebookLM@Google
大家好,我是 i 学习的老章
前几天字节跳动开源了代码大模型Seed-Coder-8B-Instruct还有复刻 Deep Research 的还有开源了可以高效处理包含文本段落、图表、公式和表格等交织元素的复杂文档的Dolphin最近有开源了一个多模态大模型——Seed1.5-VLSeed1.5-VL 支持多种分辨率的图像输入,并通过原生分辨率变换(native-resolution transform)确保最大限度保留图像细节。在视频处理方面,提出了一种动态帧分辨率采样策略(dynamic frame-resolution sampling strategy),能够根据需要动态调整采样帧率和分辨率。此外,为了增强模型的时间信息感知能力,在每帧图像之前引入了时间戳标记
先来看看其能力如何
1、图片输入 - 图片输出
结果:
2、图片输入 - 文字输出
3、视频输入
它还有基础感知
比如
识别地点
视觉定位
视觉解谜
官方提供了 Gradio Demo
API_KEY="..." python app.py图形界面有离线模式
自带了七个示例:文本,图像,视频,多个图像/视频,视觉解谜,坐标定位,开放式物体检测还有在线模式
Seed1.5-VL 不仅在视觉和视频理解方面表现出色,还展示了强大的推理能力,使其在视觉谜题等多模态推理挑战中特别有效。在代理中心任务(如 GUI 控制和游戏玩法)中,Seed1.5-VL 的表现超过了包括 OpenAI CUA 和 Claude 3.7 在内的领先多模态系统。
Seed1.5-VL 在多个应用场景中展示了其强大的能力:
2D 视觉定位:准确识别和定位图像中的物体
3D 理解:理解三维空间中的物体关系和结构
视频理解:分析和理解视频内容和时间序列
GUI 代理:能够理解和操作图形用户界面
**长链思考 (LongCoT)**:通过详细的推理过程解决复杂问题
ByteDance-Seed/Seed1.5-VL: https://github.com/ByteDance-Seed/Seed1.5-VL
HuggingFace Spaces: https://huggingface.co/spaces/ByteDance-Seed/Seed1.5-VL
Volcano Engine: https://www.volcengine.com/product/doubao
来源:王王科技资讯