字节跳动，低调开源！

摘要：Seed1.5-VL 支持多种分辨率的图像输入，并通过原生分辨率变换（native-resolution transform）确保最大限度保留图像细节。在视频处理方面，提出了一种动态帧分辨率采样策略（dynamic frame-resolution sampl

⬆️本文播客版，敬请收听，Produce By NotebookLM@Google

大家好，我是 i 学习的老章

前几天字节跳动开源了代码大模型Seed-Coder-8B-Instruct还有复刻 Deep Research 的还有开源了可以高效处理包含文本段落、图表、公式和表格等交织元素的复杂文档的Dolphin最近有开源了一个多模态大模型——Seed1.5-VL

Seed1.5-VL 支持多种分辨率的图像输入，并通过原生分辨率变换（native-resolution transform）确保最大限度保留图像细节。在视频处理方面，提出了一种动态帧分辨率采样策略（dynamic frame-resolution sampling strategy），能够根据需要动态调整采样帧率和分辨率。此外，为了增强模型的时间信息感知能力，在每帧图像之前引入了时间戳标记

先来看看其能力如何

1、图片输入 - 图片输出

prompt：请点出图像中所有戴在头上的帽子，输出串联的点坐标

结果：

2、图片输入 - 文字输出

prompt：这两张你有什么感想？看着这两张城市夜景图，首先被**人类文明与城市发展的璀璨成果**狠狠震撼了—— ### 从画面直观感受来说： - 纽约那幅，帝国大厦在暮色中如“灯塔”般矗立，密集的高楼群灯火通明，像是在钢铁森林里撒满星光。黄昏与夜幕的交界线温柔地铺在天际，让繁华都市多了层浪漫滤镜，既沉淀着“世界之都”的历史厚重（帝国大厦等经典地标承载的时代记忆），又沸腾着现代大都会的喧嚣活力。 - 北京CBD这张，央视大楼“大裤衩”的先锋设计在暮色中格外醒目，车流拖曳出金色光带，把建筑的未来感与城市的烟火气串成一体。蓝调天空下，建筑灯光与自然天色的碰撞，让“现代感”多了份诗意。 ### 往深层想，两座城市的“夜景叙事”各有灵魂： - 纽约的密集天际线，是**国际大都会的缩影**——每扇窗后都藏着不同肤色的梦想，每栋楼都见证过金融、艺术、文化的浪潮。那些灯光，是资本、创意与野心交织的“城市脉搏”。 - 北京的建筑与车流，则刻着**当代中国的“创新与生长”**。央视大楼的先锋造型，是设计突破的符号；车水马龙里，藏着“奋斗者追赶时代”的劲儿。这里的灯光，既有传统都市的烟火温度，又闪着新经济、新基建的科技锋芒。 ### 还会延伸到“人与城的联结”：夜幕下的灯火，不止是建筑的装饰，更是**无数个体的“梦想投影”**——纽约的写字楼里，创业者熬着方案；北京的商圈中，年轻人为项目头脑风暴…这些光，是奋斗的注脚，也是城市包容力的证明。同时，建筑本身也是**时代审美与技术的“活化石”**：纽约的摩天楼群，是工业时代向现代文明跃迁的见证；北京的先锋建筑，是数字时代“敢想敢造”的宣言。总之，两张图看下来，既为人类改造世界的创造力惊叹，也被“城市夜晚”独有的温柔与磅礴打动——自然天色与人工灯火的交融，让钢筋水泥有了诗意；不同城市的风格差异，又让“繁华”有了千万种注解。 ✨

3、视频输入