字节低调发布 Dolphin 大模型：文档图像解析的新突破

摘要：2025 年 5 月，字节跳动在 Hugging Face 平台上低调发布了名为 Dolphin（Document Image Parsing via Heterogeneous Anchor Prompting）的文档图像解析模型。该模型专注于解决复杂文档理

简介

2025 年 5 月，字节跳动在 Hugging Face 平台上低调发布了名为 Dolphin（Document Image Parsing via Heterogeneous Anchor Prompting）的文档图像解析模型。该模型专注于解决复杂文档理解的挑战，采用创新的两阶段分析 - 解析范式，能够高效处理包含文本段落、图表、公式和表格等交织元素的复杂文档。

核心技术亮点两阶段解析范式

Dolphin 模型采用独特的两阶段方法来解决文档图像解析的复杂挑战：

页面级布局分析：生成按自然阅读顺序排列的元素序列，全面分析整个页面布局

并行元素解析：利用异构锚点和任务特定提示，高效并行解析文档中的各个元素

异构锚点提示技术

模型创新性地引入了"异构锚点提示"（Heterogeneous Anchor Prompting）技术，能够针对不同类型的文档元素（如段落、表格、公式等）使用特定的处理方式，大幅提升解析精度。

轻量级高效架构

Dolphin 通过轻量级架构和并行解析机制确保了卓越的效率，同时在各种页面级和元素级解析任务中实现了出色的性能表现。

技术架构

Dolphin 基于视觉编码器 - 解码器架构，使用变换器（Transformer）技术：

视觉编码器：基于 Swin Transformer，用于从文档图像中提取视觉特征

文本解码器：基于 MBart，用于从视觉特征中解码文本

提示式接口：使用自然语言提示控制解析任务

该模型作为 Hugging Face 的 VisionEncoderDecoderModel 实现，便于与 Transformers 生态系统集成。

应用场景

Dolphin 模型在以下场景中具有广泛应用潜力：

智能文档处理：自动化提取和组织文档中的信息

学术论文分析：解析包含复杂公式、图表和表格的科学文献

金融文档处理：处理包含表格和数据的财务报告

法律文档分析：解析结构化的法律文件和合同

技术文档转换：将技术手册和规范转换为结构化数据

使用方法

Dolphin 模型支持两种主要的解析模式：

页面级解析：处理整个文档图像

元素级解析：针对文档中的特定元素（段落、表格、公式等）进行解析

详细的使用方法和示例代码可在ByteDance 的 GitHub 仓库[1]中找到。

页面级解析示例

from transformers import VisionEncoderDecoderModel, AutoTokenizer, AutoFeatureExtractorfrom PIL import Image# 加载模型和相关组件model = VisionEncoderDecoderModel.from_pretrained("ByteDance/Dolphin")tokenizer = AutoTokenizer.from_pretrained("ByteDance/Dolphin")feature_extractor = AutoFeatureExtractor.from_pretrained("ByteDance/Dolphin")# 加载文档图像image = Image.open("document.png")# 提取特征pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values# 生成页面级解析结果outputs = model.generate(pixel_values,max_length=1024,num_beams=4,early_stopping=True)# 解码输出result = tokenizer.decode(outputs[0], skip_special_tokens=True)print(result)

ByteDance 的 GitHub 仓库: https://github.com/bytedance/Dolphin

来源：小帆科技天地

标签：模型字节图像 transformer dolphin

本文地址：https://news.43u.com.cn/a/1674450.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!