字节低调发布 Dolphin 大模型:文档图像解析的新突破

360影视 欧美动漫 2025-05-20 14:12 2

摘要:2025 年 5 月,字节跳动在 Hugging Face 平台上低调发布了名为 Dolphin(Document Image Parsing via Heterogeneous Anchor Prompting)的文档图像解析模型。该模型专注于解决复杂文档理

简介

2025 年 5 月,字节跳动在 Hugging Face 平台上低调发布了名为 Dolphin(Document Image Parsing via Heterogeneous Anchor Prompting)的文档图像解析模型。该模型专注于解决复杂文档理解的挑战,采用创新的两阶段分析 - 解析范式,能够高效处理包含文本段落、图表、公式和表格等交织元素的复杂文档。

核心技术亮点 两阶段解析范式

Dolphin 模型采用独特的两阶段方法来解决文档图像解析的复杂挑战:

页面级布局分析:生成按自然阅读顺序排列的元素序列,全面分析整个页面布局

并行元素解析:利用异构锚点和任务特定提示,高效并行解析文档中的各个元素

异构锚点提示技术

模型创新性地引入了"异构锚点提示"(Heterogeneous Anchor Prompting)技术,能够针对不同类型的文档元素(如段落、表格、公式等)使用特定的处理方式,大幅提升解析精度。

轻量级高效架构

Dolphin 通过轻量级架构和并行解析机制确保了卓越的效率,同时在各种页面级和元素级解析任务中实现了出色的性能表现。

技术架构

Dolphin 基于视觉编码器 - 解码器架构,使用变换器(Transformer)技术:

视觉编码器:基于 Swin Transformer,用于从文档图像中提取视觉特征

文本解码器:基于 MBart,用于从视觉特征中解码文本

提示式接口:使用自然语言提示控制解析任务

该模型作为 Hugging Face 的 VisionEncoderDecoderModel 实现,便于与 Transformers 生态系统集成。

应用场景

Dolphin 模型在以下场景中具有广泛应用潜力:

智能文档处理:自动化提取和组织文档中的信息

学术论文分析:解析包含复杂公式、图表和表格的科学文献

金融文档处理:处理包含表格和数据的财务报告

法律文档分析:解析结构化的法律文件和合同

技术文档转换:将技术手册和规范转换为结构化数据

使用方法

Dolphin 模型支持两种主要的解析模式:

页面级解析:处理整个文档图像

元素级解析:针对文档中的特定元素(段落、表格、公式等)进行解析

详细的使用方法和示例代码可在ByteDance 的 GitHub 仓库[1]中找到。

页面级解析示例

from transformers import VisionEncoderDecoderModel, AutoTokenizer, AutoFeatureExtractorfrom PIL import Image# 加载模型和相关组件model = VisionEncoderDecoderModel.from_pretrained("ByteDance/Dolphin")tokenizer = AutoTokenizer.from_pretrained("ByteDance/Dolphin")feature_extractor = AutoFeatureExtractor.from_pretrained("ByteDance/Dolphin")# 加载文档图像image = Image.open("document.png")# 提取特征pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values# 生成页面级解析结果outputs = model.generate(pixel_values,max_length=1024,num_beams=4,early_stopping=True)# 解码输出result = tokenizer.decode(outputs[0], skip_special_tokens=True)print(result)

ByteDance 的 GitHub 仓库: https://github.com/bytedance/Dolphin

来源:小帆科技天地

相关推荐