PDF转Markdown/JSON软件MinerU最新1.3.12版整合包下载

摘要：MinerU发布至今我已经更新多版整合包了，5天前MinerU发布了第一个正式版1.0.1，并且看到在18小时之前有更新模型文件，我就做了个最新版的一键启动整合包。

MinerU发布至今我已经更新多版整合包了，5天前MinerU发布了第一个正式版1.0.1，并且看到在18小时之前有更新模型文件，我就做了个最新版的一键启动整合包。

2025年02月21日更新v1.1.0版整合包

2025年02月27日更新v1.2.0版整合包

2025-06-05 更新v1.3.12版本

可能还有很多人没使用过这个软件。MinerU是一款非常热门的高质量PDF转markdown和JSON格式软件

MinerU主要特点

删除页眉、页脚、脚注、页码等元素，确保语义连贯输出符合人类阅读顺序的文本，适用于单栏、多栏及复杂排版保留原文档的结构，包括标题、段落、列表等提取图像、图片描述、表格、表格标题及脚注自动识别并转换文档中的公式为LaTeX格式自动识别并转换文档中的表格为HTML格式自动检测扫描版PDF和乱码PDF，并启用OCR功能OCR支持84种语言的检测与识别支持多种输出格式，如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等支持多种可视化结果，包括layout可视化、span可视化等，便于高效确认输出效果与质检

在1月10日的时候发布了第一个正式版1.0.1版。1.0.1版更新内容有：

引入了全新的API接口，并通过大量重构增强了兼容性，同时引入了全新的自动语言识别功能：

新的 API 接口对于数据端API，我们引入了Dataset类，旨在提供强大而灵活的数据处理框架。该框架目前支持多种文档格式，包括图片（.jpg和.png）、PDF、Word文档（.doc和.docx）和PowerPoint演示文稿（.ppt和.pptx）。它确保有效支持从简单到复杂的数据处理任务。对于用户端API，我们精心设计了MinerU的处理流程为一系列可组合的Stage，每个Stage代表一个具体的处理步骤，用户可以根据自己的需求定义新的Stage，并创造性地组合这些Stage来定制自己的数据处理流程。增强兼容性通过优化依赖环境和配置项，保证在ARM架构Linux系统上稳定、高效的运行。与华为Ascend NPU加速深度融合，提供自主可控的高性能计算能力，支撑中国AI应用平台的本土化发展。Ascend NPU加速自动语言识别通过引入新的语言识别模型，在文档解析时将配置设置lang为auto将自动选择合适的OCR语言模型，提高扫描文档解析的准确性。

更多更新内容可查看以前版本介绍《PDF转Markdown格式软件MinerU一键启动整合包v0.10.0版》

1.3.12更新内容

增加ppocrv5模型的支持，将ch_server模型更新为PP-OCRv5_rec_server，ch_lite模型更新为PP-OCRv5_rec_mobile（需更新模型）在测试中，发现ppocrv5(server)对手写文档效果有一定提升，但在其余类别文档的精度略差于v4_server_doc，因此默认的ch模型保持不变，仍为PP-OCRv4_server_rec_doc。由于ppocrv5强化了手写场景和特殊字符的识别能力，因此您可以在日繁混合场景以及手写文档场景下手动选择使用ppocrv5模型您可通过lang参数lang='ch_server'(python api)或--lang ch_server(命令行)自行选择相应的模型：ch ：PP-OCRv4_rec_server_doc（默认）（中英日繁混合/1.5w字典）ch_server ：PP-OCRv5_rec_server（中英日繁混合+手写场景/1.8w字典）ch_lite ：PP-OCRv5_rec_mobile（中英日繁混合+手写场景/1.8w字典）ch_server_v4 ：PP-OCRv4_rec_server（中英混合/6k字典）ch_lite_v4 ：PP-OCRv4_rec_mobile（中英混合/6k字典）

首先将软件压缩包从网盘下载到本地电脑上并解压。由于模型文件比较大，我没有打包进压缩包里，而是做了个下载程序，可以从阿里平台上高速下载。首先双击运行【下载模型文件.exe】，稍等几分钟就可以下载完成，下载完成时终端窗口中会提示模型下载完成信息。

然后双击运行【启动软件.exe】即可打开软件操作界面。

首先选择待处理PDF文件，你可以点击选择文件按钮选择文件，也可以把想要处理的文件鼠标左键按住拖动到软件窗口中，软件会自动填充路径。软件也支持批量处理，你可以选择处理某个文件夹。当前版本新增处理其它多种格式文件： .png .jpg .ppt .pptx .doc .docx

处理方法：默认auto模式,你也可以手动选择ocr或txt，如果是纯文本文档，建议选择txt，速度更快

PDF语言：用于辅助优化ocr的准确性，填写语言代码，如英语文档填：en

v1.3.12更新语言识别模型：

ch ：PP-OCRv4_rec_server_doc（默认）（中英日繁混合/1.5w字典）ch_server ：PP-OCRv5_rec_server（中英日繁混合+手写场景/1.8w字典）ch_lite ：PP-OCRv5_rec_mobile（中英日繁混合+手写场景/1.8w字典）ch_server_v4 ：PP-OCRv4_rec_server（中英混合/6k字典）ch_lite_v4 ：PP-OCRv4_rec_mobile（中英混合/6k字典）

起始页：想从PDF哪页开始处理。页数从0开始计数的，比如想从第二页开始处理，这里就填1

结束页：想要软件处理到哪页结束，和上面一样，填数字

默认只需要设置待处理文件和保存位置即可，其它不需要设置。

其它选项说明：

表格识别模型默认为RapidTable，你也可以选择其它模型

表格识别和公式识别功能默认都是开启的，如果你用不到这些功能或是电脑带不动，你可以选择关闭这些功能。

软件支持使用通义千问大语言模型对相关功能辅助优化，使用的是在线通义千问功能，所以如果你想要使用这个功能的话，需要申请API KEY。

首先申请一个阿里云百炼的API KEY：https://bailian.console.aliyun.com/?apiKey=1#/api-key

API KEY为sk-开头的一串字符串，然后申请开通大模型：https://bailian.console.aliyun.com/#/model-market，选择一个你想使用的模型，鼠标放在【立即体验】四个字上方会出现开通提示，你点击去开通，开通了大模型使用权限你才可以通过API调用相关大模型