摘要:OCRmyPDF 是一个 Python 应用程序和库,使扫描的图像 PDF 可搜索。它使用 OCR 来猜测文本 包含在图像中。OCRmyPDF 还支持插件 支持定制其加工步骤,并且具有高度的耐受性 的 PDF 包含扫描图像和不包含扫描图像的“原生数字”内容 需
网上搜索了一个免费的命令行工具来 OCR PDF 文件:找到了很多,但没有一个真正令人满意:
要么他们生成的 PDF 文件在图像下方放置了错误的文本(无法复制/粘贴)或者他们不处理口音和多语言字符或者他们更改了嵌入图像的分辨率或者他们生成了大得离谱的 PDF 文件或者他们在尝试 OCR 时崩溃或者他们没有生成有效的 PDF 文件最重要的是,它们都没有生成 PDF/A 文件(专用于长期存储的格式)OCRmyPDF 是一个 Python 应用程序和库,使扫描的图像 PDF 可搜索。它使用 OCR 来猜测文本 包含在图像中。OCRmyPDF 还支持插件 支持定制其加工步骤,并且具有高度的耐受性 的 PDF 包含扫描图像和不包含扫描图像的“原生数字”内容 需要文本识别。
支持 Linux、Windows、macOS 和 FreeBSD。Docker 映像也可用于 x64 和 ARM。
核心功能:不止是OCR可搜索PDF/A生成:将扫描件转化为符合国际存档标准的PDF/A格式,文字可搜索、可复制,且文件体积更小。精准文本定位:OCR文本层嵌入原始图像下方,复制时不会错位,完美解决传统OCR工具“图文分离”的尴尬。多语言支持:支持中文、英语、法语等100+语言,混合文档也能精准识别(如-l chi_sim+eng参数处理中英文混合文件)。智能预处理:自动纠偏倾斜页面(--deskew)、优化图像质量(--clean),甚至修复扫描时的方向错误。性能与安全并重多核加速:默认调用所有CPU核心,处理千页文档仅需几分钟。离线运行:无需上传云端,隐私数据全程本地处理,律师、企业敏感文档也能放心用。无论你是Windows、macOS还是Linux用户,都能一键部署:
Debian/Ubuntu:apt install ocrmypdfmacOS(Homebrew):brew install ocrmypdfWindows(WSL):通过Chocolatey或手动安装Python+TesseractDocker党:支持x64和ARM架构,一条命令启动容器化处理。语言包扩展:安装中文识别包(如apt-get install tesseract-ocr-chi-sim),解锁更精准的中文OCR。
基础操作:
bash复制
# 转换扫描PDF为可搜索版ocrmypdf input.pdf output.pdf# 就地覆盖原文件(仅成功时生效)ocrmypdf --rotate-pages --deskew myfile.pdf myfile.pdf高阶技巧:
批量处理:搭配GNU Parallel工具,一键转换整个文件夹的扫描件。多语言混合识别:ocrmypdf -l eng+fra bilingual.pdf bilingual_output.pdf。生成存档级PDF/A:ocrmypdf --output-type pdfa contract_scan.pdf contract_final.pdf。OCRmyPDF用一行命令解决了扫描PDF的世纪难题,堪称“程序员送给世界的温柔”。无论是个人还是企业,这款工具都能让文档处理从“体力活”变成“智能流”。赶紧尝试吧,你会发现:高效办公,真的可以如此简单!
项目地址:https://github.com/ocrmypdf/OCRmyPDF
官方文档:https://ocrmypdf.readthedocs.io/en/latest/index.html
小贴士:遇到复杂排版文件时,可先用--skip-text参数跳过已有文本层,避免重复处理哦!
来源:Ai滚球兽