摘要:在Python中实现印刷体文字识别(OCR),通常使用Tesseract OCR引擎结合Python库。以下是详细步骤和示例:
在Python中实现印刷体文字识别(OCR),通常使用Tesseract OCR引擎结合Python库。以下是详细步骤和示例:
1. 安装依赖库
bash
pip install pytesseract pillow
Tesseract OCR 需要单独安装:Ø Windows: 从 UB-Mannheim的Tesseract安装包 下载安装,安装时勾选中文语言包。
Ø MacOS: brew install tesseract
Ø Linux: sudo apt install tesseract-ocr
2. 基础代码示例
python
from PIL import Image
import pytesseract
# 指定Tesseract路径(Windows可能需要)
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
# 打开并预处理图像
image = Image.open('text_image.jpg')
gray_image = image.convert('L') # 转为灰度图
# 执行OCR识别(默认英文)
text = pytesseract.image_to_string(gray_image)
print(text)
# 识别中文(需安装中文语言包)
text_chinese = pytesseract.image_to_string(gray_image, lang='chi_sim')
print(text_chinese)
3. 图像预处理建议
灰度化:减少颜色干扰二值化:增强对比度python
threshold = 150
binary_image = gray_image.point(lambda p: p > threshold and 255)
降噪:使用cv2库(需安装opencv-python)进行高斯模糊、边缘检测等调整分辨率:建议图像DPI≥3004. 处理复杂场景
多语言混合:lang='chi_sim+eng'版面分析:使用image_to_data获取文字位置信息python
data = pytesseract.image_to_data(image, output_type=pytesseract.Output.DICT)
深度学习优化:对于复杂字体,可使用基于深度学习的库如EasyOCR:python
import easyocr
reader = easyocr.Reader(['ch_sim','en'])
result = reader.readtext('image.jpg')
5. 常见问题解决
识别率低:尝试调整阈值、增加图像分辨率中文乱码:确认安装时勾选了中文语言包路径错误:Windows需在代码中指定tesseract_cmd路径完整预处理+识别示例
python
from PIL import Image, ImageFilter
import pytesseract
def preprocess_image(img_path):
img = Image.open(img_path)
img = img.convert('L') # 灰度化
img = img.filter(ImageFilter.SHARPEN) # 锐化
# 二值化
img = img.point(lambda x: 0 if x
return img
image = preprocess_image('document.jpg')
text = pytesseract.image_to_string(image, lang='chi_sim+eng')
print(text)
简单场景:Tesseract + 基本预处理复杂场景:EasyOCR/PaddleOCR(更适合中文)专业需求:Google Cloud Vision API(付费但准确率更高)来源:老客数据一点号