适合小白的几个入门级Python ocr识别库

Python与机器学习 徐 自远 1755℃

适合小白的几个入门级Python ocr识别库


适合小白的几个入门级Python ocr识别库_起不好名字就不起了的博客-CSDN博客_ddddocr库


工作生活中经常会遇到需要提取图片中文字信息的情况,以前都是手动自己把图片里的字敲出来,但随着这几年人工智能技术的愈发成熟,市面上有越来越多的ocr产品了,基本上能大部分正常图片的文字提取需求。当然有时候需要提取文字的图片数量较多或者有某个应用程序编写需求时,就需要借助代码来实现了,这里介绍几个比较适合新手小白的python ocr库,简单实用,可满足绝大多数常规的图片文字提取、验证码识别需求。

pytesseract需要配合安装在本地的tesseract-ocr.exe文件一起使用,tesseract-ocr.exe安装教程可参考这里:Tesseract Ocr文字识别,需要注意的是安装时一定要选中中文包,默认是只支持英文识别。

python库安装命令如下:

待识别图片如下:
在这里插入图片描述
代码实现:

识别结果输出:

PaddleOCR是百度开源的一款基于深度学习的ocr识别库,对中文的识别精度相当不错,可以应付绝大多数的文字提取需求。

需要依次安装三个依赖库,安装命令如下,其中shapely库可能会受系统影响安装报错,具体解决方案参考这篇博客:百度OCR(文字识别)服务使用入坑指南

待识别图片如下:
在这里插入图片描述
代码实现:

识别结果输出如下,会显示出每个区域字体识别的置信度,以及其坐标位置信息:
在这里插入图片描述

github上一万多个star的开源ocr项目(github地址:EasyOCR),支持80多种语言的识别,识别精度超高。

python库安装命令如下:

待识别图片如下:
在这里插入图片描述
代码实现:

初次运行需要在线下载检测模型和识别模型,建议在网速好点的环境运行:

识别结果输出如下,没有遗漏任何一个文字,精度甚至要优于前面的PaddleOCR:

muggle_ocr是一款轻量级的ocr识别库,从名字也可以看出来,专为麻瓜设计!使用也非常简单,但其强项主要是用于识别各类验证码,一般文字提取效果就稍差了。

python库安装命令如下:

待识别验证码如下:
在这里插入图片描述

代码实现:

识别结果输出如下:

dddd_ocr也是一个用于识别验证码的开源库,又名带带弟弟ocr,爬虫界大佬sml2h3开发,识别效果也是非常不错,对一些常规的数字、字母验证码识别有奇效。

python库安装命令如下:

待识别验证码如下:
在这里插入图片描述

代码实现:

识别结果输出如下,可以看出即使有一些线条干扰,还是准确的识别出了四个字母:

还有其他优秀的ocr识别库,以后慢慢更新

 

 

转载请注明:徐自远的乱七八糟小站 » 适合小白的几个入门级Python ocr识别库

喜欢 (4)

苏ICP备18041234号-1 bei_an 苏公网安备 32021402001397号