如何利用opencv对拍摄图片进行文字识别!

  • A+
所属分类:Python学习

如何利用opencv对拍摄图片进行文字识别!

在有些工程中有时候我们需要对图片文字识别,下面这篇文章主要给大家介绍了关于如何利用opencv对拍摄图片进行文字识别的相关资料,文中通过代码示例介绍的非常详细,需要的朋友可以参考下。

代码示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
import cv2 as cv
import numpy as np
import pytesseract
from PIL import Image
img = cv.imread('test.jpg')
rows, cols, _ = img.shape
img = cv.resize(img, (int(cols/2), int(rows/2)))
img = cv.cvtColor(img, cv.COLOR_BGR2GRAY)
nrows, ncols = img.shape
print(cols, ncols, rows, nrows)
gray_blurred = cv.GaussianBlur(img, (5, 5), 0)
flag = 200
lines = []
while len(lines) != 4:
# 使用Canny边缘检测
edges = cv.Canny(gray_blurred, 50, 150, apertureSize=3)
lines = cv.HoughLines(edges, 1, np.pi / 180, flag)
if lines is None:
lines = []
if flag < 80:
raise Exception('未找到合适的边缘处理参数')
flag -= 5
print(flag)
nlines = []
# 如果找到了直线,使用它们来计算仿射变换矩阵
if lines is not None:
for rho, theta in lines[:, 0]:
a = np.cos(theta)
b = np.sin(theta)
x0 = a * rho
y0 = b * rho
x1 = int(x0 + 1000 * (-b))
y1 = int(y0 + 1000 * (a))
x2 = int(x0 - 1000 * (-b))
y2 = int(y0 - 1000 * (a))
cv.line(img, (x1, y1), (x2, y2), (0, 0, 255), 2)
nlines.append([(x1, y1), (x2, y2)])
points = []
for i in range(len(nlines) - 1):
for j in range(i + 1, len(nlines)):
line = nlines[i]
x1, y1 = line[0]
x2, y2 = line[1]
line1 = nlines[j]
x3, y3 = line1[0]
x4, y4 = line1[1]
try:
u = ((x4-x3)*(y1-y3) - (y4-y3)*(x1-x3)) / ((y4-y3)*(x2-x1) - (x4-x3)*(y2-y1))
except Exception as e:
continue
x = x1 + u * (x2 - x1)
y = y1 + u * (y2 - y1)
if x > 0 and y > 0 and x < ncols and y < nrows:
points.append((x, y))
pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'
center = (int(ncols/2), int(nrows/2))
pstmap = {}
for point in points:
x, y = point
cx, cy = center
if x < cx and y < cy:
pstmap['lt'] = point
elif x > cx and y < cy:
pstmap['rt'] = point
elif x > cx and y > cy:
pstmap['rb'] = point
else:
pstmap['lb'] = point
pst1 = np.float32([pstmap['lt'], pstmap['rt'], pstmap['rb'], pstmap['lb']])
pst2 = np.float32([[0, 0], [ncols, 0], [ncols, nrows], [0, nrows]])
M = cv.getPerspectiveTransform(pst1, pst2)
dst = cv.warpPerspective(img, M, (ncols, nrows))
x1, y1 = 0, 0
def mouse_callback(event, x, y, flags, param):
global x1, y1
if event == cv.EVENT_LBUTTONDOWN:
x1, y1 = x, y
elif event == cv.EVENT_LBUTTONUP:
x2, y2 = x, y
wimg = dst[y1:y2, x1:x2]
_, wimg = cv.threshold(wimg, 80, 255, cv.THRESH_BINARY)
wimg = cv.bitwise_not(wimg)
cv.imwrite('test_dst.jpg', wimg)
image = Image.open('test_dst.jpg')
# 打印选定区域的坐标
print(f"({x1}, {y1}) -> ({x2}, {y2})")
print(pytesseract.image_to_string(image, lang='chi_sim'))
cv.namedWindow('dst')
cv.setMouseCallback("dst", mouse_callback)
cv.imshow('img', img)
cv.imshow('dst', dst)
print(dst[2])
cv.waitKey(0)
cv.destroyAllWindows()

方法:

1. 首先读取图片, 因为我手机拍摄图片尺寸太大, 所以进行了缩放

2. 对图片进行高斯模糊, 方便进行边缘处理

3. 从高到低适配不同的阈值检测图片内容边缘

4. 通过反向霍夫变换获取确定边缘直线的四个点

5. 通过直线两两相交确定四个定点

6. 进行透视变换

7. 添加鼠标事件, 监测鼠标选定区域

8. 鼠标选定区域后, 裁剪图片, 对图片进行二值化处理, 我这里做了文字黑白反转

9. 利用pytesseract对裁剪后的图片进行文字识别

注意事项:

1. 选择的文字区域会影响识别成功率, 如果文字区域紧贴文字, 可能会失败, 盲猜影响了特征提取

2. 图片尺寸大小会影响边缘检测, 不缩放图片时, 阈值调整不当的话, 很容易生成N条边缘直线, 阈值怎么选定请了解霍夫变换的原理。

识别效果(加了二值化处理的准确度会很好):

如何利用opencv对拍摄图片进行文字识别!

补充:几个常用的OpenCV二值化代码示例

1. 全局阈值二值化:

1
2
3
4
5
6
7
import cv2
img = cv2.imread('image.jpg', 0)
_, thresh = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY)
cv2.imshow('image', img)
cv2.imshow('threshold', thresh)
cv2.waitKey(0)
cv2.destroyAllWindows()

2. 自适应阈值二值化:

1
2
3
4
5
6
7
import cv2
img = cv2.imread('image.jpg', 0)
thresh = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY, 11, 2)
cv2.imshow('image', img)
cv2.imshow('adaptive threshold', thresh)
cv2.waitKey(0)
cv2.destroyAllWindows()

3. Otsu二值化:

1
2
3
4
5
6
7
import cv2
img = cv2.imread('image.jpg', 0)
_, thresh = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
cv2.imshow('image', img)
cv2.imshow('Otsu threshold', thresh)
cv2.waitKey(0)
cv2.destroyAllWindows()

这些示例代码可以根据需要进行修改和调整,以适应不同的图像处理任务。

 

学习资料见知识星球。

以上就是今天要分享的技巧,你学会了吗?若有什么问题,欢迎在下方留言。

快来试试吧,小琥 my21ke007。获取 1000个免费 Excel模板福利​​​​!

更多技巧, www.excelbook.cn

欢迎 加入 零售创新 知识星球,知识星球主要以数据分析、报告分享、数据工具讨论为主;

如何利用opencv对拍摄图片进行文字识别!

你将获得:

1、价值上万元的专业的PPT报告模板。

2、专业案例分析和解读笔记。

3、实用的Excel、Word、PPT技巧。

4、VIP讨论群,共享资源。

5、优惠的会员商品。

6、一次付费只需99元,即可下载本站文章涉及的文件和软件。

  • 我的微信
  • weinxin
  • 我的知识星球
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: