分享 Windows 自带的 OCR 工具

本文最后更新于 2025年7月15日 晚上

之前在写圣遗物评分工具时候,调研过不少 OCR 工具,有 API、模型、软件等等。最终选择了飞桨,在代码灵活性和准确性上都有很好的保障。

后来在日常办公中,还是偶尔会遇到一些需要 OCR 工具解决的问题,比如复制图片中的一些文字云云,这样使用代码调用就有些呆了。

好在基本上办公、聊天类软件的图片查看器中已经集成了 OCR 功能,比如国民级聊天工具微信。

圣遗物词条微信 OCR 结果

从识别速度到识别准确率,基本没有什么可挑剔的地方。需要使用结果文字的时候,右侧选择并复制即可。

不过要是遇上复杂的图片,识别效果和最终结果的文字排版可能都会不堪入目,比如我截了一个复杂的图文混杂的网页。这时候想要在结果里找到想要的文字复制出来还是会有一些麻烦的。

Paimon 卡池网页微信 OCR 结果

后来在本地查看图片的时候,意外发现「照片」应用已经集成了 OCR 功能,只要点击图片下方的「扫描」按钮就可以实现。

Windows 自带照片应用扫描文本功能

识别完成后,会在原图片上框出包含文字的部分,并激活光标可进行选择与复制操作(如果需要复制全部文字,可以按 Ctrl+A 全选再 Ctrl+C 复制,或者右键点击「扫描文本」按钮打开右键菜单进行操作)。这是我觉得最惊艳的部分,可以在原图上直接选取想要的文字。如此丝滑的交互方式一下就让我联想到了几年前 Google lens 上的相机实时翻译功能——直接提取镜头里的文字并翻译好后贴图覆盖在画面中。

已经把「出口」翻译成了「Exit」

当然识别准确性的问题还是有的,比如上面复杂页面的识别结果如下:

Character Event V Void Star’s Advent 1 & The Transcendent One Returns 3 v .moe Paimon Void Star’s The Transcendent 主页 Advent One Returns New Wish Available New Wish Available 角色 aracter Event Wish +Character Event Wish-2 祈愿统计 Skirk UP! Shenhe * Void Star Lonesome Transcendence 计算器 养成规划 28,729 Skirk 被抽到 1.71% 5★ 中位数 75 58.2% 小保底没歪 Total 42,121 总玩家数 30,832 数据库 894 祈愿总计 2,456,399 Shenhe 被抽到 13.02% 活动时间一览 58.2% 小保底没歪 Total 319,913 价值 ↑ 393,023,840 O3 设置 Pull By Day % TO1. 100.8 100.6 100 4 100.0 中文(简体) 99.8 99 6 994 99.2 06/19 A

整体而言,似乎比微信的结果要好一些,但也基本排版混乱,结果实用性很低。而且还有一个致命问题,没法在复制完成之前确定结果的准确性。因为这种交互方式只是把文字区域标注出来,并没有用结果文字替换掉原图中的文字。所以一旦识别有问题,你看着选择的是「123」,实际粘贴出来的是「456」。

此外,如果需要本地用照片打开,还需要图片文件的保存、整理,又无形增加了不少操作复杂度。

如果觉得以上操作过于复杂,Windows 还有一个内置的截图工具可以稍稍优化一些步骤。快捷键 Win+Shift+S 或 Print Screen 功能键开始截图,截图完成后会打开「截图工具」的应用(需要点击截图完成后的消息弹窗)。里面内置的 OCR 功能和照片里的应该是同一套功能,而且增加了「复制为表格」的功能。如果截图内容呈现明显的表格结构,可以使用此功能并直接粘贴到 Excel 中。

钉钉版本功能对比 OCR 结果

比如我截了钉钉多个付费版本的功能对比,识别后形成 4*5 的表格结构,复制为表格后的效果如下:

表格准确度 OK,就是把特殊字符识别错误了

最后做一下总结,Windows 自带的照片也好,截图工具也好,因为丝滑的交互方式打动我使用这个工具。但是 OCR 的应用场景有很多局限性,这两个工具适用的范围很窄。如果我去构思一个 OCR 工具,可能会更看重具体的场景和需求,OCR 只是作为其中一个重要环节。


分享 Windows 自带的 OCR 工具
https://skeathytomas.github.io/post/分享-windows-自带的-ocr-工具/
作者
Skeathy
发布于
2025年6月24日
许可协议