Total Pageviews

Monday 10 April 2023

白描 — 准确高效的 OCR 文字识别软件与文件扫描软件

 「白描」是一款准确高效的 OCR 文字识别软件与文件扫描软件,识别准确度高,速度快,文件扫描清晰,可生成PDF。

支持拍照翻译文字、公司文件转录、纸质书阅读笔记摘录、截图文字内容提取、身份证识别、购物小票识别,纸质文件电子化存档。

功能:

● 高精度识别
识别速度快;图片上传经过加密处理,无需担心隐私;支持离线OCR识别。

● 批量识别。
能一次识别50张图片,批量识别后也可以对多张原图同时进行校对。

● 表格识别,自动识别生成Excel文件、自由导出与编辑识别结果、识别结果自动存为历史记录,检索方便。

● 识别结果翻译
支持简体中文、日语、英语、韩语、法语、西班牙语、阿拉伯语、俄语、德语、葡萄牙语、意大利语、繁体中文、粤语、文言文的互译;

● 多语言识别
支持中文、英语、日语、韩语、法语、德语、俄语、西班牙语的OCR识别。

● 自动识别文档边界生成扫描件
将摄像头对准文档,即可自动识别边界并拍出扫描件,多种文档色彩可供选择。

● 自动识连续拍照扫描件
如果有多张文档待生成扫描件,只要相机对着每张文档即可全部自动拍出来。

● 生成的扫描件图片直接生成PDF文件
可将多张扫描件直接生成一个PDF,自由分享与保存。

● 快捷免费制作身份证正反面 A4 扫描件,自由保存与打印。

● 快速校对
在识别结果页面点击“校对”按钮进行校对,弥补OCR技术的不完美之处。

● 识别结果自动分段,弥补了大多数识别软件无法还原原文段落的问题。

注意:普通用户,每日识别次数限制为5次,每日批量识别次数限制为1次,每日翻译次数限制为3次,且每次翻译字数不得超过1000字。

官网下载地址:

https://baimiao.uzero.cn

下载地址:

白描iOS版,支持 iPhone、iPad、Mac 白描安卓Android版
白描小程序版,在微信上快速识别图片 白描网页版-在线OCR图片转文字与表格识别
白描 Windows 版,支持 PC 电脑,Win7,Win8,Win10,Win11 白描独立 Mac 版

 ------------------------------------------------------------

开源的文字识别工具 Umi-OCR

Umi-OCR是一款Windows平台下的文字识别开源OCR 软件。支持离线使用,可截屏识别、粘贴图片,支持批量导入本地图片,将 OCR。 结果输出到软件面板或本地文件。Umi-OCR基于Python编写。

软件特色:

  • 方便:解压即用,离线运行,无需网络。
  • 批量:可批量导入处理图片,结果保存到本地 txt / md / jsonl 多种格式文件。也可以即时截屏识别。
  • 高效:采用 PaddleOCR-json C++ 识别引擎。只要电脑性能足够,通常比在线OCR服务更快。
  • 精准:默认使用PPOCR-v3模型库。除了能准确辨认常规文字,对手写、方向不正、杂乱背景等情景也有不错的识别率。可设置忽略区域排除水印、设置文块后处理合并排版段落,得到规整的文本。

源码:https://github.com/hiroi-sora/Umi-OCR

( 免费离线批量文字 OCR 识别:Umi-OCR

文字 OCR 识别软件也可以说是必备的软件之一了,对于一些图片里的文字再也不用手动去打了。说到 OCR 软件在之前比较专业的软件有 ABBYY FineReader 不过它是付费软件,劝退了一些用户。

后来各大软件厂商也推出了在线的 OCR 识别接口,所以就出现了很多基于 API 接口的免费开源 OCR 识别软件,不过因为是需要调用在线接口,没有网络情况就无法用了,那么有没有离线免费又好用的?

今天锋哥给大家分享这款「Umi-OCR」基于 PaddleOCR 的离线 OCR 模块,根据介绍,可以训练模型,支持修改 PaddleOCR 参数,添加不同的语言模型,软件可识别多国语言,当然这前提是你也会开发。

Umi-OCR使用

这款「Umi-OCR」和其它的 OCR 软件不一样的是它主要采用批量识别普通图片并识别文字内容导出,以及还有支持忽略指定区域的特殊功能,例如可以屏蔽掉视频右上角水印和游戏的 UI 内容。

批量识别图片导出文本对于一些场景用途来说比你一张一张去识别效率要高不少,使用也很简单,批量拖入你需要识别的图片。

接下来点击设置,可以设置勾选识别内容写入到本地文件,可以选择 txt 文本或者 Markdown 格式,选择输出目录。


如果你识别的图片里面有一些内容你不需要的,例如水印,可以点击添加区域功能,然后选择你不需要识别的区域。

忽略区域功能说明:

    忽略区域1 :正常情况下,处于忽略区域1内的文字 不会 输出。
    识别区域 :当识别区域内存在文本时,忽略区域1失效 ;即处于忽略区域1内的文字也 会 被输出。
    忽略区域2 :当 忽略区域1失效时,忽略区域2才生效;即处于区域1内的文字 会 输出、区域2内的文字不会输出。

接着点击开始任务即可进行批量图片识别文字,从列表中可以看到内容基本上都被识别出来了。

导出的文本对比图片里面的内容,中文内容基本上没错误,不过个别英文内容可能是图片比较模糊的原因,识别出来有个别错误,所以识别的图片尽量选择清晰点的大图。

更换语言识别模型

上面介绍说了基于 PaddleOCR 的离线 OCR 模块,支持多语言识别模型,你可以去 PaddleOCR 项目下载你需要语言模块和字典,放到 PaddleOCR-json 目录。


以法文为例:

    前往 PP-OCR系列 多语言识别模型列表 下载对应的 推理模型french_mobile_v2.0_rec_infer.tar 和 字典文件french_dict.txt。
    在PaddleOCR-json目录下创建文件夹rec_fr,将解压后的三个模型文件放进去。字典文件可直接放在目录下。
    复制一份识别器PaddleOCR_json.exe,命名为PaddleOCR_json_fr.exe
    复制一份配置单PaddleOCR_json_config.txt,命名为PaddleOCR_json_fr_config.txt
    打开配置单PaddleOCR_json_fr_config.txt,将# rec config相关的两个配置项改为:

    # rec config
    rec_model_dir  rec_fr
    char_list_file french_dict.txt

    保存文件,打开软件,将 识别器路径 改为 PaddleOCR-json\PaddleOCR_json_fr.exe。

 总结

使用下来因为「Umi-OCR」基于 PaddleOCR 的离线 OCR 模块,识别非常块,加上这个你也可以手动切换不同的语言识别模块,非常强大。软件主打批量转换,如果你是文字工作者,面对一堆图片文档,现在也可以轻松转换成文本了,所以强烈推荐哟。缺点嘛,就是没有实时屏幕截图识别的功能,不知道以后会不会加上。

噢,对了这个软件不支持 Win7 系统,请用 Win10 或者更高版本。

    网盘下载:
    https://xia1ge.lanzout.com/iiTqO05gnjmb
    开源项目:
    https://github.com/hiroi-sora/Umi-OCR
    PaddleOCR语言模型:
    https://gitee.com/paddlepaddle/PaddleOCR )

-----------------------------------------------------------

iText 是一款从图片中识别文字的 OCR 工具
典型使用场景:
  • 从扫描版 PDF 中提取文字
  • 从朋友发来的图片中识别文字
  • 从任意图片中识字

1. 选取图片方便

iText 支持多种方式选择图片,操作非常便利。

1.1 截图即识字

iText 自带截图功能,只需按下 ⇧⌘1 快捷键、截取屏幕任意位置,即可提取该图片中的文字。
小提示:识别后的文字已经复制到系统剪贴板,直接粘贴即可。

1.2 拖拽图片至菜单栏图标识字

比如,当你在电脑上使用微信、QQ 时,好友发了张图片(比如手机拍摄的快递单),你想识别其中的文字(比如快递单号),只需将该图片拖拽至 iText 菜单栏图标即可。

1.3 选择图片文件识字

当然,也可以在对话框中选择图片文件。不过,个人还是建议你直接把该图片文件拖拽至 iText 菜单栏图标,操作直观高效。

1.4 支持连续识别

比如,连续截取 PDF 不同位置的图片,iText 将依次识别其中的文本,并自动将结果拼接在一起。

2. 文字识别精准

你有没有这种经历:你想从一张图片中提取文字,结果发现识别的文字中有一些错误。结果,手动修改这些错误的时间,比自己直接在电脑上码字的时间还要长。是不是很尴尬?
可见,识别的准确性非常重要,也是我非常在意的一点。

2.1 腾讯、百度、Google 三引擎

首先,我排除了离线的识别库,因为离线注定了这些库的识别能力是死的,不会自己增强。接下来,在一票在线 OCR 服务中,我对比了百度、腾讯、微软、Google 这些四家大厂的产品,最后选择了国内使用腾讯及百度、国外使用 Google 的组合。
如果你有 Google 信仰、或者需要识别日文等其他语言,可以右击 iText 菜单栏图标,手动选择使用腾讯、百度或 Google OCR 服务。不过,从实测和目前优化的情况来看,中文还是建议使用腾讯;大家可以自行测试。
那么,到底识别准不准呢?这么说吧:
  • 对于一般的自然语言,比如书中的一段话、新闻稿,识别效果是惊人的准确,甚至可以达到 100%
  • 对于排版复杂、尤其有特殊字符的文字,比如程序代码、选择题,识别效果就不太理想,需要手动对识别后的结果进行修正
    • 比如,单纯地给一个竖线,机器是无法区分到底是小写的 l、还是大写的 I(顺便问一下,你看出二者的区别了吗?);与之相对,机器是需要根据上下文进行判断和优化的。而像程序代码这种非自然语言,机器目前是很难进行语义识别的
到底准不准?欢迎你来试试。

2.2 独创算法,进一步优化识别结果

OCR 服务完成最好的是字符的识别;但更进一步的识别,目前还不是很好,比如段落的识别、全角半角符号等等,这就需要程序后期进行优化。
目前,iText 主要完成了这些部分的优化:
  • 自动识别段落
  • 中文环境使用全角标点符号
  • 中文与英文字母、数字间增加空格
  • 删除中文字符间、英文字符与标点符号间的多余空格
  • 英文首字母大写
如果你发现优化的不好的地方,欢迎把图发给我,我会相应地优化算法,先谢。

2.3 预览原图,方便校对

在目前 OCR 技术不能始终达到 100% 的情况下,预览原图、并进行修正,还是有必要的。在 iText 中,你可以这样:
  • 将识别后的窗口拖到图片附近
  • 调用 iText 识别结果的 双栏模式:左侧展示图片、右侧展示识别后的文字
    • 可使用快捷键 ⇧⌘R 快速调出识别结果窗口
这样,就可以很方便地对照原图进行手动优化识别后的文字。

2.4 自动隐藏识别结果

由于 iText 的识别结果已经非常准确,且已经复制到剪贴板,因此识别后并不需要编辑或复制文本。此时,你可以如上图所示,开启「自动隐藏」选项,识别结果窗口将会在 3s 后自动隐藏,非常方便。
并且,如果临时需要编辑某次识别结果,只要将鼠标移至结果窗口,则会暂时忽略自动隐藏功能。另外,开启「总在最前」选项后,窗口将不会自动隐藏。

3. 识别后自动翻译

比如,对于英文版的 PDF、未翻译的字幕、未汉化的游戏,直接用 iText 截图,自动翻译为中文。
集成 Google、百度双引擎(优先选用 Google,当无法访问 Google 时使用百度),支持 100+ 种语言。

4. 下载与付费

每月可免费识别 20 次,充分体验产品功能;订阅 iText 高级版即可无限次识别。
如果你觉得 iText 还不错,欢迎 到 App Store 给个 5 星、写点评论 或分享给周围也需要的朋友。
如果你觉得 iText 还可以改进,欢迎:

from https://archive.is/GHKbz#selection-209.0-587.5

----------------------------------------------------------

相关帖子:https://briteming.blogspot.com/2023/04/iosocr.html 

---------------

https://yibiao.fun/ ,截屏识别表格

https://sr.paodingai.com/semanmeter/Semanmeter_latest_x64_zh-CN.msi


 

 

 

 

 

No comments:

Post a Comment