除了Tesseract之外,还有哪些OCR选项?[已关闭]

2022-08-30 14:57:25

我已经使用了Tesseract一点,它的结果还有很多不足之处。我目前正在检测非常小的图像(35x15,无边框,但已尝试添加一个没有ocr优势的imagemagick);它们的范围从2个字符到5个字符,是一种非常可靠的字体,但是字符变化很大,仅仅使用图像大小的校验和之类的东西是行不通的。

除了坚持使用Tesseract或对其进行完整的自定义训练之外,OCR还有哪些选择?此外,如果这与Heroku风格的托管兼容,那将是非常有帮助的(至少在我可以编译箱并将它们推倒的地方)。


答案 1

我过去曾成功地将GOCR用于小图像OCR。我会说在相当常规的字体上正确设置灰度选项后,准确率约为85%。当字体变得复杂并且多行布局出现问题时,它会失败得很惨。

也看看由Google维护的Ocropus。它与Tesseract有关,但据我所知,它的OCR引擎是不同的。仅包含默认模型,即可在高质量图像上实现接近99%的准确度,很好地处理布局,并提供HTML输出,其中包含有关格式和线条的信息。但是,根据我的经验,当图像质量不够好时,其准确性非常低。话虽如此,训练相对简单,您可能想尝试一下。

它们都可以从命令行轻松调用。GOCR的使用非常简单;只需键入,您应该拥有所需的所有信息。Ocropus有点棘手;这里有一个使用示例,在 Ruby 中:gocr -h

require 'fileutils'
tmp = 'directory'
file = 'file.png'

`ocropus book2pages #{tmp}/out #{file}`
`ocropus pages2lines #{tmp}/out`
`ocropus lines2fsts #{tmp}/out`
`ocropus buildhtml #{tmp}/out > #{tmp}/output.html`

text = File.read("#{tmp}/output.html")
FileUtils.rm_rf(tmp)

答案 2

我们在办公室使用Vividata的OCR XTR Lite。它使用ScanSoft引擎,非常准确,但不是免费的解决方案。目前,它是由bash编写的,我每天处理75,000到150,000页。准确性几乎是完美的,它会自动旋转图像以确定OCR方向。


推荐