洞察金融行业需要转型,如何利用鸿蒙app开发提升运营效率
1388
2023-02-20
SpringBoot+Tess4j实现牛逼的OCR识别工具的示例代码
前言
“ 等不到风中你的脸颊
眼泪都美到很融洽
等不到掩饰的雨落下
我的眼泪被你察觉 ”
听着循环的歌曲,写着久违的bug。好吧,还是一天。正好一个小伙伴说,要不要做个工具站玩一下。我就随意的找了个工具站,看了下,发现很多都有文字的OCR识别功能。因此,我想起来之前了解的非常流行的开源的OCR大神级别的项目,Tesseract OCR。
简单介绍
官网如下所示
tesseract-ocr.github.io/
简洁明了,挂在github上的网站。
详细的不再介绍,感兴趣的,可以进入同志网站:https://github.com/tesseract-ocr/tesseract ,观摩学习。
实操准备
要想在开发中使用,还是需要接入对应的API。
对于开发者来说,提供了众多的Wrapper,来实现Api调用。
对于java一名小开发,来讲,还是使用tess4j,作为Api来使用。官网如下:
tess4j.sourceforge-/
可以直接-jar包,或者采用Maven依赖-。
开发实现
First 创建工程
Second 添加依赖
xmlns:xsi="http://w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
xmlns:xsi="http://w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
Third 填写类文件
package ocr;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
/**
* ocr测试.
*
* @author huc_逆天
* @since 2021/1/12 17:42
*/
public class TestTextOcr {
public static void main(String[] args) throws IOException {
// 创建实例
ITesseract instance = new Tesseract();
// 设置识别语言
instance.setLanguage("chi_sim");
// 设置识别引擎
instance.setOcrEngineMode(1);
// 读取文件
BufferedImage image = ImageIO.read(TestTextOcr.class.getResourceAsStream("/2.jpg"));
try {
// 识别
String result = instance.doOCR(image);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
}
}
Fifth 添加训练语言环境配置
TESSDATA_PREFIX=F:\tessdata ,变量名,固定,值为官网-文件 https://github.com/tesseract-ocr/tessdata
Sixth 运行
结果如下:
可能识别模式,不是很合适,切换下
instance.setOcrEngineMode(0);
是不是舒服多了,哈哈。识别率瞬间上涨。
http://
大家可以自行测试。
总结
好了,今天就到这了。技术在于折腾。多学习,让自己武装起来,变强大。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~