当前位置:首页 >> 计算机软件及应用 >>

Tesseract3.02中文字库训练


[转]Tesseract 3.02 中文字库训练
下载 chi_sim.traindata 字库 下载 tesseract-ocr-setup-3.02.02.exe 下载地址:http://code.google.com/p/tesseract-ocr/downloads/list 下载 jTessBoxEditor 用于修改 box 文件 下载地址:http://download.csdn.net/detail/a443475601/5896893 里面自带 java 运行库,安装后 然后 启动命令行 java -jar jTessBoxEditor.jar 即可打开

为了方便 tif 文面命名格式[lang].[fontname].exp[num].tif lang 是语言 fontname 是字体 比如我们要训练自定义字库 image 字体名 MyFont 那么我们把 tif 文件重命名 image.MyFont.exp0.tif

下面开始训练字库: 1、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_simbatch.nochopmakebox 该步骤会生成一个 image.MyFont.exp0.box 文件 把 tif 文件和 box 文件放在同一目录,用 jTessBoxEditor.jar 打开 tif 文件,然后根据实际情况修改 box 文件 2、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatchbox.train 该步骤生成一个 image.MyFont.exp0.tr 文件 3、unicharset_extractor image.MyFont.exp0.box 该步骤生成一个 unicharset 文件

4、新建一个 font_properties 文件 里面内容写入 MyFont 0 0 0 0 0 表示默认普通字体 5、运行命令 shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr cntraining image.MyFont.exp0.tr 6、把目录下的 unicharset、inttemp、pffmtable、shapetable、normproto 这五个文件前面都加上 image. 7、执行 combine_tessdata image. 然后把 image.traineddata 放到 tessdata 目录 8、用新的字库对图片进行分析 tesseracttest.tif output -l image

----------------------------------------------

转自[

a443475601 的专栏
] ---------------------------------------------后记 1:当在进行新语言训练时,应在 jTessBoxEditor 中将每个字符或字的边框单独修改,不能两个字用 一个边框如 你好 ,那样将导致 Tesseract 识别不出来!


相关文章:
Tesseract3.02中文字库训练.doc
Tesseract3.02中文字库训练 - [转]Tesseract 3.02 中文字库训练 下载 chi_sim.traindata 字库 下载 tesseract-ocr-setup-3.0...
Tesseract字库训练说明.doc
Tesseract字库训练说明_计算机软件及应用_IT/计算机_专业资料。Tesseract字库训练,创建自己的字库,方便图片的识别 1、安装 Tesseract 2、下载要识别的图片,保存到本地...
tesseractocr训练和识别总结.doc
Tesseract OCR 训练和识别总结 前段时间玩了一下 Tesseract OCR, 结果可以看这...第二个步骤是确定字体大小 和图像的 DPI 值,我觉得这个要针对具体应用来决定,...
提高Tesseract-ocr识别精度.doc
字库文件 -psm pagesegmode 配置文件 1.2 提高 Tesseract-OCR 识别精度的方法...在此我们利用 Tesserac-ocr 3.02 训练生成新的识别语言库, 我们找到两种 ...
Tesseract 3 语言数据的训练方法.doc
Tesseract 3 语言数据的训练方法 2011-07-16 15:02:31 作者: 五帝 标签: 软件应用 需要用到的程序 (1) Tesseract 3.00 (2) Tesseract 3.00 Bugfix ...
Android的tesseract-ocr训练实例.pdf
Android的tesseract-ocr训练实例_计算机软件及应用_IT...需要记住的是第 2 步生成的 num.box 要和这个 ...我写的是 num 0 0 0 0 0 意思是普通字体,没...
识别训练.doc
.com/p/tesseract-ocr/downloads/list 下载 Tesseract,目前版本为 Tesseract3.02...OCR3.01 以上的版本在训练之前需要创建一个名称为 font_properties 的字体特征...
如何提高Tesseract-OCR的识别精度.doc
本文介绍了提高Tesseract-OCR识别精度的步骤及注意事项。通过对Tesseract-OCR的训练...个不错的功能就是:1、合并 tif 文件;2、利用一个文本和设置的字体生成 一个...
ocr tesseract使用方法.txt
命令行: 5.在Windows平台下调用“tesseract.exe”测试: 1)在google中下载tesseract-ocr-setup-3.01.exe和chi_sim.traineddata.gz中文字库2)安装完毕,将中文...
Tesseract.doc
注意要 3.0 以上才支持中文哦,按照提 示安装就行...2、输入命令 1tesseract 图片名称 生成的结果文件的...Tesseract字库训练说明 3页 1下载券 OPENCV TESSERACT...
Tesseract简介.doc
中文字库(简体) : http://code.google.com/p/tesseract-ocr/downloads/detail...字库训练: 文档贡献者 yoyoshuangbit 贡献于2012-02-21 1 /2 相关文档推荐 ...
VS2010调用tesseract-OCR API步骤.doc
首先安装 tesseract-ocr-setup-3.02.02.exe 文件,我的安装路径为 D:\...中文简体:chi_sim;英文:eng;也可以自己训练语言包 STRING text_out; //定义...
Tesseract-OCR 介绍.doc
最近的 Linux 发行版,如 Ubuntu 12.04 版本 3.02。显著特点: ? 希伯来语 ...1 /2 相关文档推荐 tesseract-ocr训练 16页 1下载券 ocr tesseract使用方法 ...
tesseract ocr engine 中文文档.doc
项目地址 为:http://code.google.com/p/tesseract-ocr 二:TsseractOCR 架构...此时, 由于每页文档内的字符的个数有限, 利用静态分类器的结果可以训练出对字体...
基于Tesseract-ocr的藏文脱机识别_论文.pdf
基于Tesseract-ocr的藏文脱机识别_电子/电路_工程科技...( 1西藏 大学藏 文信 息技 术研 究 中心 2...体的训练方法,然后通过训练之后的字库特征文件成功...
VS2010调用tesseract-OCR API步骤.pdf
首先安装 tesseract-ocr-setup-3.02.02.exe 文件,我的安装路径为 D:\...中文简体:chi_sim;英文:eng;也可以自己训练语言包 STRING text_out; //定义...
windows环境下编译Tesseract-OCR.doc
windows环境下编译Tesseract-OCR - 本文着重介绍在windows环境下完整编译Tesseract-OCR 3.02源代码的过程,并给出了所需程序库的下载地址和编译命令。