当前位置:首页 >> 计算机软件及应用 >>

Tesseract3.02中文字库训练


[转]Tesseract 3.02 中文字库训练
下载 chi_sim.traindata 字库 下载 tesseract-ocr-setup-3.02.02.exe 下载地址:http://code.google.com/p/tesseract-ocr/downloads/list 下载 jTessBoxEditor 用于修改 box 文件 下载地址:http://download.csdn.net/detail/a443475601/5896893 里面自带 java 运行库,安装后 然后 启动命令行 java -jar jTessBoxEditor.jar 即可打开

为了方便 tif 文面命名格式[lang].[fontname].exp[num].tif lang 是语言 fontname 是字体 比如我们要训练自定义字库 image 字体名 MyFont 那么我们把 tif 文件重命名 image.MyFont.exp0.tif

下面开始训练字库: 1、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_simbatch.nochopmakebox 该步骤会生成一个 image.MyFont.exp0.box 文件 把 tif 文件和 box 文件放在同一目录,用 jTessBoxEditor.jar 打开 tif 文件,然后根据实际情况修改 box 文件 2、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatchbox.train 该步骤生成一个 image.MyFont.exp0.tr 文件 3、unicharset_extractor image.MyFont.exp0.box 该步骤生成一个 unicharset 文件

4、新建一个 font_properties 文件 里面内容写入 MyFont 0 0 0 0 0 表示默认普通字体 5、运行命令 shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr cntraining image.MyFont.exp0.tr 6、把目录下的 unicharset、inttemp、pffmtable、shapetable、normproto 这五个文件前面都加上 image. 7、执行 combine_tessdata image. 然后把 image.traineddata 放到 tessdata 目录 8、用新的字库对图片进行分析 tesseracttest.tif output -l image

----------------------------------------------

转自[

a443475601 的专栏
] ---------------------------------------------后记 1:当在进行新语言训练时,应在 jTessBoxEditor 中将每个字符或字的边框单独修改,不能两个字用 一个边框如 你好 ,那样将导致 Tesseract 识别不出来!


相关文章:
Tesseract_3_语言数据的训练方法
Tesseract_3_语言数据的训练方法_计算机软件及应用_IT/计算机_专业资料。Tesseract...tesseract训练其他语言 暂无评价 5页 1下载券 Tesseract 3.02中文字库... 1...
提高Tesseract-ocr识别精度
字库文件 -psm pagesegmode 配置文件 1.2 提高 Tesseract-OCR 识别精度的方法...在此我们利用 Tesserac-ocr 3.02 训练生成新的识别语言库, 我们找到两种 ...
如何提高Tesseract-OCR的识别精度
通过对 Tesseract-OCR 的训练能有效提高 Tesseract-OCR 的识别精度,特别是对与...个不错的功能就是:1、合并 tif 文件;2、利用一个文本和设置的字体生成 一个...
tesseract ocr engine 中文文档
项目地址 为:http://code.google.com/p/tesseract-ocr 二:TsseractOCR 架构...此时, 由于每页文档内的字符的个数有限, 利用静态分类器的结果可以训练出对字体...
识别训练
测试使用,这里直接下载 winodws 下的安装文件 tesseract-ocr- setup-3.02.02....OCR3.01 以上的版本在训练之前需要创建一个名称为 font_properties 的字体特征...
更多相关标签: