当前位置:首页 >> 计算机软件及应用 >>

Tesseract3.02中文字库训练


[转]Tesseract 3.02 中文字库训练
下载 chi_sim.traindata 字库 下载 tesseract-ocr-setup-3.02.02.exe 下载地址:http://code.google.com/p/tesseract-ocr/downloads/list 下载 jTessBoxEditor 用于修改 box 文件 下载地址:http://download.csdn.net/detail/a443475601/5896893 里面自带 java 运行库,安装后 然后 启动命令行 java -jar jTessBoxEditor.jar 即可打开

为了方便 tif 文面命名格式[lang].[fontname].exp[num].tif lang 是语言 fontname 是字体 比如我们要训练自定义字库 image 字体名 MyFont 那么我们把 tif 文件重命名 image.MyFont.exp0.tif

下面开始训练字库: 1、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_simbatch.nochopmakebox 该步骤会生成一个 image.MyFont.exp0.box 文件 把 tif 文件和 box 文件放在同一目录,用 jTessBoxEditor.jar 打开 tif 文件,然后根据实际情况修改 box 文件 2、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatchbox.train 该步骤生成一个 image.MyFont.exp0.tr 文件 3、unicharset_extractor image.MyFont.exp0.box 该步骤生成一个 unicharset 文件

4、新建一个 font_properties 文件 里面内容写入 MyFont 0 0 0 0 0 表示默认普通字体 5、运行命令 shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr cntraining image.MyFont.exp0.tr 6、把目录下的 unicharset、inttemp、pffmtable、shapetable、normproto 这五个文件前面都加上 image. 7、执行 combine_tessdata image. 然后把 image.traineddata 放到 tessdata 目录 8、用新的字库对图片进行分析 tesseracttest.tif output -l image

----------------------------------------------

转自[

a443475601 的专栏
] ---------------------------------------------后记 1:当在进行新语言训练时,应在 jTessBoxEditor 中将每个字符或字的边框单独修改,不能两个字用 一个边框如 你好 ,那样将导致 Tesseract 识别不出来!


赞助商链接
相关文章:
Tesseract_3_语言数据的训练方法
Tesseract_3_语言数据的训练方法_计算机软件及应用_IT/计算机_专业资料。Tesseract...tesseract训练其他语言 暂无评价 5页 1下载券 Tesseract 3.02中文字库... 1...
提高Tesseract-ocr识别精度
字库文件 -psm pagesegmode 配置文件 1.2 提高 Tesseract-OCR 识别精度的方法...在此我们利用 Tesserac-ocr 3.02 训练生成新的识别语言库, 我们找到两种 ...
使用jTessBoxEditorFX训练Tesseract-OCR教程
使用jTessBoxEditorFX 训练 Tesseract-OCR 教程步骤一:使用画图软件生成要训练的.tif 文件,本例做了 34 个.tif 文件,如下: 步骤:使用 jTessBoxEditorFX 将所有....
识别训练
测试使用,这里直接下载 winodws 下的安装文件 tesseract-ocr- setup-3.02.02....OCR3.01 以上的版本在训练之前需要创建一个名称为 font_properties 的字体特征...
Tesseract简介
name=tesseract-3.01-win_vs.zip &can=2&q= 7. 中文字库(简体) : http:...字库训练: 文档贡献者 yoyoshuangbit 贡献于2012-02-21 专题推荐 2014教师资格...
更多相关标签: