当前位置:首页 >> 计算机软件及应用 >>

Tesseract3.02中文字库训练


[转]Tesseract 3.02 中文字库训练
下载 chi_sim.traindata 字库 下载 tesseract-ocr-setup-3.02.02.exe 下载地址:http://code.google.com/p/tesseract-ocr/downloads/list 下载 jTessBoxEditor 用于修改 box 文件 下载地址:http://download.csdn.net/detail/a443475601/5896893 里面自带 java 运行库,安装后 然后 启动命令行 java -jar jTessBoxEditor.jar 即可打开

为了方便 tif 文面命名格式[lang].[fontname].exp[num].tif lang 是语言 fontname 是字体 比如我们要训练自定义字库 image 字体名 MyFont 那么我们把 tif 文件重命名 image.MyFont.exp0.tif

下面开始训练字库: 1、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_simbatch.nochopmakebox 该步骤会生成一个 image.MyFont.exp0.box 文件 把 tif 文件和 box 文件放在同一目录,用 jTessBoxEditor.jar 打开 tif 文件,然后根据实际情况修改 box 文件 2、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatchbox.train 该步骤生成一个 image.MyFont.exp0.tr 文件 3、unicharset_extractor image.MyFont.exp0.box 该步骤生成一个 unicharset 文件

4、新建一个 font_properties 文件 里面内容写入 MyFont 0 0 0 0 0 表示默认普通字体 5、运行命令 shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr cntraining image.MyFont.exp0.tr 6、把目录下的 unicharset、inttemp、pffmtable、shapetable、normproto 这五个文件前面都加上 image. 7、执行 combine_tessdata image. 然后把 image.traineddata 放到 tessdata 目录 8、用新的字库对图片进行分析 tesseracttest.tif output -l image

----------------------------------------------

转自[

a443475601 的专栏
] ---------------------------------------------后记 1:当在进行新语言训练时,应在 jTessBoxEditor 中将每个字符或字的边框单独修改,不能两个字用 一个边框如 你好 ,那样将导致 Tesseract 识别不出来!


相关文章:
更多相关标签: