SOLIDWORKS Inspection使用OCR编辑器创建自定义词典字体

日期:2022-05-25 16:06:33 发布者: 浏览次数:

SOLIDWORKS Inspection提供了多个词典字体,为OCR引擎提供准确的结果,但这些词典字体不可能覆盖所有用户所使用的图纸文档。当提供的词典字体不能满足我们的工作需求时,可以使用OCR编辑器来自定义词典。本文介绍了OCR编辑器的使用方法和一些注意事项。

SOLIDWORKS Inspection提供了多个词典字体,为OCR引擎提供准确的结果,但这些词典字体不可能覆盖所有用户所使用的图纸文档。当提供的词典字体不能满足我们的工作需求时,可以使用OCR编辑器来自定义词典。本文介绍了OCR编辑器的使用方法和一些注意事项。

【概述】
Inspection是一款出具首件检查报告(FAI)的工具,他可以极大地简化及自动生成检查工程图立即按序号和质量检查报告的过程。Inspection独立版可以让非CAD用户,通过PDF或TIFF工程图文档创建带零件序号的工程图和质检报告。Inspection 独立版对PDF和TIFF工程图信息的识别是基于OCR(光学字符识别引擎)将捕捉到的特征与词典进行比较,以提取并解释所获取的信息。Inspection提供了多个词典字体,为OCR引擎提供了准确的结果。

图 1  OCR示例

默认的尺寸词典字体报包括:
    · Standard   标准字体库适用于主流标准的工程图文件;
    · Acad   对于细印刷体较适配,例如AutoCAD或老版本的Pro/e工程图;
    · CATIA   适用于CATIA生成的工程图;
    · NX1   适用于Siemens NX或Unigraphics,同样适用于印刷体工程图;
    · Century Gothic   适用于Century Gothic字体的工程图;

图 2  OCR选项界面

当Inspection提供的词典字体不能满足我们的工作需求时,可以使用OCR编辑器来创建自定义词典。OCR编辑器可以让用户从已有的PDF和TIFF文档生成自定义的词典,通过框选特征然后指定我们期望的值实现。

【注意事项】
1. OCR引擎对词典字体的匹配非常严苛,稍有不同就可能识别错误,选择相匹配的词典字体有助于提高我们的工作效率
2. 为了快速提取特征,我们可以在工程图可空白处添加所有的特征和符号,以空格进行区分;
3. 字母、数字或符号都可以使用提取分别提取并指定值,也可以使用自动提取,框选多个特征,再分别指定正确的值;
4. 提取完成后可以删除或修改不正确的值;
5. 为了获得最佳效果,推荐重复提取相同的特征3 ~ 5次;
6. 目前仅支持水平和垂直方向的特征,带有角度的特征还无法捕捉;
7. 词典默认保存在C:\ProgramData\SOLIDWORKS\SOLIDWORKS Inspection 2018 Standalone\TrainableOCR文件夹下;

【操作步骤】
1. 启动Inspection 独立版,在文件栏里找到OCR编辑器,点击进入;
2. 单击添加工程图,打开我们的工程图文件;本文所使用的工程图已经把所需要的特征添加到了左上角空白处,如图3;

图 3带字母、数字及符号

3. 单击提取,手动款选单个特征,发现在下方框特征里的值一栏红色显示问号,如图4;我们可以在左侧提取栏中输入正确的值。字母、数字和常见的符号可以直接键盘输入。一些特殊的符号可以单击值域右侧Ω【Insert Symbol】图标,如图5,插入所需的符号。

图 4框特征

图 5提取栏

4. 可以使用自动提取框选整行特征,系统会自动进行识别赋值;检查每个特征是否识别正确,对不正确的特征可进行修改或删除后重新提取识别;

图 6自动提取

5. 在正确提取了所有的特征后,单击保存,选择保存地址确定后,弹出图7对话框则说明保存成功,单击确定;

图 7弹出对话框

6. 回到Inspection Standalone界面,单击【主页】/【选项】/【项目选项】/【OCR】,在尺寸OCR一栏勾选自定义,单击+,找到我们刚保存的词典文件,注释OCR词典栏有需要也可以同样添加自定义词典,两者可用同一个词典文件;

图 8选项设置

7. 单击确定后就可以使用我们自定义的词典对工程图进行OCR识别了。

【结果对比】
我们打开一幅用非标准字体绘制的工程图,用默认Standard字体进行标号,发现尺寸识别正确率不高,如下图所示,字母R识别成了72,小数点没识别到。

图 9错误识别

使用自定义的词典字体之后,我们可以发现该尺寸识别正确

图 10自定义词典正确识别

【总结】
虽然Inspection官方已经为客户提供了相当完善的词典字体,能够满足大部分主流工程图纸的识别。但是仍有部分字体没有覆盖,并且OCR引擎对于字体库的匹配非常严苛,与字体库稍有不同就可能识别错误,需要手动修改,影响工作效率。所以在遇到多份字体相同、使用官方提供的词典字体识别正确率不高的时候,创建一个自己的词典字体就显得很有必要了。我们只需要创建一次词典文件,在遇到同样使用该字体的工程图的时候,选择自己创建的自定义词典将大大提高OCR识别的正确率,提高我们的工作效率!