NewsRhzhi | 先创资讯 | 旧版入口
rhzhi.net
网站首页 | NewsRhzhi | 先创资讯 | 操作系统 | 工具软件 | 办公软件 | 网站设计 | 组网专栏 | 平面设计 | 多 媒 体 | 程序开发 | 硬件资料 | 聊天软件
您现在的位置: 先创网 >> 工具软件 >> 实用工具 >> 文章正文
用OCR软件进行扫描识别文本的技巧
其它网站
2007-12-13 11:35:13文/佚名
    

  扫描仪的一个重要功能就是通过OCR软件(即文字识别软件)将扫描后的文字图像转换成文本格式的文件,使文字处理软件能够调用处理。这样可以大大提高文字录入速度,极大地提高工作效率。目前,文字识别软件主要有《尚书OCR》、《汉王OCR》和《紫光OCR》等几种。不过,我们在进行文字识别时经常会遇到识别率低的问题,其原因除了被识别稿件有问题外,主要还是我们没有掌握好扫描及OCR识别软件的使用技巧。那么进行文字识别时有哪些技巧呢?

  一、根据识别稿的质量进行处理

  进行扫描识别时,在可能的情况下应尽量选择清晰度与洁净度都很高的识别稿,识别稿的清晰度与洁净度的不同会使扫描后的识别率有很大差距。对一般的印刷稿、打印稿等质量较好的文稿进行识别,只要掌握好方法与技巧,其识别率一般可达到98%以上。而对报纸、杂志等清晰度不佳的原稿进行识别,无论使用何种识别软件都难以达到很高的识别率。

  1.对一些带有下划线、分隔线等符号的文本原稿,有些OCR软件是识别不出的,一般会出现乱码。如果必须扫描带有这些符号的原稿,一是要确保使用的识别软件能够识别这些符号。二是使用工具擦掉这些特殊符号,使识别软件能正确识别这些文字。

  如果扫描后的文档中含有OCR软件不能识别的图像、图形和一些特殊符号,可以考虑使用“擦拭”工具将文档中的图像、图形和一些特殊符号擦除,同时将图像上一些杂点也一并去除。使图像中除了文字没有多余的东西,这可以大大提高识别率并减少识别后的修改工作。

  2.在扫描识别报纸或纸张较薄的文稿时,扫描时稿件背面的文字通常会透过纸张造成错字或乱码,使识别率大大降低。在对这类原稿扫描时,我们可以在原稿的背面覆盖一张黑纸,在进行正式扫描时,适当增加扫描对比度或亮度,即可有效提高识别率。

  3.对于一些图文混排的原稿,扫描成一幅图像进行全区识别会严重影响OCR软件的识别率。我们可以根据实际情况将扫描后的版面切分成多个区域后再识别,切分区域的原则是:将图形、图像排除在区域之外(图1),尽量把文字字体、字号一致的划在一个区域内,不要嫌这个过程烦琐而选用自动切分区域,手动选取扫描区域会有更好识别效果,还应注意各识别区域不能有交叉情况。

1

  图1 版面切分

[1] [2] [3] 下一页

打印此页 投稿与建议 返回顶部
栏 目 索 引
软件应用 SOFTWARE
Win XP | NT/2003
Win2000 | DOS/Win9x
PowerPoint | Office
Excel | Word
网络软件 | 实用软件
媒体软件 | 系统软件
常用软件 | 办公软件
聊天软件 | 网络安全
新软试用 | Vista
设计在线 DESIGN
Dreamweaver | 3DMax
Photoshop | Flash
平面设计 | 网页设计
多 媒 体 | 精品画廊
精彩专区 SPECIAL
Q Q 专区 | 热门专题
组网玩网 | 程序开发
应用集锦 |
相关文章
关于我们 - 联系方式 - 合作伙伴 - 网站大事记 - 网站地图 - 我要投稿
Copyright ©1997-2008 先创网 All Rights Reserved.
先创科技 版权所有