欢迎来到忆约科技! 手机版
网络探索
    网络探索
    科技频道
    社会话题
    美文鉴赏

    图片转换成文字---将图片中的文字提取出来(OCR识别系统)

    编辑时间:2017年03月12日 12:02 作者:E小编

    利用Office 2003从图片中提取文字

    Office在2003版中增加了Document Imaging工具,用它可以把文字给“抠”出来。 

    (1)打开传真图片,用抓图软件SnagIt对相关的内容进行抓取,然后在“文件”菜单中选择“复制到剪贴板”命令(也可以用其他抓图软件,当然最简单的是Windows中自带的Print Screen键来抓取整个屏幕,然后在“画图”程序中对不要的部分进行裁剪并保存,然后复制)。 

    (2)在“开始”菜单的“Microsoft Office工具”中打开Microsoft Office Document Imaging,在左侧窗口中单击鼠标右键,选择“粘贴页面”,把复制的图片粘贴到Document Imaging中,在“工具”中选择“使用OCR识别文本”,Document Imaging的OCR识别程序就会对图片进行识别,完成后选择“工具”中的“将文本发送到Word”,程序会自动打开Word文档,展现在你面前的就是从图片中“抠”出来的文字。

    提示:一般而言,识别的准确率可以达到95%以上,但对英文和数字的识别不是太好。

    (将图片中的文字识别出来,所有的OCR(Optical Character Recognition的简称,指光学字符识别技术,是自动识别技术研究和应用中的一个重要领域 )软件都可以做到,例如清华紫光OCR等,一般购买扫描仪的用户大多安装有此类软件。但需要注意,通常OCR软件只能够识别比较规范的印刷体,手写文本目前在识别上仍有困难。

           而在大部分用户都有安装的Office 2003套件中,也附带有OCR功能的组件Microsoft Office Document Imaging。如果您有安装Office 2003,那么可以单击“开始”按钮指向程序组“Microsoft Office”中的“Microsoft Office 工具”选择“Microsoft Office Document Imaging”,即可打开。但Microsoft Office Document Imaging不是Office 2003默认的安装选项,所以在初次启用时如果该组件仍未安装,则需要插入Office的安装光盘进行安装,但整个安装过程将自动完成,您只需要按提示信息操作即可。

           安装并打开Microsoft Office Document Imaging之后,只需通过“文件”菜单打开需要识别的图片,或者选择“扫描新文档”利用扫描仪将印刷品的文字扫描到电脑上,再选择“工具”菜单中的“使用OCR识别文本”或者“将文本发送到Word”,就可以将该图片上规范的印刷体文字识别出来。如果图片中的文字是“宋体”等比较常见的字体,并且版面比较整齐,基本上所有的文字都可以正确的识别出来。

           另外,由于Microsoft Office Document Imaging只支持MDI、TIF等图片格式,需要您准备识别的图片,可能需要利用图片处理软件转换一下,又或者利用在安装Microsoft Office Document Imaging组件后,系统会自动安装的一个名为“Microsoft Office Document Imaging Writer”的虚拟打印机,将图片打印成一个MDI文件,然后再使用Microsoft Office Document Imaging识别。

    注明:(第一步:用数码相继拍下需要转换的文字图片,最好用明亮的自然光。第二步:将图片文件JPG格式用画图工具读入→另存为TIF格式。第三步:使用 Microsoft Office Document Imaging,打开已转换好的TIF图片。第四步:在 Microsoft Office Document Imaging中,点击工具→使用OCR识别文本第五步:在 Microsoft Office Document Imaging中,点击工具→将文本发送到WORD 第六步:打开发送过来的WORD文档,进行编辑。) 

    二维码