hp-support-head-portlet

操作
正在装入...

欢迎来到惠普客户支持

hp-contact-secondary-navigation-portlet

操作
正在装入...

hp-share-print-widget-portlet

操作
正在装入...
  • 信息
    关于最近计算机安全隐患的信息

    惠普意识到最近被称为“预测执行侧信道攻击”的电脑安全漏洞。惠普已经发布了安全公告关于Intelx86处理器,并将继续发布更多关于其它处理器(ARM,AMD)的信息。

hp-concentra-wrapper-portlet

操作
正在装入...

使用" HP 控制器 "实现文字识别、表格识别的方法以及 OCR 功能的注意事项

文章简介
本文以在 Windows 操作系统下使用 PSC 2310 进行 OCR 文字识别为例,介绍了使用一体机随机软件 “HP 控制器”来进行文字识别的方法及注意事项。
适用机型:这些机型的随机软件为 v3.x 或 v4.x 版本的驱动程序。
  • PSC 1318 、1350、1508、1608、2310、2358、2410;
  • Officejet 4255/4256、5510、6208、7208
  • Photosmart 2608
什么是文字识别?
如果您有张稿件,仅仅是为了保存到电脑里备份,通常会用一体机或扫描仪扫描到电脑里成一幅图。这样成图文件的扫描方式优点是格式完整,文字正确,想用的时候再打开此文件并打印出来即可。但缺点是无法修改其某一部分内容,比如想删除其中一句话,修改某个标点等。所以我们就可以在软件中选中进行文字识别的相关选项,这样扫描出来的结果不会是个图文件,而是用 word 等软件可以打开的电子文档,原稿中的每个文字和段落都互相独立,且可以分别修改。
为了提高识别率,扫描前该注意什么?
  • 原稿尽量使用单面且是打印的文件,而不要用背面有字的报纸,传真稿件等;放置原稿要放正,否则识别率会大大降低。
  • 原稿字体一定要是标准字体,例如宋体,且字体大小最好在 4 号左右,且此软件只支持打印稿识别,不支持手写字体。
  • 扫描时,在预览图片上圈选保存范围的时候尽量只圈住字体大小相同的部分,有助于提高识别率。
  • 扫描表格圈选保存范围的时候只圈住表格边框及里面的部分,不要圈表格之外的文字。
      注意:
    尤其是对于表格部分过于复杂或包含彩色图像过多的原稿,若圈选过多的彩色图形,会导致软件报内部错误的现象,请一定注意。
  • 对于表格识别还要求表格内不能包含合并或拆分单元格,见表 1 ,否则识别效果可能会特别差,甚至识别不出整个表格。
    姓名
    单位
    张三
    HP
    北京市朝阳区建国路112号中国惠普大厦
    李四
  • 一体机随机软件的识别率不会太高,一般在 70%-95% 就已经不错了,表格识别效果就更差一些。如果您需要近乎完美的更高识别率,请另行购置专业的 OCR 识别软件,如清华文通 2003、汉王尚书等。
为了保证扫描效果,扫描前该设置什么?
直接打开桌面上的 “HP 控制器”,依次点击“设置”“扫描设置和首选项”“扫描文档设置” ,再点击右下角的“修改扫描文档设置”,出现扫描文档设置窗口,如图 1 “扫描文档设置”所示:
图片 : 扫描文档设置
打开扫描文档设置之后可以看到 3 个标签选项,分别为“扫描设置”“可编辑文本设置”“首选项”,如图 2 “扫描设置中与文字识别相关项”所示,我们建议您按照图示来设置。
  • 扫描设置
    这里是设置把文件以什么样的形式扫描时的分辨率及类型的地方,与文字相关的是后两项,如图 2 “扫描设置中与文字识别相关项”所示:
    图片 : 扫描设置中与文字识别相关项
      注意:
    这两者的区别是:
    • “可编辑文本”只识别纯文字。
    • “带有图形的可编辑文本”可保留原稿里的图像及表格。
  • 可编辑文本设置
    在这里我们可以选择识别语言(OCR 语言),由于识别语言只能选择一种,所以原文件最好是单一文字,这样识别效果才好。当我们把文件扫描至 Word 的时候,选择“保持页面格式”可以大部分地保留原文件的版面,这是默认选项,而选择“不保持页面格式”的话,原文件的版面格式不被保留(如居中的标题可能会变为居左等等),我们还需要重新修改大量版式。如图 3 “可编辑文本设置”所示:
    图片 : 可编辑文本设置
  • 首选项
    设置“自动剪切扫描文档”的,我们可以在这里开启和关闭此选项。关闭这一选项后,我们可以手动地选择要识别的区域,建议不要选择自动剪切,如图 4 “首选项窗口”所示:
    图片 : 首选项窗口
    设置好后分别点击“应用”“确定”按钮保存刚才的设定。
文字和表格识别操作步骤
  1. 进行完上述设置之后,我们就可以点击最初的 “HP 控制器”中的“扫描文档”按钮开始扫描和识别工作了。
    此时,会出现如图 5 “扫描第一步窗口”所示提示,由于在上一步骤中已进行了设置,所以按默认设置即可,“扫描至”选 Word 最好。当然,如果您希望扫成 .PDF 格式的文件,可以选择扫描至“文件”,这样扫描后默认就会生成一个 PDF 格式的文件了。
    图片 : 扫描第一步窗口
  2. 点击“扫描”按钮后开始扫描。
    • 出现如图 6 “预览窗口”所示界面,可以根据需求调整框选的范围。
      图片 : 预览窗口
  3. 我们可以用鼠标调整圈住要识别的部分,建议把周围的白边圈在外面,这样可以提高识别率,然后点击“接受”,开始扫描;
  4. 之后软件会提示“是否将另一页扫描到当前的文档中”。如果有多页文档需要识别,我们可以将第二页文件放到玻璃板上,点击“是”按钮。软件会回到预览的界面,请点击“新扫描”按钮开始第二页的扫描。
    完成第二页的预览扫描后,可把第二页文件里面要识别的部分圈住,再点击“接受”( 此步骤同上 )。通过这种方式,就可以把很多页文件里面的内容识别到同一个 Word 文档里面。如图 7 “多页扫描”所示:
    图片 : 多页扫描
  5. 识别完最后一张后点击“否”按钮,完成扫描。经过页面处理之后会将识别后的文档以 Word 文档的形式自动打开,如图 8 “识别效果”所示:
    图片 : 识别效果
    这样一份文稿就通过 PSC 2310 自带的 “HP 控制器” OCR 软件实现了文字识别,此时您就可以在 Word 中进行修改了,这里要提醒您的是默认存成的 Word 文档是以 rtf 为后缀名的,可能占用的空间稍微大些,您可以另存成后缀名为 .doc 的文件。
小技巧:在 Microsoft Excel 软件中编辑识别后的表格
由于默认的是把表格识别到 Word 中,所以如果您希望在 Microsoft Excel 软件中编辑表格,可以看看以下的小技巧:
  注意:
如果原文件是表格,也可以按照上面的方法去操作,同样可以识别,只不过默认把识别结果发送到 Word 而不是常用的表格编辑工具 Excel 而已。
  1. 通过 Word 软件打开扫描好的表格,全选,拷贝,如图 9 “用 word 打开扫描好的表格”所示:
    图片 : 用 Word 打开扫描好的表格
  2. 再打开 Excel 软件,通过 Excel 菜单栏的“编辑”“粘贴”命令把识别的内容粘贴过来。
    也许表格的行高行宽等会发生变化,所以您还要稍微编辑一下,例如直接拉动表格线到您要的宽度和高度,或者右键点中某一行或某一列,在出现的菜单中选择“列宽”“行高”选项,输入数值进行调节以达到最好的效果。如图 10 “粘贴到 excel 中”所示:
    图片 : 粘贴到 Excel 中
  3. 随后您就可以在 Excel 中随意编辑表格了。
故障排除:识别时报内部错误该怎么办?
内部错误往往发生在识别复杂表格或是带复杂图形的表格时,报错截屏如图 11 “内部错误”所示:
图片 : 内部错误
如果想避免这个报错的发生,请注意在预扫界面圈选识别范围时,尽量只圈选原稿的表格部分,而不要包含其他彩色图形,然后再点击“接受”按钮。对于过于复杂的表格,即便只圈起了原稿中的表格部分,也还是容易产生内部错误,届时请更换更高端的专业识别软件。
具体解决内部错误的方法请参考下面文章:

hp-feedback-input-portlet

操作
正在装入...

hp-online-communities-portlet

操作
正在装入...

来论坛寻求专家们的帮助!


客户支持论坛

客户支持论坛

专注于电脑、打印机、平板电脑、手机等产品,欢迎加入论坛,参与讨论,分享您的产品使用技巧与经验。 立即访问


hp-feedback-banner-portlet

操作
正在装入...

hp-country-locator-portlet

操作
正在装入...
国家/地区: 中国

hp-detect-load-my-device-portlet

操作
正在装入...