× 翻译和本地化相关常用工具如SDL Trados, Catalyst,QuarkExpress,Framemaker,Wordfast,Transit,Coreldraw,Adobe Acrobat,Robohelp,Deja vu,雅信CAT等讨论、下载、技巧和译友们的评论等。所有下载地址链接、注册码、破解等均是会员个人提供,限用于学习和交流。本站不提供下载、破解等服务。

Topic-icon 国内外中英文OCR识别软件特点比较

  • bhczq8
  • bhczq8的头像 题主
  • 离线
  • Platinum Member
  • Platinum Member
更多
2005-01-08 18:47 - 2005-01-09 12:24 #1 bhczq8


国内外中英文OCR识别软件特点比较
作者: zghzgh (zghzgh) 时间: 2004-10-05 12:41:09 | [回复] [发表] [<<] [>>]


中文识别:清华文通TH-OCR XP(8.0);汉王文本王5800;尚书七号OCR。
英文识别:ABBYY FineReader70pro;Cuneiform pro v6;Scansoft OmniPage SE;Scansoft PaperPort v9.0。
中英文混合识别:清华文通TH-OCR XP(8.0);汉王文本王5800;尚书七号OCR。
中文识别:汉王文本王5800更好一些。
中英文混合识别方面:TH-OCR XP(8.0)识别率更高一些,汉王文本王5800稍差一些,尤其是o与0识别出错时更多,但版面还原和纯中文识别率比较好。
纯英文识别方面:Cuneiform pro v6识别速度最快,ABBYY FineReader70pro版面还原识别率比较好;Scansoft PaperPort v9.0处理图像能力强。
以上目前网上都有破解版本。
清华文通TH-OCR9.0和汉王文本王6800目前网上都没有破解版本。
--
※ Origin: 中国OCR信息网 <http://www.ocr.bj001.net>
◆ From: 218.58.99.*




OCR文字识别软件还是处在一个垃圾时代,远未成熟。
作者: guest_3317 (ocr123) 时间: 2004-02-10 03:01:57 | [回复] [发表] [<<] [>>]


清华OCR软件总体上是个垃圾
--一个很普通的在工作当中需要使用OCR的用户的感想

很多用户大概在真正购买扫描仪也罢传真也罢DC也罢这些文字输入产品之前
总得考虑今后要使用的软件产品究竟如何,是不是象说的一样那么好,在网上下载了几个
最新的OCR处理软件后,总体来讲,感觉清华OCR软件是个垃圾!
好像汉王是此家的一个商业对手,我不知道。但由于需要购买这家什在网上颇看了些文章
原来两家死掐呀。
紫光的TH-OCRXP也罢,TH-OCR2000千禧版更不用提,最近又炒作什么屏幕扫描的所谓“慧视”,
使用过后,一概是垃圾罢了,生气都给删了。
紫光的TH-OCRXP———手写体扫描本来根本不可用,也罢。可是非得写上可用,奇怪;另外文字扫描时,
干吗给我们留下那么多垃圾,扫描结果不怎么样,也罢,退出吧,出现一个画面有三个选项问要不要保
留这个那个,选一个,结果把原先的图都给删拉。不选,在原先的图旁又留下了一大堆这个那个垃圾,
没有一个可用的,每次都得删。
汉王与之比较,没有那么多啰嗦,实实在在。直接扫描,识别率也可以。
汉王5.0和尚书6.0技高一筹.可是,也有缺点,怎么没有选项,诸如表格,人工选择之类
有些时候,就是一种听天由命的感觉。不好。至少那个糟糕的紫光的优点,如果还有,你得拥有吧,可是
就是没有,更别提什么手写体之类,屏幕扫描之类啦,紫光虽然不行,却也试图去做了。
但是说起来,好像两者之争总是说些商业化不商业化的内容,可是同一个时间的东西,技术我不懂,识别率
汉王一点不低呀,那么技术上又有什么可争论的,技术是使用后的结果,不是言此而及彼的。用户比较的是
产品,干吗还要罗罗嗦嗦,两者是在哪个层次上的争论?是不是紫光学术理论高,汉王也有顾及?闹不懂。
想必紫光因为院子大一些,总觉得还可以,搔首弄姿吧了。他根本没有考虑什么用户及开发的目的之类,听
说他的工作人员都是些混日子的,包括售后服务人员,很多人对顾客说,你爱买不买之紫光之类的话。
汉王也有不少缺点,结果我也给删了,另外,尚书6.0只有盗版下载。
将来非要买扫描仪、DC时,可以看那时的情况,不然还可以选择国外产品。对于消费者来说,这是一个不
用软件开发商同情的时代!

OCR文字识别软件还是处在一个垃圾时代,远未成熟。



--
※ Origin: 中国OCR信息网 <http://www.ocr.bj001.net>
◆ From: 61.51.175.250
[评论(2)] [推荐] [打印] [关闭]
2004-05-12 18:50:39 网友: guest_9039(丝丝) 来自: 218.22.138.49
赞同
2004-03-28 11:59:32 网友: guest_6372(ywn) 来自: 218.242.25.55
目前,中国的ocr用户在ocr应用上认为是一个简单的扫描、ocr就可以了。其实这是不正确的。我们要进行扫描工作,要对文章结构有一定的了解,有的文章属于一般全文字结构、有的文章内容包含美术字、大字小字,排版格式也有横排、竖排、有的涉及到专业符号,例如化学方程式、分子结构等符号、数学公式等、还有世界各国不同文字的识别等等,除此之外,还有文章同时含有彩色、黑白、图象、文字、表格等,有的票据存在手工输入方式等。我认为文章颜色越丰富、文章结构越复杂、要完成扫描工作后,就简单的ocr识别就可以完成了,那是一种误解。我们常常是这样认

>帮忙的最高境界就是越帮越忙




QQ:
昵称:石滴水.
号码:

czq8.blog.163.com/
MSN:

请先 登录注册一个帐号 才能操作。

  • bhczq8
  • bhczq8的头像 题主
  • 离线
  • Platinum Member
  • Platinum Member
更多
2005-01-08 18:55 - 2005-01-08 18:55 #2 bhczq8
汉王文本王 2.5破解版

软件介绍:
1.产品介绍:

  汉王文本王是针对机关单位、企业及有文字录入需求的个人用户,在日常的工作中,快速的对书刊、报纸、公文、档案、报表、打印稿等印刷资料内容进行录入的应用需求而推出的。本产品采用汉王科技顶尖的OCR文字识别核心,结合特定文本扫描技术,能够识别、录入百余种印刷字体和各种中英繁表图混排格式的文本,并具备朗读校对、翻译功能,是理想的表格、文字、图像录入系统。

2. 汉王文本王突出的优势

批量输入 高速准确

 *可连续进行批量扫描并识别1000页稿件。
 *识别速度快,每分钟高达6000字。
 *全自动识别宋、仿宋、楷、黑、圆、魏碑、隶书、行楷等百余种中文简繁,英文、数字、表格、图片混排的稿件。
 *识别准确率高。

一键扫入,WORD输出
 **作简单快捷:只需轻轻按下扫描按钮,即可把识别结果直接录入到Microsoft Word文档中,无需文件的保存、复制、粘贴,无需文件格式的转化,真正实现与Word无缝连接。

图文表格 轻松输入
 不仅高效识别图片、文字,也可全面识别表格,所需录入内容瞬间即可转化成为电子表格。


===
1.产品介绍:

  汉王文本王是针对机关单位、企业及有文字录入需求的个人用户,在日常的工作中,快速的对书刊、报纸、公文、档案、报表、打印稿等印刷资料内容进行录入的应用需求而推出的。本产品采用汉王科技顶尖的OCR文字识别核心,结合特定文本扫描技术,能够识别、录入百余种印刷字体和各种中英繁表图混排格式的文本,并具备朗读校对、翻译功能,是理想的表格、文字、图像录入系统。

2. 汉王文本王突出的优势

批量输入 高速准确

 *可连续进行批量扫描并识别1000页稿件。
 *识别速度快,每分钟高达6000字。
 *全自动识别宋、仿宋、楷、黑、圆、魏碑、隶书、行楷等百余种中文简繁,英文、数字、表格、图片混排的稿件。
 *识别准确率高。

一键扫入,WORD输出
 操作简单快捷:只需轻轻按下扫描按钮,即可把识别结果直接录入到Microsoft Word文档中,无需文件的保存、复制、粘贴,无需文件格式的转化,真正实现与Word无缝连接。

图文表格 轻松输入
 不仅高效识别图片、文字,也可全面识别表格,所需录入内容瞬间即可转化成为电子表格。

破解方法:用注册文件里面的文件替换原来的执行文件。

目前最好的文字扫瞄处理软件,内核比 尚书 6 OCR 更实用,加密狗已破解!


尚书6号使用感觉
下载尚书6号后,使用各种不同类型、不同质量的文本对它进行了识别效果判定,结果确实出乎我的意料:
1、识别率同尚书5号比大幅提高。克服了尚书5号对低质量文本识别率低的弱点,对于低质量文本同样得心应手,而且英文和数字的判别改进不小。各方面的综合识别效果超过了紫光OCR千禧专业版和7.5MF版。
2、其重大改进是能支持灰度和彩色图像的识别,识别效果也颇令人满意。而紫光千禧版不能识别彩色图像。
3、尚书5号只支持其本身扫描的二值tif图像,这一令我一直不满的限制在6号中终于不再存在。
经过使用和对比,尚书6号确实不负它40M的个头。以前我一直对尚书不太满意,首选紫光,现在尚书6号的出现终于让我作出了新的选择,特别是在紫光千禧版的令人失望之后
尚书6号OCR 限制破解
把 Eztw32.dll、FILE_ID.DIZ 覆盖原文件即可。



指导]如何使用扫描仪进行文字识别
时间: 2004-09-03 15:20:50 | [<<] [>>]


注明:本文仅以HP Scanjet3670 为例进行讲解,其他扫描仪使用方式也类似。

文章概要:

  一、扫描前的设置

  二、扫描中的过程

  三、扫描后的注意事项和扫描技巧

正文:

  本文通过:扫描前的设置;扫描中的过程;扫描后的注意事项和扫描技巧;三部分说明如何使用Scanjet3670进行文字识别(ocr)
一、扫描前的设置

  安装好扫描仪的驱动后,扫描软件也就安装完毕了,在桌面上会有扫描软件的快捷方式“HP Director”(从开始菜单的程序中也可以找到"HP照片及图像控制器"),双击后,会看到扫描软件的主界面,如下图:

  图 1:



  扫描前,请先对“扫描文档”进行设置,以便得到您想要的效果(软件会自动记录您此次的设置)。双击上图中的“设置”,在弹出来的菜单里面点击“扫描文档设置”,可以看到下图:

  图 2:



  在上图中可以看到三个选项,分别是“扫描设置”、“可编辑文本设置”和“首选项”,

  扫描设置(如图2):

  这里可以设置扫描结果的格式。

  注意 : 如果要进行文字识别,那么一定要选择"可编辑文本"或者"带有图形的可编辑文本"。这两者的区别是:"可编辑文本"适合不含图像的纯文字,如果原文件是图文混排的或者有表格,那么要选择"带有图形的可编辑文本"。

  可编辑文本设置(如下图):

  图 3:




  在这里我们可以选择要识别的原稿文字语言(OCR语言),由于识别语言只能选择一种,所以原文件最好是单一文字(如果是中英文混派,可以选择简体中文,或者分成两段扫描)。此处还可以设置,是否在扫描结果中保持页面格式。

  首选项:

  此处可以设置是否进行自动剪裁(一般可以不选此项)。

二、扫描中的过程

  进行完这些设置之后,放好原稿(方向和正反可以参看玻璃板右上的图示),我们可以点击下图中的"扫描文档",开始进行扫描了。

  图 4:




  软件运行后会弹出一个窗口(如下图),让您选择扫描的文档类型,以及要将结果发送到什么程序里面(比如word)或者保存为一个文件(可以另存为pdf文件)。

  图 5:



  选择好之后点"扫描",首先会扫出一个如下图的预览图片(在主界面的设置里面,可以选择是否出现扫描预览)。

  图 6:



  我们可以用鼠标圈住要识别的部分,建议把走周围的白边圈在外面这样可以提高识别率,然后选"接受"。之后软件会提示"是否将另一页扫描到当前的文档中?如下图:(注意,只有在上面的“扫描可编辑文本”中选择了“是”,才会有此对话框)

  图 7:



  如果有多页文档需要识别然后合成一个文件,就请将第二页文件放到玻璃板上,然后点击"是"。这样我们可以把很多页原稿识别后形成一个文件。识别完最后一张后点击"否",完成扫描。经过页面处理之后,word会自动打开,里面是识别好的内容。如下图:

  图 8:


  如果原文件是表格,也可按照上面的方法去操作,同样可以识别. 如果您希望在Microsoft Excel软件中编辑表格,可以先扫描到word里面,然后在word里面打开扫描好的表格,全选,拷贝,再打开Excel软件,粘贴。效果如下图:此时您可以在Excel中编辑表格了。

  图 9:



三、扫描后的注意事项和扫描技巧

  1、如果为了进行修改,选择了“扫描可编辑文本”,那么扫描结果肯定不能做到100%的正确,可能需要您校对。所以如果您不需要进行修改,可以在此选项中选否,则扫描结果是肯定和原稿一样。

  2、 原稿尽量使用打印的文件(纸张不要太薄,导致透设过多,反射光线不足)。

  3、 原稿字体最好是标准字体(手写体可能无法识别),最好在4号字左右。

  4、 在预览图片上圈选保存范围的时候,尽量只圈住字体大小相同 的部分,有助于提高识别率。

  5、 扫描表格圈选保存范围的时候,只圈住表格边框及里面的部分,不要圈表格之外的文字。(同时结构复杂的表格即每行的格数不等。此扫描软件将几乎不能识别)
[评论(0)] [推荐] [打印] [关闭]





>帮忙的最高境界就是越帮越忙




QQ:
昵称:石滴水.
号码:

czq8.blog.163.com/
MSN:

请先 登录注册一个帐号 才能操作。

更多
2005-01-09 12:24 - 2005-01-09 12:24 #3 huaxirick
Replied by huaxirick on topic 国内外中英文OCR识别软件特点比较
我一直在用尚书7号,效果不错。

专攻药学英语

请先 登录注册一个帐号 才能操作。

更多
2011-11-03 05:34 - 2011-11-03 05:34 #4 roadman
Replied by roadman on topic 国内外中英文OCR识别软件特点比较
国内外六款常用OCR识别软件比较

OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。

国内:

汉王 PDF OCR

汉王PDF OCR V8.1对软件进行全面升级,是汉王 OCR 6.0 和尚书七号的升级版,是一个带有 PDF 文件处理功能的 OCR 软件;具有识别正确率高,识别速度快的特点。有批量处理功能,避免了单页处理的麻烦;支持处理灰度、彩色、黑白三种色彩的BMP、TIF、JPG、PDF多种格式的图像文件;可识别简体、繁体和英文三种语言;具有简单易用的表格识别功能;具有TXT、RTF、HTM和XLS多种输出格式,并有所见即所得的版面还原功能。新增打开与识别PDF文件功能,支持文字型PDF的直接转换和图像型PDF的OCR识别,既可以采用OCR的方式将PDF文件转换为可编辑文档,也可以采用格式转换的方式直接转换文字型PDF文件为RTF文件或文本文件。

清华紫光OCR(TH-OCR)

TH-OCR是清华大学自1985年就开始研发的,TH是TsingHua(清华)的缩写,TH-OCR代表北京文通信息技术有限公司开发的OCR软件。在国家“863”计划支持下,持续了十多年的科研成果,从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别,在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座里程碑。TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域,成为国内OCR市场的先锋。

TH-OCR的突出特点:
汉英双语同时混排,识别率最高,居世界领先水平;可以识别黑白、灰度、彩色图像,可以读取多种图像格式;首创对识别结果进行电子文档版面复原功能,所见即所得;首创日文、韩文、日英混排、韩英混排识别功能,识别率98%以上。

赛酷OCR网络版识别软件

《赛酷OCR网络版》是赛酷科技推出的国内首款网络OCR软件,集复杂版面分析、文字识别,表格识别,公式识别多项专有技术于一体,充分满足了政府公务员、企业经营管理人员、教师学生、科研人员、编辑记者等日常文档录入的需要,极大地提高了工作效率和质量。

国外:

ABBYY Finereader

智能OCR 可以把静态纸文件和 PDF文件转换成可管理的电子数据,可以大大节省时间和精力。关键是这款软件可以识别包括中文在内的186种语言,对翻译行业非常有用,尤其是其中的 PDF 转换功能,可以将纸面和电子的 PDF 转换成 Word 文件,并且文件的原始版面可以很好地保留下来。

Nuance Omnipage Professional

  要将纸张和PDF转换为您能够以最喜爱的PC应用编辑的文件,OmniPage Professional 是最快捷、最准确的方式。利用OmniPage Professional ,可能要花费几个小时重新录入和排版的纸张文件在数秒内即可转变为标准格式的文本文件。对于您获得的文本文件,它可进行更多的处理。不论你希望创建PDF文件的批处理、从填写的电子表格中收集数据还是出于加密目的自动控制文本区域,OmniPage都可以帮您执行这些任务。OmniPage提供转换、编辑、存储和共享所有纸张及PDF文件所需的语音和质量。它是机关工作人员、法律事务所、保险公司以及金融、政府、教育及所有医疗机构的理想选择。
  请勿浪费时间重新创建纸张文件。OmniPage兼备行业领先的99%的准确率、字符准确性以及改进的页面格式识别,使文件格式看上去与源文件恰好相同,并包括完整的文本、表格和图形。您只需要花费更少的时间纠正文件错误,因此有更多的时间来完成其他必要工作。OmniPage利用卓越的准确度来精确识别文件格式,以便您可轻松修改。
OmniPage是世界上最精确的OCR软件,包括世界上最通用的桌面文件管理软件PaperPort。此外,您可获得该行业的的标准PDF创建软件PDF Create。两种软件无缝整合为全面的文件解决方案。
利用OmniPage,您可将纸张格式转换为电子版PDF格式,然后收集数据。OmniPage可对所有填写的表格进行批处理,不论是PDF还是纸张打印格式,并且创建一个数据文件,该文件可在电子数据表和数据库程序中打开。电子表格比纸张表格更加便于分发、填写和处理——OmniPage让一切变得轻而易举。

Readiris Corporate

Readiris 是一个文字识别软件,可识别到超过120种不同的语言。迅速转换您的文件或PDF文件成可编辑的文本文件,您可以编辑,共享和存储!简单地用扫描仪、高速扫描仪扫描您的任何文件或导入您的PDF和图像,在较短的时间内获得你喜欢的文字处理、电子表格应用或许多可用的输出应用之一;这样您的纸张文件完全为可编辑的扫描的纸面文档、PDF文件和图像文件的副本工程。

差异:

1、国内的比国外的更新周期长,对于新字体的字体识别较差,易形成乱码,对于新文档格式支持较差。
2、国外的更新快,充分利用当前计算机硬件多核处理器的优势,改进的超线程和新型并行处理算法大幅度缩短页面处理时间,速度令人难以置信地提高。
3、无论哪种,尤其国外的,对两种以上语言混编文档,非主选OCR语言部分识别易产生乱码!
4、若文档中文字经过编码加密或者模糊处理,或者含有表格、数理公式等其他特殊结构的文本文档,所有的OCR识别软件没有一个全能手(包括上述未列出的OCR软件)!
5、ABBYY Finereader 与 Nuance Omnipage Professional 的最大区别是对含简繁中文元素的文档 OCR 识别的准确率上,前者更强些!

使用技巧:
1、对于文档文字经过编码加密或渲染处理的可考虑先转成图片,再找屏幕捕捉识别软件识别。
2、对于文档文字经过模糊处理的可用其他软件转化为某种可调文字对比度的文档,使文字清晰显示后再识别。
3、各个OCR识别软件都有专长,根据文档的结构编码特点选择合适的OCR识别软件。
4、一般的著名的PDF编辑软件自带OCR识别和文档转换功能。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
ABBYY FineReader 10 Corporate Edition 特别版
hi.baidu.com/风渡无痕/blog/item/3f1d9cede0e63926269791a8.html
ABBYY FineReader 11 Professional Edition 特别版
hi.baidu.com/%B7%E7%B6%C9%CE%DE%BA%DB/bl...448a65feaf8f84e.html
ABBYY FineReader 11 Corporate Edition 特别版
hi.baidu.com/风渡无痕/blog/item/a1213325e302be28c9955930.html

原文地址(更多评论):http://hi.baidu.com/%B7%E7%B6%C9%CE%DE%BA%DB/blog/item/2323f712b167c137dd5401b8.html

请先 登录注册一个帐号 才能操作。

创建页面时间:0.057秒
核心: Kunena 论坛