ABBYY是一款知名文字识别软件,识别后格式保持相对完整。由于是国外软件,不知对古书当中的繁体识别效果如何,从百度上找了一些繁体竖排的图片,然后我们将其与一款免费小软件“千百OCR”作一比较。
图一,现代印刷的仿古书籍,清晰的文本两者都能轻松识别,识别出来的字数千百ocr更多,从右到左自动改为从上到下顺序清晰。abbyy的格式显得有些混乱。
图片2,有竖线干扰的书籍
ABBYY识别效果
整体图
识别后的结果
千百OCR的识别效果(识别后点繁体转简体按钮已经转为简体)
识别后的结果(识别后点繁体转简体按钮已经转为简体,部分文字没转成功)
前言X网
婉约词是五代时期的一种词派它舍弃了一大江东去一的豪壮俊XlZ.C
而将一杨柳岸晓风残月一的旖旎风情发挥到极致柳永李清照秦
欧阳修晏殊周邦彦等多词坛名家创作了大量各具风韵的婉约词
爲婉约词的代表人物婉转柔美的词风长期影响词坛于是便形成了词
以婉约爲主流的观今
婉约词的主要特点是言情在题材内容方面多以儿女情长闺情绮
怨离愁别绪主题表现形式含蓄婉转一执手相看泪眼竟无语凝
噎柳永将恋人惜别的凄然心境描绘得淋滩尽致‘一寻寻笕笕冷冷
清清凄凄惨惨戚戚一李清照将孤苦凄凉的情绪洇染得浸入人X十
年生死两茫茫不思量自难忘苏轼吊念亡妻的痴语读之合人潸然
泪下婉约词委婉传情凄恻动人道尽了世间的悲愁与欢愉诉出了黯
然销魂的无限伤离之情可谓一状难状之景达难达之情赢得古今之
人的同情与共鸣
图片三,来个难度大的
abbyy显示识别失败
千百ocr识别出来一部分
列4 軍王悲使座级即
列5 夫家尔得醒悲X我在不
列6 告夫人我已使X间求王于尚有
列7 告夫人生烦沮高X买头追
列8 王即X与夫人在确X動X真大然
列9 方随王武城X谷欲求王子
图片4,手持拍摄图片的识别效果,明显千百ocr的准确率高
abbyy识别效果,乱码很多
千百OCR识别效果,
图5,清晰文本两者识别效果差不多,abbyy的标点识别更好。
abbyy识别结果,图片被自动分页了,这是右边半页的识别结果
千百OCR识别结果,文字多很多
综合比较结果
1.识别速度 :abbyy慢,千百ocr快
2.识别后格式保留:abbyy能保留,千百ocr不能保留
3.清晰高质量繁体:两者差不多,abbyy的标点更准确。千百ocr识别率略高一些
4.普通繁体图片:abbyy识别率很低,千百OCR识别率很高
5.使用便利性:abbyy无特别针对繁体的工具,千百ocr能一键繁简转换,能从左到右或者从右到左识别。且识别后自动转为横排文本。
6.操作便利性:abbyy好,自动识别。千百OCR需人工打标线,鼠标拖动标线定位,工作量较大
所以各取优点,清晰的繁体图片大家可以用abbyy来识别。普通的图片建议用千百OCR省时省力。
评论