ロシア語OCR

「オネガ地方のブィリーナ」テキストデータベース作成のための作業環境




●「オネガ地方のブィリーナ」テキストデータベース作成のための作業環境

1998年9月現在のロシア語OCR環境は以下の通りです。
(この環境を構築するに当たっては、浦井康男先生・大山博さんからたくさんのご助言をいただきました。)

PC:Proside JM166-PIT2 CPU:Pentium 166MHz メモリ:64MB
OS:Windows 3.1(英語版)+Cyr Win3.20(ロシア語化ソフトとフォントのセット)
スキャナ:HP ScanJet 4c
アプリケーション:Cunei Form Version1.3(ロシア製),Word 6.0(ロシア語版)

Cunei Formは、起動すると、スキャナからの読み取りから認識までを自動で行ってくれます。その後、結果としてできたテキストと、スキャナからの画像の両方を並べて見せ、認識に自信のないらしいところを反転表示しますので、画像と照らし合わせて修正して行くことが可能です。このあたりの使い勝手は、たとえばe-TypistのようなOCRソフトとほとんど同じです。
処理はとにかく「速い」という一語に尽きます。1ページにつき、スキャニングに20秒程度、認識に10秒程度というところでしょうか。ページの印字品質にもよりますが、誤読は1ページに10〜20個所くらいではなかったかと思います。スキャナにかける際に多少斜めになっても、それほど影響はありませんでした。その場で反転表示を見ながら修正していけば、のこる誤読はわずかで、おおむね満足できる精度といえます。



もどる