ロシア語OCR

〜最初のこころみと失敗の話〜




●最初のこころみと失敗

初めてOCRというものをやってみたのは、1993年ごろのことです。深見 弾氏の以下のような文章を読み、「日本語識字ソフトでロシア文字を読み取ることができる」と知ったためでした。

「英文字数字を対象としたソフトはすでに数年前に開発され、改良が進んでいたが、最近は漢字や仮名もよみとれるようになった。まだ露文ワープロも満足に開発されていないのに、一足飛びに、日本語識字ソフトの副産物としてロシア語の文献を読み込むことができるようになったのは皮肉である。記号として扱われているロシア文字はソフト上では漢字や仮名と同じように認識されるので、全角で表記されたロシア文字列は識字ソフトで読み取ることができるようになったのだ。
この種のソフトは<採字帳>、<AUTOTYPE ロシア語>、<BIRDS-READER>など、すでに数種類がある。<AUTOTYPE>がロシア語版を特定しているのは、このソフトだけはいったんASCIIコード(全角表示)に変換したものを、さらに<KOA TECHNO MATE2>のデータファイルに転換するためである。<採字帳>や<BIRDS-READER>はもともと日本語識字ソフトであるため、<AUTOTYPE>のように自動的に<KOA TECHNO MATE2>へ変換することはできない。しかし、例えば<SED>というソフトを使うことで解決できるから、むしろ識字ソフトとしては応用範囲が広いかもしれない。」
「パソコンでロシア語を書く」(「ノーメル:ロシア・ソビエト・カルチャー・データベース情報誌」51号(1991.7.12)所収)
しかし、当時は、現在よりももっと無知でしたので、この説明も十分に理解したとは言い難い状態でした。例えば<SED>というソフトはどこで売っているのだろう、と探し回ったりしていました。
にもかかわらず、以下のようなものを揃えて、取り掛かることにしました。
パソコン本体:NEC PC9801BX メモリ8MB HDD240MB
スキャナ:NEC PC-IN506
OCRソフト:「採字帳」

・日本語識字ソフトでロシア語テキストを読ませる方法

「採字帳」は、初期状態では辞書(字引と称するらしい)を持っておらず、使用者が文字を一つずつ教えていくタイプのソフトウェアです。ソフトが「一文字分である」と判断した画像について、一つずつ「この文字を教えて下さい」と言ってきますので、「これはД」「これはЖ」「これはУ」と、全角のロシア文字を示してやると、次に同じ字形が現れたときには、その文字として認識して次に進みます。
ロシア文字の場合、大文字・小文字を合わせても66文字しかないため、文字を教える手間が少なくてすみ、日本語よりも実用になるかもしれない、とさえ考えていました。
また、読み取ったテキストは、JISの全角ロシア文字の並んだものになりますが、KOA-TechnoMate3に付属していたツールの「SED」を使って変換テーブルを作り、KOA-TechnoMate3の形式のロシア文字テキストに変換することにしました。(この時点では、<SED>が何なのかやっと分かってよかった、と思っていました。本当の(?)SEDに出会うまでには、それからさらに4年を要しました・・。)

しかし、実際には、以下のような問題があって実用にはなりませんでした。

  1. スキャナの選択を誤った。
    最初の、そして最大の失敗は、ソフトを買う前にスキャナを買ったことでした。ソフトを動かしてみたら、中に電子テキストの形のマニュアルがあったのですが、それを読んで初めて、買ってしまったカラースキャナが新しいものであったため、対応が保証されていないこと、OCRのためにはカラーである必要がまったくないこと、むしろスピードの面からいってモノクロの方が望ましいこと、などを知ることになりました。
  2. 読み取らせるテキストの鮮明さや、スキャナにかける際の角度などの要求が非常に厳しく、少しでもその条件が悪いと極端に認識率が落ちた。
    画像としてわずかでも違うと、ソフトは、「知らない文字である」と判断するのでした。これを避けるため、スキャナにかける原稿の余白をミリ単位で切り揃えたりもしてみましたが、非常に時間を要することになりました。
  3. 「Ы」を「Ьと1」と読んだり、「Ю」を「1とО」と読む、といった誤読が非常に多く、回避の方法も見つからなかった。
    上のように、原稿の角度を厳密に揃えたり、いろいろな濃度でコピーしたものを使用してみるなど、考えつく限りの努力をしましたが、この誤読をなくすことはできませんでした。
  4. 原因不明のエラーが多く、連続運用できなかった。
    スキャナのせいなのか、ソフトのせいなのかは不明なままでしたが、およそ60分使用するとエラーが起こってソフトが暴走する、という障害が繰り返し起こりました。このため、少しずつしか作業できませんでした。
  5. トータルすると、手で入力するのに負けた。
    一ページをスキャンして認識させるのには約20分かかり、そのテキストも完全なものではありませんでしたので、キーボードから手でテキストを入力するよりも遅く、精度も低いという結果になってしまいました。
というわけで、一回目の挑戦は完全な敗北でした。


もどる