ロシア語OCR




現在の作業環境
ブィリーナ・テキスト・データベース作成作業の進行状況について
日本語Windows95/98でロシアのOCRソフトを動かす試み
「オネガ地方のブィリーナ」テキストデータベース作成のための作業環境
最初のこころみと失敗の話

現在の作業環境

1999年9月現在の、ロシア語OCRのための作業環境は以下の通りです。

PC:DELL Inspiron3500 CPU:Mobile Celeron300MHz メモリ:128MB
OS:Windows 98(日本語版)
スキャナ:Canon Canoscan FB636U(\14,800)
アプリケーション:Fine Reader Version4.0 Standard(ロシア製・「日ソ」扱い、\30,000),Word 97(日本語版)

Fine Reader4.0は、3.0と同様、日本語Windows95/98で動作させることができます。インストール時に表示に使用する言語を選択できます。英語を選択すればメニューの文字化けもありません。

スキャナはUSB対応のものですが、マニュアル通りにセットアップして動作を確認した後、Fine Reader4.0をインストールして、動かしてみたところ、ただちにスキャン→認識を行うことができました。何の設定も要りませんでした。ロシア語OCRもここまでお手軽になったのかと、しばし感無量でした。

認識後のテキストはそのままWordに送ることもできます。普通の印字品質・活字サイズの書籍なら、ほとんど誤読は無いに等しいと言えます。

SCSI接続で使用していた旧機に比べると、若干スキャン速度が遅いような気がしますが、やむを得ないところでしょう。それよりも、「必要なときだけつないで使う」という使い方ができることのメリットの方が大きいと思います。また、これだけ機械が小さく軽くなると、資料室へパソコンとスキャナを持ち込んで(もちろん許可されればですが)、禁帯出の資料をその場で電子化して持ちかえることも夢ではなさそうです。


ブィリーナ・テキスト・データベース作成作業の進行状況について

1996年4月文部省科学研究費(奨励研究)の交付を受け、テキストデータベース作成に着手
1997年3月計画のうち、「ギリフェルヂング収集オネガ地方のブィリーナ」1〜3巻の電子化作業を終了
1997年8月電子化テキストの一回目の校正を終了
1997年10月日本ロシア文学会第47回研究発表会(富山大学)にて、「ブィリーナのテキスト・データベースの分析:形象と形容語の関係」と題して、データベース作成作業の進行状況とデータベース分析の一例を報告
1999年2月「18-20世紀ロシア小説の文体の計量的・総合的比較研究」平成10年度研究会(北海道大学)にて、「ギリフェルヂング『オネガ地方のブイリーナ』における定型的表現の出現について」と題して、データベース分析の一例を報告
2000年3月?電子化テキストの二回目の校正を終了、公開(予定)

当初の計画からずいぶん遅れてしまっていますが、二回目の校正を終えたら、「ルィブニコフ収集 歌謡集」の電子化にも取りかかりたいと思っています。(1999.09.27)



もどる