ページ

Clip to Evernote ←このページをノートに保存する
Add to Google ←このブログをGoogleに追加

2010年12月5日日曜日

Ubuntuで日本語OCR

ちょっとしたテストのために、本に掲載されているサンプルプログラムのソースが欲しくなった。もちろん、本に掲載されているのは紙に印刷されているソースコード。まえがきを読んでもあとがきを読んでも、ダウンロードする方法は載っていない。手で入力するか。とも、思ったが、面倒臭いことこの上ない。
こんなときOCRが使えれば便利なのだが……
インターネットで調べてみると、Ubuntuで使えるOCRソフトはいくつかあるようだ。ただし全て英語に限る。日本語に対応したものは見当たらない。
まぁ、ソースファイルだけだからそれでもいいかと思ったが、せっかくOCRソフトをインストールするのだから、やはり日本語に対応しているものが欲しい。
Windows用なら手元にある。何年か前にWindowsXPにインストールしようとして購入し、それなりに使っていたが、PCを乗り換えた際に再インストールされることなく、棚の片隅に置き去りにされていた。名前は「e.Typist v8.0」。古いソフトなので、wineで動くかもしれないと思い試してみた。
さすがにスキャナの認識はしてくれなかったものの、SimpleScanで取り込んだ本の画像データから、かなりの認識率で文字データに変換してくれた。日本語に対応していることを考えると、他のOCRソフトに比べ格段に使い出がある。
wineのおかげで、意外なソフトが復活することになった。

0 件のコメント:

コメントを投稿