OCR for Linux

先日 (1) を書いたザウアーブルッフ(ザウエルブルッフ)の件を書き続けるために、いくつか資料を用意していた。ほとんどは英語で書かれた医学史専攻の研究者による論文なのだけど、ザウアーブルッフの伝記として世に出ているもので数少ない日本語の文献がふたつあって、そのうちのひとつがこれである:

『危ない医者たち』: ロバート・ヤングソン,イアン・ショット 著,北村 美都穂 訳,青土社 ,1997.

しかし、この本の訳がもうひどいったらない。訳者の北村氏は既に鬼籍に入られているとのことだが、イギリス人の英語を日本語にし切れていないのが見え見えのひどい文章である。あまりにひどいので、ロンドンの Robinson 社から出ている原著 "Medical Blunders" のペーパーバックを取り寄せていたのだが、先日ようやく送られてきた。

ザウアーブルッフに関する記述はだいたい14ページ位の量なのだけど、僕は医学系の研究者ではないので、たとえば "oesophagus"(食道 esophagus)なんて単語が出てくると、さすがに首を捻ることになる。こういうときには、Emacs 上で英語の文章をテキストとして開いて書き換えるように訳して、不明な単語は sdic + 英辞郎で確認する、という作業をすると間違いが少なくていいのだけど、そうなると、このペーパーバックの文章を電子化する作業が必要になってくるわけだ。

14ページだから、本気でやっていれば手で打ち込めない量ではない。しかし、さすがにこれは楽をしたいところだ……しかし、これだけのために全ページをスキャンして OCR にかけるというのも面倒な話である。それに手元にはフラットヘッドスキャナ(後記:これは間違い。フラットッドスキャナ Flatbed Scanner が正しい)があるだけなので……うーん、どうしようか、と考えたのだった。

実は、フリーの OCR ソフトがないわけでもない。日本語の場合は、もう公開されていないけれど、かつては SmartOCR Lite Edition というのがあって、これは結構皆さん重宝されていたようだ。まあ、スキャンの手間もあるし、日本語で OCR が必要になるなら、外部業者にスキャン依頼した方が楽かもしれない。

では英語の場合は、というと、これが Linux で動くフリーのものが複数種存在する。今回は GNU Ocrad で作業を行うことにする。

まず、14ページの文書をスキャナで読み込み、pbm,pgm,ppm,pnm のいずれかの形式でセーブしておいて、

ocrad -F utf8 foo.pgm > foo.txt
などとすれば良い。標準出力に出てくるので、シェルスクリプトなどで大量のファイルを処理することも容易である。

で、さっそく変換してみると……うーん。変換精度が今一つ、という感じである。ペーパーバックなので紙質が悪くて画像にノイズが多いというのもあるのだけど、辞書チェックをがっつりかけているわけでもないようなので、それが大きいかもしれない。まあ、とりあえず全て電子化する作業を終えたけれど、校正するのがこれから一苦労、ということになりそうなので、ABBYY FineReader Engine CLI for Linux の trial version をこれから試してみようか、と思案中である。

2010/12/30(Thu) 16:54:54 | コンピュータ&インターネット
Tittle: Name:

Profile

T.T.Ueda
Tamotsu Thomas UEDA

茨城県水戸市生まれ。

横山大観がかつて学んだ小学校から、旧水戸城址にある中学、高校と進学。この頃から音楽を趣味とするようになる。大学は、学部→修士→博士の各課程に在籍し、某省傘下の研究所に就職、その2ヵ月後に学位を授与される(こういう経緯ですが最終学歴は博士課程「修了」です)。職場の隣の小学校で起こった惨劇は未だに心に深く傷を残している。

その後某自動車関連会社の研究法人で国の研究プロジェクトに参画、プロジェクト終了後は数年の彷徨を経て、某所で教育関連業務に従事。

New Entries

Comment

Categories

Archives(890)

Link

Search

Free

e-mail address:
e-mail address