難読文書

日頃からコンピュータを道具として使っているので、文書を電子化する必要が生ずることがしばしばあるのだけど、単語集のような本の巻末索引を電子化する必要が生じて、土曜日からちょこちょこと作業をしていた。

最近は「自炊」という言葉も定着して、本などを PDF 化する人も確実に増えている。そういう人だったら、そんなの OCR で楽勝じゃん、で終わりそうなのだけど、今回の索引はそうもいかなかったのだ。

そもそも、日本語と欧米系言語が混在している文書は、OCR で誤変換されることが少なくないのだけど、今回の文書の場合、まず欧米文字の部分に複数の書体が使用されていて、それに加えて発音記号まで(あ゛あ゛あ゛あ゛あ゛)書かれているのだ……土曜日に、試しに全てのページを 600 dpi の TIFF に変換して OCR をかけてみたけれど、いやーもう、何が何だか……というような状態であった。さあ、どうしよう。

まあ、こういうときには、手で入力できそうな量だったら、覚悟を決めて手で入力する方が速いのだろう。問題は、諦める閾値がどの辺りにあるのか、ということだけど……今回の文書は、エントリ数が千数百……うーむ、まあ、覚悟してやりますか。

ということで、がーっと入力する。こういうときには SKK は本当に便利で、英語と日本語の切り替えもスムースだし、誤変換に苛立たされることもない。しかし、まあ、数が数だから……昨日の午後の時間を一杯一杯使って、どうにかこうにか入力し仰せた。

さて、入力したこの文書を、どのような形式にしておこうか……手元では LibreOffice のフォーマットに変換してから、ソートをかけたりスペルチェックをかけたりする(まあ入力段階で既にチェックはかかっているのだが)。しかし、今回はこの文書を何人かの人に配布しなければならない。うーん……まあ、こういうときは Excel 2000 辺りの形式にしておいたら無難なのだろう、ということで、LibreOffice でエクスポートして、ファイルをメールで配布した。

しかしなあ……たとえば、最近は、子供の教科書を親がもう1冊づつ買って、自費で買った分を裁断して PDF 化する……なんてことがあるらしい。そういう人達は、どうやって記述の内容を電子化するのだろう? 英語の教科書なんて、今回の僕が扱った文書どころではない程に、OCR で処理し難いのではないかと思うのだが……それとも iPad で見られればそれでいい、って話なの? そういうのを電子化とは言わないように思えるのだけど……

2012/04/16(Mon) 13:02:26 | 日記
Tittle: Name:

Profile

T.T.Ueda
Tamotsu Thomas UEDA

茨城県水戸市生まれ。

横山大観がかつて学んだ小学校から、旧水戸城址にある中学、高校と進学。この頃から音楽を趣味とするようになる。大学は、学部→修士→博士の各課程に在籍し、某省傘下の研究所に就職、その2ヵ月後に学位を授与される(こういう経緯ですが最終学歴は博士課程「修了」です)。職場の隣の小学校で起こった惨劇は未だに心に深く傷を残している。

その後某自動車関連会社の研究法人で国の研究プロジェクトに参画、プロジェクト終了後は数年の彷徨を経て、某所で教育関連業務に従事。

New Entries

Comment

Categories

Archives(898)

Link

Search

Free

e-mail address:
e-mail address