青空文庫 PDF 化

青空文庫というプロジェクトがある。著作権切れ(一部著作権の切れていないものも含む)の文学作品を電子化・蓄積・公開する、というものだけど、ここでは電子化した文書を plain text と XHTML document というかたちで公開している。僕等がこの手の文章を読んだり使ったりする際には、たとえば PDF であると都合がいいのだけど、いきなり PDF で公開する、というのは、たしかにいささか能率が悪いと思う。

僕の場合は TeX を使うので、たとえばこんな風(gon.pdf)に PDF 化が容易(でもないかな……でもまあ、この程度には)にできる。今度、『ごん狐』はちょっと使う用事があるのでこんなものを作成したけれど、自動的に TeX document に変換するような方法は、ちょっと頭が回ればできないこともない。実際、齋藤修三郎氏が公開されているコンテンツ『青空文庫を読もう!』のアーカイブを使えば、pLaTeX と ruby でこの変換を実現することができる。

ただし、元となる青空文庫の document 仕様には、実は致命的な問題がひとつある。ルビの分かち書き、という概念が入っていないのだ。

どういうことかを具体的に示そう。ルビ(いわゆる「振り仮名」)というのは、特に戦前の文章を読む場合には非常に重要なものなわけだけど、青空文庫では、このルビを表示するのに、《》でルビを囲んで表示している。青空文庫でルビを用いている文書に必ず添付される例で示すと、

(例)私《わたし》
のように表示しているわけだ。この例のような場合はこれでよろしい。しかし、今回の『ごん狐』の場合で一例を挙げるなら、
火縄銃《ひなわじゅう》
のような場合はどうするのか、ということである。

何が問題なのか?と問われそうだけど、「火縄銃」に「ひなわじゅう」とルビをふる場合は、実際には「火」に「ひ」、「縄」に「なわ」、「銃」に「じゅう」とルビをふるのが適切なわけだ。だから、このような場合には、

火《ひ》縄《なわ》銃《じゅう》
と、ルビを各々の漢字との対応関係が明示されるように「分かち書き」しなければならないのだ。誤解なきように強調しておくけれど、本来の書籍における組版では、このように分かち書きされた状態でルビが付いているものである。「いやーその二つって実際に差があるの?とか言われそうなので、以下に二者の相違を示す:

ではなぜ、青空文庫ではそのようにしていないのか。これは容易に想像がつくのだけど、テキストをそのまま人間が読むときに、このような表記が煩雑で読みづらくなるからこうしましょう、と「安易に」決めてしまったのだろう。しかし、文学作品を電子化する旨味というものを考えると、電子書籍としての利用や全文検索だけでなく、いわゆるタイプセッティングシステムの俎上に、このような文書を容易に載せることができる、ということは決して無視できない。

テキストを人が眺めることしか考えずに、本来の組版において込められていたルビの「分かち書き」に関する情報を、青空文庫ではそぎ落としてしまっている。これは、後で人がいちいちチェックするか、分かち書きを失敗することを覚悟した上で、辞書を用いたシステムで改めて分かち書きを行う、という作業を経なければ、本来の組版が持っていた情報を回復できないことを意味している。

これ以外にも、青空文庫に関しては、その運営が独善的である、等の批判がある。文書を資源化するということは、大きな恩恵が得られる行為なのだから、どうかその本道をちゃんと考えていただきたいものだ。そして、自分が見るもの、見ること、見る方法だけで、世界が成り立っているわけではない、という謙譲の意志を、どうかちゃんと持っていただきたいものなのだが。

2011/01/12(Wed) 11:37:58 | コンピュータ&インターネット

Re:青空文庫 PDF 化

>分かち書きされたものを統合するのは機械処理でどうとでもなります

私がここで述べている全文検索というのは、作品個々に対しての検索ではなく、青空文庫の全作品に対し、ネット上から全文検索をかけることを指します。

現在、青空文庫に登録されたすべてのテキストは、googleなどの検索サイトを利用し、すべての作品に対し全文検索をかけることができます。
たとえば、 「火縄銃」 をキーワードに、google から青空文庫全作品に全文検索をかける方法は次のとおりです。
  火縄銃 site:aozora.gr.jp

実際に検索をかけてみたところ、 『ごん狐』 以外にも9作品がヒットしました。
( 『大菩薩峠』 の火縄銃《ひなわづつ》というルビは興味深いですね)

一方、ルビの分かち書きは 「機械処理でどうとでもなる」 というお話ですが、 「火《ひ》縄《なわ》銃《じゅう》」 というルビの振り方を採用した場合、 google のこうした利便性は、そのまま維持できるということでしょうか?

そちらでどういった機械処理の方法を考えられているのか、具体的な説明がないため、これ以上の話はできませんが。


ルビの分かち書きについては、 「活版印刷における慣習」 という面はこちらでも理解できます。
一方、子供たちへの学習効果や、著者の意向という面については、そちらのご説明では疑問が残りました。

そもそも、ルビの分かち書きに関しては、原本の情報が失われているわけではありません。
この点は重要なことです。

実際、100円ショップのダイソーで販売されている 『ダイソー文学シリーズ』 では、青空文庫のテキストデータを利用していますが、通常の書籍と同様ルビの分かち書きは行われています。
(興味深いことに、ルビの拗音・促音は小書きされています)

また、 「印刷における慣習」 ということを考えれば、たとえ著者や青空文庫がルビを分かち書きしていなくても、印刷に出せば印刷業者が 「慣習として」 ルビを分かち書きをするのが普通でしょう。

子供たちへの教育的配慮に関しても、子供たちと向き合う大人たちの責任で行うべき問題です。
テキストの選定や印刷、場合によっては、学習効果を高めるための加工なども必要かも知れません。
子供たちのために手間ひまを割く気持ちさえあれば、ルビの分かち書きまでふくめ、印刷業者でなくてもできることです。

結局は、そういった作業のコストを、青空文庫が負担するのか、利用者側が負担するのかという違いでしかありません。

青空文庫側で対応した方が、社会全体のコストは下がるという発想もあるかも知れませんが、それはルビの分かち書きを利用したいという人がどの程度いるのかにもよるでしょう。
あとは、冒頭でも指摘したよう、ルビの修正により、現在活用している利便性が失われないかどうかも大きな問題です。
guest(2011/02/28(Mon) 07:43:42)

Re:青空文庫 PDF 化

>  1.「火縄銃」というキーワードで全文検索しづらくなる

こういうことの為にコンピュータがあるのです。分かち書きされたものを統合するのは機械処理でどうとでもなります。

>   2.分かち書きしたルビが煩雑でテキストが読みにくくなる

これも、読み易くするための再整形は機械処理でどうとでもなりますね。

  3.ルビの分かち書きを情報として残すメリットが明確でない

ルビは(少なくとも戦前の活版印刷などにおいては)、慣用的に単語全体にふられるのか、それとも個々の漢字毎にふられるのか、が区別されます。たとえば小学生に教科書で『ごん狐』を提示する場合、「火縄銃」の読みに児童が初めてそこで触れる可能性が高いわけで、ルビの効用(漢字の読みの範囲を拡張する)と学習効果を考えた場合、どの漢字にどのような読みが対応しているのか(「火」=「ひ」はともかく、「縄」を「なわ」、「銃」を「じゅう」と読むことにここで初めて触れる可能性は大いにあるでしょう)、をいい加減にすることは、これはあまりに教育的配慮を欠いているでしょう。

この差と、それを混同することで失われる情報が理解できないなら、この議論をすること自体不毛ですね。

特に青空文庫に収録されているような、著者が故人である文学作品の場合、特に古い原本の場合には、作者自身によるゲラのチェックを経由したルビである可能性が高いわけで、それが持つ情報は、失うことがないように配慮されるべきでしょう。
Thomas(2011/02/26(Sat) 21:05:01)

Re:青空文庫 PDF 化

2/22 にコメントした者です。
以下、(青空文庫ではなく)私個人の意見と感想を記しておきます。

>電子化する際にはオリジナルのテキストの持つ情報は余さず電子化すべきである

おそらく上の意見には、賛成と反対の立場が出てくるだろうと思います。

たとえば私自身は、「火《ひ》縄《なわ》銃《じゅう》」 というルビの振り方には反対です。
理由は次の3点です。
  1.「火縄銃」というキーワードで全文検索しづらくなる
  2.分かち書きしたルビが煩雑でテキストが読みにくくなる
  3.ルビの分かち書きを情報として残すメリットが明確でない

仮にルビを分かち書きするにしても、火縄銃《ひ なわ じゅう》のように、ルビの《》中にスペースなどの区切りを入れるなど、もう少し別なルールを考えた方が良いでしょう。


そもそも、 「オリジナルのテキストの持つ情報」 とは何か?
その点についても、もう少し考える必要がありそうです。
そこには、次のような3種類の段階が考えられるからです。
 (1) 著者が読者に伝えようとしているテキスト情報
 (2) 編集者が新たに付け加えたテキスト情報
 (3) デザイナーによる活字やレイアウトなどの情報

原理原則として、私自身は (1) の 「著者が読者に伝えようとしている情報」 が、テキストとして守られていれば良しと考えています。

(2) に関しては、難読語へのルビの追加や漢字のカナへの開き方、正字正仮名を現代表記に改めるなど、出版社や編集の方針により、テキストのかたちは異なってくるでしょう。
後述しますが、このことは電子化するさいの底本選びにも関わってくる問題です。

(3) については、(著者とは別に)デザイナーの著作権が発生する可能性があるため、青空文庫では立ち入らない方針になっているはずです。


ところで、実際の書籍には、予想以上に誤記や誤植が含まれています。
しかも、テキストのレベルや信頼度は、出版社の編集や校訂の力量によっても異なってきます。
そのため、どれが著者本来の意図した記述なのか、判然としないようなケースも発生します。

初版本が、より著者のオリジナルのテキストに近い、というのもアテになりません。
私のケースでは、自分の手がけた作品に不明な個所が数多くあったため、明治30年代(約100年前)に出た初版本を、文学館まで確認しに出かけたこともあります。
ところが、その初版本は(登場人物の会話が入れ替わっていたりと)誤植だらけで、まったく参考にならないものでした。
結局、くだんの底本では、テキスト入力時に70ヵ所近い誤りを見つけ訂正しました。

ひとくにち 「オリジナルのテキストの持つ情報」 といっても、結局は、電子化するさいに選んだ、底本の編集や校訂のレベルにすべてが引きずられてしまう、というのが実際の経験から得た感想です。

青空文庫では、底本選びは入力者個人の裁量に任されています。
おおざっぱには、次の3種類の方針が共存していると考えてよいでしょう。
  1.信頼度の高い個人全集を底本にする
  2.より出版当時に近い、正字正仮名の古い書籍を底本にする
  3.現在の若者にも読みやすい文庫本を底本にする


現在、著作権の切れた古い作品は、国立図書館でも公開されています。
こちらは画像による公開なので、「オリジナルのテキストの持つ情報」がそのまま反映されています。
幸田露伴や樋口一葉の作品など、明治の出版物の味わいが興味をひきます。
ただし、読みやすさに関してはいまひとつですが。

近代デジタルライブラリー
http://kindai.ndl.go.jp/
guest(2011/02/25(Fri) 23:33:08)

Re:青空文庫 PDF 化

コメント有り難うございます。

僕がここで問題にしているのは、煩雑なタイプセッティングやデータベース化等は外部ソフトを書けばどうにでもなるんだけど、欠落した情報を回復することはできませんよ、無から有は生み出せないんですよ、ということです。最近はルビというのはとかく軽視されがちで、ここで書いているルビの分かち書きなども結構いい加減です。

# これは活版印刷がほぼ絶滅し、オフセット組版が一般化
# した影響が大きいでしょうけれど。

しかし、かつての活版印刷の黄金期、ルビが重要視されていた時代のテキストを見ると、ちゃんとこの問題に配慮されているわけです。つまり、そこには漢字の読みと分かち書きにおける情報が付与されていたのです。それを無批判にそぎ落とすのはいかがなものか、という話をしているわけです。

どれだけ簡素で、無骨なルールでも結構、でも電子化する際にはオリジナルのテキストの持つ情報は余さず電子化すべきである、ということを言いたいわけです。この点において、ここで指摘した問題はやはり大きな穴だと言わざるを得ません。
Thomas(2011/02/23(Wed) 19:58:53)

Re:青空文庫 PDF 化

つづきです。(途中で送信してしまいました)

あと、視覚障害者などが、音声読み上げソフトで利用することも考慮しています。

要は、 「テキストを人が眺めることしか考えず」 にいたというよりは、はっきりした意図をもって 「誰もがすぐに読めるテキスト」 を採用したというわけです。

私自身は、青空文庫の作業に割く時間がとれなくなってしまったため、手伝いを辞めてしまいましたが、機会があれば、青空文庫の校正や変換ツールソフトの制作などで、いつかまた関わることができたらいいなと考えています。
guest(2011/02/22(Tue) 18:40:24)

Re:青空文庫 PDF 化

青空文庫で作品入力や校正作業に関わったことのある者です。

青空文庫は、当初、次のような点を重視していたようです。
  ・パソコン画面で誰もが簡単に読めるテキスト
  ・素人集団によるボランティア作業なので、できるだけルールは簡素にする
  ・青空文庫のテキストはあくまでも素材
   組版など複雑なことは利用者側にやってもらう
  ・サイト内を全文検索しやすいよう、できるだけプレーンなテキストにしておく

guest(2011/02/22(Tue) 18:13:40)
Tittle: Name:

Profile

T.T.Ueda
Tamotsu Thomas UEDA

茨城県水戸市生まれ。

横山大観がかつて学んだ小学校から、旧水戸城址にある中学、高校と進学。この頃から音楽を趣味とするようになる。大学は、学部→修士→博士の各課程に在籍し、某省傘下の研究所に就職、その2ヵ月後に学位を授与される(こういう経緯ですが最終学歴は博士課程「修了」です)。職場の隣の小学校で起こった惨劇は未だに心に深く傷を残している。

その後某自動車関連会社の研究法人で国の研究プロジェクトに参画、プロジェクト終了後は数年の彷徨を経て、某所で教育関連業務に従事。

New Entries

Comment

Categories

Archives(896)

Link

Search

Free

e-mail address:
e-mail address