やたナビTEXTが30作品になったのを記念して、「やたナビTEXTとは何か」みたいなことを書こうとしていたら、匿名でこんなメールが来ました。
「日本古典が無料で気軽に読める」には、いくつかのレイヤーがあると思います。
ここからはまったくの私見になります。私はAIの専門家ではないので、間違っているかもしれません。古典の電子テキストを作っている立場からこう見えているという程度に読んでいただければ幸いです。
1.翻刻
いただいたメールでも書かれているように、AIでいわゆる〈くずし字〉を翻刻するものがいくつか出ています。スマホアプリもいくつかあるようです。
しかし、現在のところはまだ発展途上です。江戸期の版本などはかなり正確に読んでもらえるようですが、写本や碑文などの手書きのものになると途端に精度が落ちるようです。なぜでしょうか。
私はこれらのソフトウェアが既存の文字をもとに〈文字〉そのものを読もうとしているからだと考えています。写本や版本で使われる変体仮名や漢字の草書は紛らわしい字が多いだけでなく、全く同じ字形になってしまうものもあります。これに書き手のクセが入ります。これらは文脈を考慮しないと読めません。
あくまで肌感覚ですが、文脈無視で読めるのは多く見積もっても全体の95%ぐらいです。95%というと高いように思えますが、100文字で5文字読み間違えるということですから、これでは実用になりません。
もしAIが作品の文脈を解析して文字を読むようになれば、この割合がかなり高くなると思います。これは解釈しながら読むということですから、これができれば次の校訂本文も作れると思います。
2.校訂本文
校訂という言葉の本来の意味は本文の間違いを正すことですが、読みやすい本文にするにはそれ以上にやっかいな問題があります。
写本や版本には特殊な場合を除き、句読点や鉤括弧などの役物、濁音・半濁音の記号がありません。段落も存在しません。さらに仮名を漢字になおす必要もあります。書かれた時代によって、仮名遣いを正確な歴史的仮名遣いに直す必要もあります。
次の文章は嵯峨本『伊勢物語』の冒頭を翻刻したものです。
これを校訂すると次のようになります。
AIは人工知能ですから、人間にできることは当然できるはずです。しかし、人工知能である以上は人間と同じように学習する必要があります。
AIが現代の日本語を学習するために必要な「教材」は、ネット上に無数のリソースがありますし、どんどん増え続けていくでしょう。しかし、古典文学のテキストはそう多くありません。
つまり、AIが古典の校訂本文を作れるようになるために、もっともっと人間が電子テキストを作る必要があるということになります。仮名遣い・文法・語彙も時代やジャンルによって変化しますから、思っている以上にたくさんの教材が必要になります。AIが古典を読めるようになるために、人間がひたすらテキストを作る、これは大変な矛盾です。
3.注釈付き校訂本文
注釈とは言葉の意味や読解に必要な背景などを記したもので、どの言葉に付けるか、どう付けるかが問題になってくる極めて創造的なものですから、人間にしかできません。辞書的な言葉の意味くらいはできるようになるかもしれませんが、せいぜい辞書を引かなくてよくなる程度のことでしょう。
4.現代語訳
校訂本文の作成は、文章を一定の型におさめる役割があります。そのような型に収まった文章は、文法を理解し辞書が引ければ、ある程度訳すことはできます。古文の授業で文法をやたらとやるのも、そういう狙いがあります。
古語辞典や国語辞典はネット上にいくつも公開されています。断片的ですが現代語訳もあります。AIによる外国語の自動翻訳があたりまえになっていますから、校訂本文さえあればできると思います。
現代語訳というのは、上の1〜3の集大成で、さらに日本語のセンスが要求されますから、実はもっとも難しいことです。どんなに正確に訳したとしても、現代語訳する人によって、作品から受ける印象は変わってしまいます。
ですから、仮にAIが現代語訳できたとしても、「その作品を深く読みたい」というニーズには答えられないでしょう。しかし、「とりあえず内容が把握できればいい」というニーズには答えられるものができるのではないでしょうか。
以上のように、私はAIの教科書となる翻刻と校訂本文のテキストが増えないかぎり、「日本古典が無料で気軽に読める日」は来ないと考えています。現在のところは、そんな日を待つより人間の手でどんどん古典のテキストを作る方がよほど建設的です。
以上はあくまで私のポジション・トークです。コンピューターの進歩とともに、もっと度肝を抜くような変化があるかもしれません。もし私が作ったテキストがその役に立ったら望外の喜びです。そんな日が来るのを楽しみにしています。
翻刻について調べてみたところ、自動で翻刻してくれるNDL古典籍OCR-Liteが無料で公開されていました。ブログのネタにしてもいいということなので、ここで私見を述べたいと思います。
古文の現代語訳も生成AIチャット(LLM)を使っての現代語訳が試みられているようです。
(漢文の翻訳は百度翻訳、Bing翻訳、Polytranslatorが対応しているみたいです)
現時点における翻刻や現代語訳の精度はわかりませんが、いつの日か日本古典が無料で気軽に読める日が来るのでしょうか?
「日本古典が無料で気軽に読める」には、いくつかのレイヤーがあると思います。
- 写本や版本を現代使われている文字に起こした〈翻刻〉が読める。
- 翻刻を読みやすくした〈校訂本文〉が読める。
- 〈注釈付き校訂本文〉が読める。
- 〈現代語訳〉が読める。
ここからはまったくの私見になります。私はAIの専門家ではないので、間違っているかもしれません。古典の電子テキストを作っている立場からこう見えているという程度に読んでいただければ幸いです。
1.翻刻
いただいたメールでも書かれているように、AIでいわゆる〈くずし字〉を翻刻するものがいくつか出ています。スマホアプリもいくつかあるようです。
しかし、現在のところはまだ発展途上です。江戸期の版本などはかなり正確に読んでもらえるようですが、写本や碑文などの手書きのものになると途端に精度が落ちるようです。なぜでしょうか。
私はこれらのソフトウェアが既存の文字をもとに〈文字〉そのものを読もうとしているからだと考えています。写本や版本で使われる変体仮名や漢字の草書は紛らわしい字が多いだけでなく、全く同じ字形になってしまうものもあります。これに書き手のクセが入ります。これらは文脈を考慮しないと読めません。
あくまで肌感覚ですが、文脈無視で読めるのは多く見積もっても全体の95%ぐらいです。95%というと高いように思えますが、100文字で5文字読み間違えるということですから、これでは実用になりません。
もしAIが作品の文脈を解析して文字を読むようになれば、この割合がかなり高くなると思います。これは解釈しながら読むということですから、これができれば次の校訂本文も作れると思います。
2.校訂本文
校訂という言葉の本来の意味は本文の間違いを正すことですが、読みやすい本文にするにはそれ以上にやっかいな問題があります。
写本や版本には特殊な場合を除き、句読点や鉤括弧などの役物、濁音・半濁音の記号がありません。段落も存在しません。さらに仮名を漢字になおす必要もあります。書かれた時代によって、仮名遣いを正確な歴史的仮名遣いに直す必要もあります。
次の文章は嵯峨本『伊勢物語』の冒頭を翻刻したものです。
むかしおとこうゐかうふりしてならの京かすかの里にしるよししてかりにいにけりそのさとにいとなまめいたる女はらからすみけりこのおとこかいまみてけりおもほえすふるさとにいとはしたなくてありけれは心地まとひにけり嵯峨本は古活字本なので、文脈無視のAIでもかなりこれに近い翻刻ができると思います。しかし、AIがこれを出力しても、初見ですらすら読める人はなかなかいないと思います。写本や版本を読み慣れている人であれば、原本をそのまま読んだほうがまだ読みやすいでしょう。これでは「古典を気軽に読める」とはいえません。
これを校訂すると次のようになります。
昔、男、初冠して、平城の京春日の里にしるよしして、狩りに往にけり。その里に、いとなまめいたる女はらから住みけり。この男、かいま見てけり。おもほえず、古里にいとはしたなくてありければ、心地まどひにけり。古文の教科書や注釈書の本文は、このようにして作られています。では、この作業をAIはできるでしょうか。
AIは人工知能ですから、人間にできることは当然できるはずです。しかし、人工知能である以上は人間と同じように学習する必要があります。
AIが現代の日本語を学習するために必要な「教材」は、ネット上に無数のリソースがありますし、どんどん増え続けていくでしょう。しかし、古典文学のテキストはそう多くありません。
つまり、AIが古典の校訂本文を作れるようになるために、もっともっと人間が電子テキストを作る必要があるということになります。仮名遣い・文法・語彙も時代やジャンルによって変化しますから、思っている以上にたくさんの教材が必要になります。AIが古典を読めるようになるために、人間がひたすらテキストを作る、これは大変な矛盾です。
3.注釈付き校訂本文
注釈とは言葉の意味や読解に必要な背景などを記したもので、どの言葉に付けるか、どう付けるかが問題になってくる極めて創造的なものですから、人間にしかできません。辞書的な言葉の意味くらいはできるようになるかもしれませんが、せいぜい辞書を引かなくてよくなる程度のことでしょう。
4.現代語訳
校訂本文の作成は、文章を一定の型におさめる役割があります。そのような型に収まった文章は、文法を理解し辞書が引ければ、ある程度訳すことはできます。古文の授業で文法をやたらとやるのも、そういう狙いがあります。
古語辞典や国語辞典はネット上にいくつも公開されています。断片的ですが現代語訳もあります。AIによる外国語の自動翻訳があたりまえになっていますから、校訂本文さえあればできると思います。
現代語訳というのは、上の1〜3の集大成で、さらに日本語のセンスが要求されますから、実はもっとも難しいことです。どんなに正確に訳したとしても、現代語訳する人によって、作品から受ける印象は変わってしまいます。
ですから、仮にAIが現代語訳できたとしても、「その作品を深く読みたい」というニーズには答えられないでしょう。しかし、「とりあえず内容が把握できればいい」というニーズには答えられるものができるのではないでしょうか。
以上のように、私はAIの教科書となる翻刻と校訂本文のテキストが増えないかぎり、「日本古典が無料で気軽に読める日」は来ないと考えています。現在のところは、そんな日を待つより人間の手でどんどん古典のテキストを作る方がよほど建設的です。
以上はあくまで私のポジション・トークです。コンピューターの進歩とともに、もっと度肝を抜くような変化があるかもしれません。もし私が作ったテキストがその役に立ったら望外の喜びです。そんな日が来るのを楽しみにしています。
コメント
コメント一覧 (4)
問題は、「何のために?」ということかと思います。
古典を気軽に読みたいと思うのはもちろん一般の人でしょう。が、一般の人にとって、注釈書の出ている作品を、写本を翻刻して読まなければならないケースはまず考えられません。
また、写本を苦労して読む趣味のある人は、AIに読んでもらう必要はありません。手助けのためとしても注釈書の方が有用でしょう。
そう考えると、気軽に古典を読むためにAIが写本を翻刻することにニーズはほとんどないと思います。
あるとしたら、専門家が、間違いはあるがそこそこ合っている翻刻本文をAIに作らせて、それを元に自分の目で見て修正を入れて正しい本文を作る、というところでしょうか。
これまで弟子がやっていた作業をAIがやってくれる――安上がりだし時間も掛からない、という時代は来るのかもしれません。そういう意味では、精度の向上が期待されるところではあります。
中川聡@やたナビ
が
しました
とはいえ大抵の場合は、既に出ている良質な入門書や(抄訳・全訳問わず)現代語訳を購入するか図書館で借りるかしたほうがいいと思う
(一番の問題は古典の入門書や現代語訳が多すぎる上に、複数の入門書や現代語訳を比較したレビューが少ないので、どれを買えばいいかわかりにくいことだが)
『南総里見八犬伝』のように全訳の現代語訳がほとんどない作品ならAI現代語訳に挑戦してみる価値はあるかもしれない
中川聡@やたナビ
が
しました