カテゴリ: インターネットとコンピュータ2

やたナビTEXTが30作品になったのを記念して、「やたナビTEXTとは何か」みたいなことを書こうとしていたら、匿名でこんなメールが来ました。
翻刻について調べてみたところ、自動で翻刻してくれるNDL古典籍OCR-Liteが無料で公開されていました。
古文の現代語訳も生成AIチャット(LLM)を使っての現代語訳が試みられているようです。
(漢文の翻訳は百度翻訳、Bing翻訳、Polytranslatorが対応しているみたいです)
現時点における翻刻や現代語訳の精度はわかりませんが、いつの日か日本古典が無料で気軽に読める日が来るのでしょうか?
ブログのネタにしてもいいということなので、ここで私見を述べたいと思います。

「日本古典が無料で気軽に読める」には、いくつかのレイヤーがあると思います。
  1. 写本や版本を現代使われている文字に起こした〈翻刻〉が読める。
  2. 翻刻を読みやすくした〈校訂本文〉が読める。
  3. 〈注釈付き校訂本文〉が読める。
  4. 〈現代語訳〉が読める。
これまでは、すべて人間が行わなければなりませんでした。しかし、今はAIがあります。古典の原文そのものに著作権はありませんので、AIの活躍が期待できるかもしれません。では、どのレイヤーでAIの活躍が見込めるでしょうか。

ここからはまったくの私見になります。私はAIの専門家ではないので、間違っているかもしれません。古典の電子テキストを作っている立場からこう見えているという程度に読んでいただければ幸いです。

1.翻刻
いただいたメールでも書かれているように、AIでいわゆる〈くずし字〉を翻刻するものがいくつか出ています。スマホアプリもいくつかあるようです。

しかし、現在のところはまだ発展途上です。江戸期の版本などはかなり正確に読んでもらえるようですが、写本や碑文などの手書きのものになると途端に精度が落ちるようです。なぜでしょうか。

私はこれらのソフトウェアが既存の文字をもとに〈文字〉そのものを読もうとしているからだと考えています。写本や版本で使われる変体仮名や漢字の草書は紛らわしい字が多いだけでなく、全く同じ字形になってしまうものもあります。これに書き手のクセが入ります。これらは文脈を考慮しないと読めません。

あくまで肌感覚ですが、文脈無視で読めるのは多く見積もっても全体の95%ぐらいです。95%というと高いように思えますが、100文字で5文字読み間違えるということですから、これでは実用になりません。

もしAIが作品の文脈を解析して文字を読むようになれば、この割合がかなり高くなると思います。これは解釈しながら読むということですから、これができれば次の校訂本文も作れると思います。

2.校訂本文
校訂という言葉の本来の意味は本文の間違いを正すことですが、読みやすい本文にするにはそれ以上にやっかいな問題があります。

写本や版本には特殊な場合を除き、句読点や鉤括弧などの役物、濁音・半濁音の記号がありません。段落も存在しません。さらに仮名を漢字になおす必要もあります。書かれた時代によって、仮名遣いを正確な歴史的仮名遣いに直す必要もあります。

次の文章は嵯峨本『伊勢物語』の冒頭を翻刻したものです。
むかしおとこうゐかうふりしてならの京かすかの里にしるよししてかりにいにけりそのさとにいとなまめいたる女はらからすみけりこのおとこかいまみてけりおもほえすふるさとにいとはしたなくてありけれは心地まとひにけり
嵯峨本は古活字本なので、文脈無視のAIでもかなりこれに近い翻刻ができると思います。しかし、AIがこれを出力しても、初見ですらすら読める人はなかなかいないと思います。写本や版本を読み慣れている人であれば、原本をそのまま読んだほうがまだ読みやすいでしょう。これでは「古典を気軽に読める」とはいえません。

これを校訂すると次のようになります。
昔、男、初冠して、平城の京春日の里にしるよしして、狩りに往にけり。その里に、いとなまめいたる女はらから住みけり。この男、かいま見てけり。おもほえず、古里にいとはしたなくてありければ、心地まどひにけり。
古文の教科書や注釈書の本文は、このようにして作られています。では、この作業をAIはできるでしょうか。

AIは人工知能ですから、人間にできることは当然できるはずです。しかし、人工知能である以上は人間と同じように学習する必要があります。

AIが現代の日本語を学習するために必要な「教材」は、ネット上に無数のリソースがありますし、どんどん増え続けていくでしょう。しかし、古典文学のテキストはそう多くありません。

つまり、AIが古典の校訂本文を作れるようになるために、もっともっと人間が電子テキストを作る必要があるということになります。仮名遣い・文法・語彙も時代やジャンルによって変化しますから、思っている以上にたくさんの教材が必要になります。AIが古典を読めるようになるために、人間がひたすらテキストを作る、これは大変な矛盾です。

3.注釈付き校訂本文
注釈とは言葉の意味や読解に必要な背景などを記したもので、どの言葉に付けるか、どう付けるかが問題になってくる極めて創造的なものですから、人間にしかできません。辞書的な言葉の意味くらいはできるようになるかもしれませんが、せいぜい辞書を引かなくてよくなる程度のことでしょう。

4.現代語訳
校訂本文の作成は、文章を一定の型におさめる役割があります。そのような型に収まった文章は、文法を理解し辞書が引ければ、ある程度訳すことはできます。古文の授業で文法をやたらとやるのも、そういう狙いがあります。

古語辞典や国語辞典はネット上にいくつも公開されています。断片的ですが現代語訳もあります。AIによる外国語の自動翻訳があたりまえになっていますから、校訂本文さえあればできると思います。

現代語訳というのは、上の1〜3の集大成で、さらに日本語のセンスが要求されますから、実はもっとも難しいことです。どんなに正確に訳したとしても、現代語訳する人によって、作品から受ける印象は変わってしまいます。

ですから、仮にAIが現代語訳できたとしても、「その作品を深く読みたい」というニーズには答えられないでしょう。しかし、「とりあえず内容が把握できればいい」というニーズには答えられるものができるのではないでしょうか。

以上のように、私はAIの教科書となる翻刻と校訂本文のテキストが増えないかぎり、「日本古典が無料で気軽に読める日」は来ないと考えています。現在のところは、そんな日を待つより人間の手でどんどん古典のテキストを作る方がよほど建設的です。

以上はあくまで私のポジション・トークです。コンピューターの進歩とともに、もっと度肝を抜くような変化があるかもしれません。もし私が作ったテキストがその役に立ったら望外の喜びです。そんな日が来るのを楽しみにしています。
このエントリーをはてなブックマークに追加

引っ越ししてから、どういうわけだかUPSの電源が入らなくなってしまった。amazonの購入履歴を見ると2017年11月に購入したとある。UPSの寿命は5〜6年らしいので、故障は仕方がないだろう。

UPSというのは「無停電電源装置」のことで、ようは停電した瞬間にバッテリーから交流100Vを供給する装置である。停電やブレーカーが落ちたときの保険みたいなものだから、無いと困るというものではない。バッテリーに繋がっていないコンセントは生きていたので、やたらでかいテーブルタップとして使っていた。

CyberPower無停電電源装置 (常時商用給電/矩形波出力) 375VA/255W CP375JP
CP375JP
ところが、先日のゲリラ豪雨で埼玉の実家が停電した。その後、大阪で大規模停電がおきた。なんだか停電が増えているような気がする。だんだん怖くなってきたので、UPSを買い換えることにした。

買ったのはCyberPowerのSX550UJP。今まで使っていたものよりもでかいが、これにしたのはSynologyのNAS(SynologyのNASを試してみた(その1):2017年07月21日参照。)と連動させることができるからである。

いままで使っていたのはコンパクトで安いのはいいのだが、PCやNASに連動する機能がなかった。何らかの原因で停電すると100Vを供給してくれるのだが、その間アラームが鳴るだけである。これでは僕がいないときに停電したら何の役にも立たない。今回買ったのはUSBでPCやNASとつなぐことにより、UPSのバッテリーが少なくなると自動的にシャットダウンしてくれる。

SX550UJP CyberPower UPS 無停電電源装置 常時商用給電 矩形波 550VA/330W:amazon

SX550UJP
というわけで繋いでみた。繋ぎ方は簡単、付属のUSBケーブルでUPSとNAS本体を繋ぐだけである。WindowsPCの場合は別途CyberPowerのソフトウェアをインストールする必要があるが、SynologyのNASは繋いだだけで認識してくれる。
UPS情報
あとはNASのコントロールパネルから設定すればいい。現在はバッテリーが少なくなるとスタンバイモードになるようにしている。Windowsの専用ソフトウェアだともっと細かい設定ができるらしい。
コンパネ

繋いだあとコンセントを抜いてテストしてみたところ、無事電源が供給されアラームが鳴るのを確認した。本当は自動的にシャットダウンされるところまでやってみたかったのだが、時間がかかるしそのあと充電しなきゃいけないのでやめた。

さて、古いUPSは捨てなければならないが、バッテリーは自動車のバッテリーと同じ鉛蓄電池なので、簡単に処分ができない。CyberPowerは同じメーカーの同等品であれば送料のみで引き取ってくれるので引き取りを依頼した。

バッテリの引き取り:CyberPower
このエントリーをはてなブックマークに追加

ちょっと古い話だが、今年に入ってから、amazonアソシエイト(アフィリエイト)が画像を配信する機能を停止した。そのため、かつてリンクを張っていたところはこんなふうになっている。リンクそのものも生きてはいない。
amazon書影リンク

現在、やたがらすナビの方はすべて削除して、新たに検索リンクを張ったのでもうこれは出ないが、このブログは修正しきれないので放置してある。特に古い記事にあるのはどうにもできない。

僕が書籍を紹介したときにamazonのリンクを使っていたのは、もちろんアフィリエイト収入がほしいからというのもあるが、それ以上に商品の画像(書影)が自動的に出たからである。

出版社のページへのリンクだと、形式がまちまちで、場合によっては書影がないこともある。絶版の本にはデータすらないこともある。また、書影の著作権もあって安易に紹介することもできない。書影を紹介するのもなかなか面倒なのだ。

書籍というものは中に書いてある内容が一番重要なのはいうまでもない。とはいえ、入手する前にすべてを読むことはできないから、それに題名と作者、出版社、刊行年月日、ISBNなどの情報が付く。本を特定するだけならこれで十分なのだが、生身の人間にとっては文字の情報だけで書籍を特定するのは難しい。

そこで書籍の外形の情報が必要になる。どのような装丁か、表紙には何が書かれているか、どのくらいの大きさか、これらは書籍を特定する重要な情報になる。amazonの書影で分かるのは表紙だけだが、それでもないよりは100倍ましなのである。

とくに古典の場合は、同じようなタイトルの本が複数出ている。場合によっては校訂者も出版社も同じだが、シリーズが違うということもある。表紙が見られればそんな場合でも一目瞭然で区別できる。

おそらく、商品画像を配信するコストと、それによるamazonの儲けが見合わなくなってきたのだろう。amazonも商売だから仕方がないが、書影のデータベースとしては便利だったのでとても残念である。
このエントリーをはてなブックマークに追加

最近、どうもブログでないものをブログと呼んでいるのをSNSで見かけるようになった。どうやら昔でいう個人サイトをブログと呼んでいるらしい。言葉の意味が時代によって変わるのは仕方のないことだが、この場合、あまりいいことではないように思うので、ちょっと苦言を呈させてもらうことにする。

ブログとは本来Web Log(ウェブログ)の略である。つまり、Web上に公開されたLog(日誌)という意味である。個人サイト全盛の時代、なぜだかみんな日記を書いた。これはどうも世界的な傾向だったらしく、「ならば自動的に日付が入るシステムを作っちまえ」ということで、ブログができた。

ブログは日誌だから、もっとも重要な情報はいつ書いたかということになる。あなたが今読んでいる「やた管ブログ」は紛れもなくブログなのだが、タイトルより前に日付が入っているのはそのためである。

そんな中、WordPressというブログシステムが出てきた。これはあまりに多機能かつ高機能だったため、ブログだけでなく一般的なウェブサイトを構築するためにも使われた。今ではWordPressはブログソフトウェアというよりもCMS(コンテンツ管理システム)と呼ぶべきだろう。このへんからどうもブログの意味が曖昧になってきたような気がする。

さらにSNSが隆盛し、個人サイトが下火になって、個人が作っているサイトを全部ひっくるめてブログと呼ぶ人が増えてきた。いわゆる「いかがですかブログ」の登場もそれに拍車をかけたのかもしれない。

しかし、日時が重要でないものや、ブログシステムで作られたものでないものをブログというのはどうにも違和感がある。それだけではない。単に個人が作ったサイトを「ブログ」と呼んで他のサイトと区別するなら、それは一種の差別だとすら思う。

やたがらすナビは現状僕一人で運営しているが、ブログではないし個人サイトのつもりもない。たまたま運営しているのが一人だというだけだ。はっきり言ってしまうと、担当者がいなくなるとページが消えてしまうようなどこかの機関サイトよりも、はるかに責任をもってサイトを運営している自負がある。

やた管ブログはまぎれもなくブログである。個人が書いているからブログなのではない。ブログシステムを使った日誌になっているからである。
このエントリーをはてなブックマークに追加

まずはこのスクリーンショットを見てほしい。こちらはGoogle。サイト名で検索しているので、当然やたがらすナビが冒頭に出てくる。
goole
そして、Bing。
bing
同じくサイト名で検索してるのに、冒頭に出てくるのはリンクしている別のサイト。冒頭どころかいくらスクロールしても下の方にも出てこない。これはURLで検索しても同じである。

マイクロソフトご自慢のAI、copilotに聞いてみると・・・。
copirot
ハァ?何言ってるの?適当なこと言わないでほしいな。

以前からこうだったわけではない。以前はむしろGoogleよりまともな結果を返してくる印象だった。それが半年ほど前からこの状態である。サイトまるごとBingにBanされたとしか考えられないのだが、サイトの方は更新した以外何もいじっていない。

とりあえず、Bing webmaster tools なるもので原因を調べてみた。
noindex
「いくつかの問題があるためにインデックス作成が妨げられています」だそうだが、問題が分からない。指示されたとおりBing Webmaster Guidelinesを見てみたが、心当たりのないことばかりである。

もちろん細かいHTMLの間違いなどないではないが、これでサイトまるごとBanでは通るサイトの方が少なくなるだろう。となれば内容だが、やたがらすナビは健全も健全、これ以上健全なものはないぐらいの古典文学サイトである。

結局、原因は不明のまま。もともとBing経由で来る人は多くなかったので、アクセス数にはそれほど支障はないが、あまり気持ちの良いものではない。

というか、オレMSの株主なんですけどー!株主のサイトBANすんなよ!
このエントリーをはてなブックマークに追加

今メインで使っているデスクトップパソコンが、作ってからちょうど10年経っていたことに気づいた。

僕の場合、あまり負荷のかからないブラウズとテキスト入力、写真の編集などがメインの用途だが、それなりに酷使しているので、まさか10年も使えるとは思わなかった。パソコンは2・3年で買い替えが必要だった時代を知っている身としては感慨深い。

このPC自体は1997年に買ったもので10周年どころか26年前のものだが、そのころのものはケースだけである。パーツが壊れるたびに買い替えて、パソコンを構成するもっとも重要な部品、マザーボード・CPU・メインメモリを更新してからちょうど10年になったのだ。

PC大改造終了(ハードウェア編):2013年09月16日

マザーボードもCPUも性能のいいものではなく、一番安いものを選んだ。というのは、僕の用途ではそれで十分で、長くても6年ぐらいでマザーボードかCPUのどちらかが壊れるだろうと思っていたからである。実際に壊れたのは、まだ発展途上だったSSDとCPUクーラーだけだった。

このときに、OSもWindowsXPからUbuntuに入れ替えた。ということはUbuntu歴10周年でもあるということだ。

PC大改造終了(ソフトウェア編):2013年09月21日

こちらは10年間で安定性が増し、現在ではOSに起因する不具合はほぼなくなった。とはいえ、Ubuntuもこのパソコンでは重くなってしまったので、去年から軽量な公式派生版のXubuntuを使っている。

Xubuntuにしたおかげで、再びストレスなく使えるようになった。PCゲーマーかYoutuberにでもならないかぎり、あと5年ぐらいはいけそうな気がする。壊れなければだけど。
このエントリーをはてなブックマークに追加

昨日の記事を書いたあとTwitterに投稿したら、なんだかヘンなXマークが出て、TwitterがXになってた。小鳥はどこにもいない。現在はPC版だけだが、いずれスマホアプリもXになるんだろう。青い小鳥はいきなりクビちょんぱにされてびっくりしている(いらすとやによる)。
bluebird_fired_text



URLは現在のところtwitter.comのままだが、x.comでもリダイレクトされるので、そのうち逆にtwitter.comがx.comにリダイレクトされるようになるかもしれない。

x.comなんてドメイン名、買収するのに相当金がかかるんだろうなと思ったら、もともとPayPalが持っていたドメインで、PayPalを作ったのはイーロン・マスクだから2000年頃から持っていたらしい。一文字.comなんて2000年でも誰か取っているはずなので、その時代でも相当なお値段だっただろう。

もうちょっと何か書こうと思っていたのだが、実は青い鳥に思い入れがあるわけでもないし、Webサービスなんてそんなもんだと思っているので、変わったということ以外とくに思うところはない。APIが有料化されたとか、ログインしないと見られなくなったとか、コミュニティノートとか、ここのところ仕様の変更が続くが、根っこのところを私企業に握られている以上、仕方がないことである。
このエントリーをはてなブックマークに追加

朝鮮学校の公式Twitterアカウント(@koreans_school)がすごい。

学校のアカウントだから、学校行事などがTweetの内容になるのだが、そこに特殊な思想を持った人が「ミサイルがどうの」「補助金がどうの」などと脈絡なく絡んでくる。こういういわゆるクソリプに、引用リツイートで丁寧に答えている。これはなかなかできることじゃない。

こういうクソリプを無視することは簡単だし、いくら丁寧に答えても特殊な思想を持った人がそれを捨てることはたぶんない。しかしTwitterはTweetした人とリプライや引用リツイートした人だけが読んでいるのではない。大事なことはTweetを読んでいるまともな人は、特殊な思想を持った人よりもずっと沢山いるということだ。

クソリプを引用リツイートすることにより、朝鮮学校が特殊思想家からどんな攻撃を受けているかよく分かる。特殊思想家がどんな間違った妄想や偏見から攻撃しているのかも分かる。特殊思想家の醜さもよく分かる。

特殊思想家に限らず、いわゆるアンチを相手にするのは大変だと思う。しかし、そのやりとりを見ているまともな人がたくさんいるということを忘れてはいけない。その多くは何の反応もしないが、ちゃんと見ているのだ。
このエントリーをはてなブックマークに追加

先日、二つめのTwitter Botを作ったのだが(日本の奇妙な説話Bot:2023年01月11日)、ひと月もたたないうちに永久凍結されてしまった。
Twitter違反奇妙
ついでに以前からある、面白説話Botの方も凍結された。
Twitter違反面白
Twitter社からのメールによると、「プラットフォームの悪用とスパムを禁止するルールに違反」しているらしい。
ご利用のTwitterアカウントは凍結されました
この二つのBotアカウントは、説話の内容を簡単に紹介してやたナビTEXTへのリンクをはるものである。自分のサイトに誘導しているのだから、いわれてみればSPAMといえなくもない。「情報を人為的に拡散」する行為なのだろう。

しかし、SPAMとは知らない相手にのべつまくなしにメールやメッセージを送り付けることである。SNSに書かれた記事は基本的にフォロアーが見るものだ。リツイートや検索でフォロアー以外の人が見ることもあるが、それはフォロアーなり検索なりのフィルターがかかっている。それをSPAMというのはちょっとおかしいんじゃないかとも思うが、管理者がそう判断したのでは従うしかない。

もちろん僕としてはSPAMを発信していたつもりは毛頭ない。ただ、生の古典の面白さを伝えたかっただけである。

なお、メインのアカウント(@yatanavi)の方は凍結されていないので、よろしくお願いします。
このエントリーをはてなブックマークに追加

夏休みのメンテナンス第二弾、今日はパソコンの掃除とケーブルのリストラをした。PC主要部に手を入れるわけではないので、これで動かなくなったりはしないはずだが、汗だのヨダレだの垂らすと一巻の終わりなので、頭に鉢巻き、口にはマスクで作業した。

まず、今回やることは、ケースを開けて内部を掃除することと、使っていないFDDドライブの代わりにカードリーダーを取り付けること、ケーブルのリストラをすることである。やることは単純だが、

まず本体ビフォー。
本体ビフォー
1997年に買ったパソコンなので、やたらとでかく重い。今の自作PCケースのように簡単には開かず、いくつものネジを外してやっと外れる。

中を見ると、予想通りCPUクーラーにホコリが溜まっている。
CPUクーラー(掃除前)
以前、この前のCPUクーラーをYoutubeにUPしたら、フォロアーなんかそんなにいないのに「汚い」だの「掃除しろ」だのコメントに書かれた(CPUクーラーのファン故障)。実は掃除した後の動画だったのだが、ちょっとショックだったので、もう少し頻繁に掃除しようと思った次第。

今のクーラーに換装したのが二年前なので、思ったほどは汚れていない。ブロアーで吹けば、すぐにきれいになった。CPUグリスも交換しようかと思ったが、まだ二年だから大丈夫だろう。もちろん他の部分もきれいにした。
CPUクーラー(掃除後)
次は3.5インチベイのFDDドライブを取り外し、カードリーダーを取り付ける。買ったのはこれ。マザーボードが古いのでUSB2.0である。お値段は1200円ほど。
カードリーダー

換装するためにボルト8本をはずして、ドライブが入っているケージを外さなくてはいけない。こんな感じ。
ベイケージ
なぜこんな面倒な仕組みなだろうと思っていたら思い出した。「横置きにも出来ますよ」というのが売りだったのだ。
横置きモード
当時は本体の上にディスプレイを置くのが一般的だったのだが、その当時でさえこんなバカでかい筐体を机の上で横置きにする人なんかいるのかと思ったものだ。

というわけで、取り付けるとこんな感じになった。DVDドライブとカードリーダーの間にあるのは、たんなる引き出しである。小さいのであまり入らないが、USBメモリとかSDカードなどが入れてある。
本体アフター
さて、もう一つの課題は、机の下のケーブルをリストラすることである。
ケーブルビフォー
ケーブルというものは、少しずつ増殖していく。増えるとホコリが溜まる上に掃除がしにくい。結束バンドでまとめるという方法もあるが、なぜかまとめた直後に外す必要が出てくる。

そんなわけでこんなふうになっちゃったのだが、この機会にあまり使わない機器のケーブルをはずし、使っているケーブルは机に付属しているケーブルダクトに隠すなどして、すっきりさせた。これでしばらく使ってみて、問題がなければ結束バンドで縛ってもう少しすっきりさせたい。
ケーブルアフター
書くとこの程度のものだが、なかなかしんどい仕事で一日かかってしまった。とりわけ、机の下に潜り込んで線を抜き差しするのが大変だった。このとき役に立ったものを紹介して終わりにする。

まず、ヘッドランプ。登山用具だが両手が開くので暗い所での作業に便利。防災用品としても使える。僕はずいぶん前に買ったペツルのジプカというのを使っている。


もう一つは、インラインスケートをするときに使うニーパッド。固い床にひざまずいても、まったく痛くならない。ちょっと暑苦しいけど。
ニーパッド

とりあえず、これで夏休みの宿題がまた一つ終わった。
このエントリーをはてなブックマークに追加

↑このページのトップヘ