2006年08月31日 16:30 [Edit]

Google Book Search の技術力

そのGoogle Book Searchを使ってみたのだが、その技術力に感銘をうけた。

「Google Book Search」、一部書籍の無償配布を開始 - CNET Japan
Googleは米国時間8月30日、書籍をスキャンして作成したPDFファイルの提供をGoogle Book Searchで開始したことを発表した。ファイルは無償でダウンロードおよびプリントすることができる。

今回のNewsでは、Public Domainになっている書籍のPDF版ダウンロードだが、こちらの方は技術的にはNo News。

凄いのは、検索をかけた時に、書籍の画像をリアルタイムで編集して、検索語をハイライトしていること。

例えば、"Dan Kogai"で検索をかけると、Writing Apache Modules With Perl and CのPage 685とAdvanced Perl Programming (2nd Ed.)のPage 184が引っかかる。後者の方は残念ながら"This page is unavailable for viewing"だが、前者の方はそのPage 685に、"Dan"と"Kogai"にハイライトがかけられた画像が表示される。

最初これを見た時には、CSSで長方形のオブジェクトを背景となるページ画像かぶせているのかと思ったのだが、そうではなく、元となるページの画像にハイライトを合成して画像を生成していることがちょっとした解析でわかる。

これからわかるのは、Googleは、単に元となる画像とOCR経由のテキストデータだけではなく、どの文字がどの位置にあるかという情報まで保持しているということ。しかもこれだけのデータから、一瞬にして必要な画像を生成しているのである。改めてGoogleの技術の底力を見せつけられた。

しかし、その一方で、折角デジタル化して使いやすくなった情報を、わざわざ画像にして再利用性を低めていることに、Googleの社会力の欠如もまた見えるような気がする。もちろんその主たる理由は、著作権の保護ということにはなるのだろうが、むしろこの技術力を活かすためには「著作権2.0」を提案し、オールドメディアの人々に根気よくそれを訴えるべきではないのだろうか?

特にPublic Domainの書籍に関しては、PDFもありがたいがむしろPlain Text/HTML版を提供してくれた方が可用性も上がる。古典からの孫引きでなく直接引用が可能となったはずなのに、かなり残念である。

Dan the Searche(r|d)

追記:hyukiさん、typoの指摘ありがとうございます。


この記事へのトラックバックURL

この記事へのコメント
きっと、OCRした結果を透明テキスト付きPDFで保存しているのではないでしょうか?
そうすれば、例えばAdobeReaderを使ってハイライト表示は可能です(ページ先頭からの文字数を記憶しておく必要はありますが)。
Posted by pdf at 2006年09月01日 01:16
目から鱗です。
そうか。検索には必ずしも100%テキストにする必要はないんだ。
印刷物をOCRするのって案外認識率が良いけど(特に英語は)、100%ではない。だけれど、検索にはそれでかなり要足りるんだ。なるほど。
Posted by abu at 2006年08月31日 22:16
画像で提供している理由は、上記の理由に加えて、
OCRによる文字認識の精度が100%ではないので
そのまま出力すると謎の文字(罫線が | という文字になるなど)や文字化けが
大量に含まれた文書になってしまうという点もあるのかと思われます。

検索キーワードとして使うには充分でも「これがテキストですよ」と
言って渡すにはクオリティが低いという状態ではないでしょうか。
Posted by mrwk at 2006年08月31日 19:33
画像で提供している理由は、上記の理由に加えて、
OCRによる文字認識の精度が100%ではないので
そのまま出力すると謎の文字(罫線が | という文字になるなど)や文字化けが
大量に含まれた文書になってしまうという点もあるのかと思われます。

検索キーワードとして使うには充分でも「これがテキストですよ」と
言って渡すにはクオリティが低いという状態ではないでしょうか。
Posted by mrwk at 2006年08月31日 19:00
著作権2.0を突然唱えること自体は問題ないと思いますが、それを現行の著作権法に抵触する行動と共に行ってしまい容疑者とされたWinny作者もいます。
とりあえず現行法に触れないよう行動するのはGoogleが営利企業である以上仕方ないんじゃないでしょうか。
Posted by tagomoris at 2006年08月31日 18:31