2005年04月22日

検索エンジンと日本語

何とはなく言葉を、グーグルの検索キーワード欄へ記入してみると、それは博識なる結果が表示され、雑学というか言葉の意味を知るには格好のやり方かも知れない。いや学ぶつもりなど不要で、退屈しのぎの一興としてやるから余計に面白い。

たのしい検索・ゆかいな検索というBLOGは、まさにそんな楽しみを教えてくれる文字通りたのしいBLOGなのである。

物書きの仕事が増え始めた頃、そう云えば言葉──日本語の語彙に興味を持ち、メクラ滅法に「広辞苑」を開いては読んでみた事があった。あまり面白くはなかったが、『へ〜、そうなんだ』と感心する機会は多かった。

ところで、インターネットの検索エンジンを用いる際、多くは「語句検索」と分類された機能を使っているのだけれど、英語圏で開発されたエンジンにおいて、日本語に対するアルゴリズムは、どんな案配になっているのだろうか。ふと、疑問に思うのだった。

英語の場合、単語と単語の間にはブランクがあり、名詞や動詞、形容詞などの間にある助詞の扱いが日本語とは異なる。一方でサーチエンジンは、ブランクにも機能的な意味合いがあり、単語を続けた場合と単語間にブランクを入れた場合では、異なる検索結果が表示される。

はとえば、「岩国の洋服屋」と「岩国 の 洋服屋」と「岩国洋服屋」と「岩国 洋服屋」は、検索結果が異なる。

サーチエンジンは助詞を判定していると見受けられるのだけれども、複雑な漢字と文法を持つ日本語は、もしかすると不得手なのかも知れないねえ。

ためしに助詞の「の」だけを探してみたら・・・。
(の の検索結果 約 434,000,000 件!)

foujitas at 08:38コメント(2)TB(0) 
グーグルの広告です

トラックバックURL

コメント一覧

1. Posted by 茅須まいる   2005年04月23日 11:39
こんにちは(^-^)
この度はワンエントリ割いての当ブログ紹介をありがとうございます。

茅須もネットがこんなに普及する前、よく百科事典を開いてはトリビアの泉のごとく「へぇ〜」を連発していたクチですので(^^;そういう習性が現在のこのような形のブログに直結しているのだと思います(苦笑)
三つ子の魂百までとはよく言ったものです(笑)

検索って巨大なおもちゃ箱みたいで飽きません。
そんなこと考えているのは茅須だけかもしれませんが〜〜〜(苦笑)

他のエントリも読んでみてとても気に入りましたので、こちらにはまた遊びに来ますね。そのときはよろしくお願いします(^-^)
2. Posted by foujitas   2005年04月23日 16:37
これは、どうも。^^
面白いBLOGだったので、ついネタにしてしまいました。
私も興味津々。RSSでリンクさせていただきました。
これからもどうぞよろしくお願いしますね。

コメントする

名前
URL
 
  絵文字
 
 
BLOG foujitas
高島回顧録


ADMIN


必読オススメBLOG(^^)

いろいろ報告…錦帯橋

【プロフィール】
ふじたのぶお


最新のコメント
  • ライブドアブログ