noriinu 検索エンジンの話題logo


検索エンジンでのキーワードとは
 インターネット上の全文検索エンジンでは、検索キーワードはどのように検索されるのでしょうか。注意すべき点は、文字列さえページ上にあれば検索されるのではないということです。
 たとえば、「絵」で検索して、「絵画」の文字が入っているページが検索されるでしょうか。ほとんどの検索エンジンでは検索されません。(注1)一般に検索エンジンのキーワードの構造は以下のようになっています。

(1) 形態素解析
 ページ上のテキスト部分を形態素解析(文字列のどこからどこまでが何の品詞かを解析する)して区切りをつける
 例:吾輩は猫である。名前はまだない。(www.xxx.co.jp)
        ↓
   吾輩/は/猫/で/ある/。/名前/は/まだ/ない/。
   (代名詞/格助詞/名詞/格助詞/動詞/句点/名詞/格助詞/副詞/動詞/句点)

(2) インデクシング
 切り分けた単語を索引する。単語ごとに、それが入っているページのURLと単語の位置(何文字目にあたるか)をリストしていく。(単純に漢字コード順に並べる他、高速に検索できるよう、エンジンによっていろいろ工夫しているようです)

 例:
  名前 ->www.vvv.co.jp;22,www.xxx.co.jp;9,...
  猫  ->www.xxx.co.jp;9,www.yyy.co.jp;133,...
  :

(3) 検索
 与えられたキーワードを形態素解析し、それぞれを索引で合致する単語の後ろのリストにあるURLを引き出す。複数の単語の場合、その単語の位置と引き当てる。

 従来の日本語のデータベースは名詞だけを取り出すものが多く、上記の例は「吾輩」「猫」「名前」でだけしか検索できませんでした(注2)が、インターネット上の検索エンジンは品詞をすべて検索できるようにしています。だから、「吾輩は猫である」「は猫である」「まだない」なども引けます。
 しかし、あくまで単語単位なので、「吾輩は猫であ」「前はまだない」といった単語の途中で切った文字列では検索できません。(注3)
 

注1:純粋に文字列一致検索できるのは、「NACSIS Web Search」(以前は独自で検索エンジンだったOpen Text Indexを利用しているページ)、ディレクトリ系検索ページで「Yahoo!Japan」(松下の検索エンジンPanaSearchを利用している)くらいでしょう。
注2:データベースによっては「吾輩は猫である」といった書名は、機械処理だけでは駄目ですが、人手で全体を名詞化処理している場合もあります。
注3:実際はhtmlファイル中、単語が改行やタグで分割されている場合、検索できることがあります。gooは「輩は猫である」で2件(ミラーサイトで内容は同じ)ヒットしましたが、下記のようなテキストソースでした。
  …転がり込んでくる。「吾(改行) 輩は猫である」の多々良三平の…

記号類の検索はできるか
 「CD-ROM」は検索できるけれど、「C++」はプラスが無視されて「C」を検索したのと同じ結果になるなど。!#$%&-=\.,+*;:?といった記号類を検索語に入れた場合は必ずしも目的の結果が出るとは限りません。句読点(。、)は無視されて検索されています。


gooの謎
 今のところ、私が一番よく使っている検索エンジンはgooです。でも、gooにはいろいろと謎(bug?)があるのです。以下はその紹介です。

1.半角の英字と数字の組み合わせは検索漏れがある
windows98(全部半角)で検索すると、344件ありました(1998年11月26日現在。以下も同じ)。ところが、windows98(全部全角)だと616326件にもなるのです。gooは全角半角の区別がないというはずなのに…。また、全角の場合は、windows AND 98と同じ結果で、windows98という一続きの語を検索するわけではないようです。
 これが、windows95(180266件)だと、windows AND 95(225354件)より小さいので、フレーズ検索をしているようなのです。95ならよくて98は駄目というのはますますよくわかりません。
 infoseekなどでwindows98は 9422件。gooは、なまじ0件にならないので、始末が悪いのです。
 よって、教訓:英字+数字は、全角で検索を

 

2.キーワードの区切りが不明
 「検索の鉄人」の練習問題で、「マイ・フェア・レディを書いた文豪が『世界で8番目に不思議なところ』と呼んだのはどこ?」という問題がありました。
 私は文豪名で絞った後、「(8番目 or 八番目) and (不思議 or 不思議な)」と検索式をたてたのですが、目的ページはヒットしませんでした。

 以下、目的のページがヒットしたキーワードは○、駄目なら×です。
番目に不思議なところ ○
番目に不思議な    x
番目に不思議     x
不思議なところ    ○
不思議        ×
不思議な       ×
不思議なと      ×
不思議なとこ     ×
思議なところ     ×
議なところ      ×
なところ       ×
ところ        ○(同じページにほかに「ところ」というのはなし)


トップへ