ロボット型検索エンジンを個別評価した衝撃

あなたは どのロボット型検索エンジンを利用していますか? 使い勝手が悪いと思いながら どの検索
エンジンを選んでも 検索結果はどれも同じようなものであろうと思い込み 何となく惰性で選んでいませ
んか? このページでは 使い勝手の良さという観点から ロボット型サーチエンジンについて 個別に
私独自の手法により評価した結果を披露します。 結果は 先入観として私が今まで持っていたものとは全く
異り 衝撃的です。 私の評価結果について信じられないという方は ご自身のキーワード検索で確かめ
られれば ナールホド と納得される筈です。

尚 このページを初めてアップロードしたのは Googleが日本に登場し一躍注目され始めた平成12年9月
でしたが その後 各ロボット型検索エンジンの使い勝手はドラスティックに大幅改善されたので 
平成14年8月にページ内容を全面的に見直しupdateしました。


1. 使い勝手の良さとは?

検索エンジン(サーチエンジン)は 「ディレクトリ型」と「ロボット型」の2つに 大別できます。 
ディレクトリー型検索エンジンをディレクトリサービス ロボット型検索エンジンを単にサーチエンジン と呼ぶ
こともあります。

ディレクトリ型は ヤフーの如く 検索エンジンのスタッフが 手作業で実際の登録(掲載)処理を行っている
もので 各ホームページはカテゴリー毎に分類され登録(掲載)されます。 ロボット型は ロボットと言わ
れるインターネット自動巡回プログラムを用い 常にインターネット上を徘徊してホームページ情報を収集し
ています。

ロボット型検索エンジンは 大量の検索結果を得られるという利点がある一方で 「使い難い」という欠点
があります。 WWW上にある膨大で多様な情報の中から 必要な情報を利用者が探し出すのは 容易で
ありません。 キーワード検索し 検索結果として関連するページが何百・何千と表示されても 全ページ
を読むのは利用者として不可能であり 利用者が本当に必要とする少数の検索結果を優先的に表示する
機能が求められます。 検索結果として さまざまな品質の情報や検索とは無関係な情報が 順不同で
表示されるなら 必要な情報を探し出せません。

利用者にとって使い勝手が良いのは 「重要度の高い情報順に検索結果が表示」 されることです
検索結果を順序付けるシステム(アルゴリズム)の善し悪しが 使い勝手の良いロボット型検索エンジン
かどうかの 決め手となります。

2. 使い勝手の良さランキング

「重要度の高い情報順に検索結果を表示」 している 使い勝手の良いロボット型検索エンジンはどれか
私独自の手法に私の主観も少し加え個別評価した結果を 評価の高い順に示します。 評価対象は
日本語対応のみです。

使い勝手の良さランキング
順位 ロボット型検索エンジン名 私の総合評価
 1位   Google  Super Excellent
 2位  LYCOS  Excellent
 3位  Goo  Excellent
 4位  TOCC/Search  Excellent
 5位  AltaVista  Good
 6位  NAVER Japan  Good
 7位  AAA!CAFE  Good
 8位  AlltheWeb  Fair
 9位  Infoseek  Fair
             
ロボット型検索エンジンを 使い勝手の良さで私の尺度で評価すると 上記ランキングの如くなるのかと
ビックリされたのではないでしょうか。  

上記ランキングは 平成12年9月時点に評価した結果と比べ かなり異なります。 平成12年9月の時点では
1位Googleの評価が傑出しており 2位以下の順位は InfoNavigator kensaku.org ODiN Netplaza 
AltaVista Infoseek LYCOS Excite FreshEye Goo OCNサーチ FAST GotCha の順でした。 
平成14年8月に見直したところ この内  InfoNavigator kensaku.org ODiN FAST GotCha  は
ロボット型検索エンジンのサービスから撤退 Netplaza Excite OCNサーチ  アット・サーチ(ニフティー)
はGoogleと提携しGoogleのサービスを利用 FreshEye はTOCC/Searchと提携 MSNサーチはAltaVista
と提携しています。 使い勝手の良さでGoogleと競合できないと悟った各ロボット型検索エンジンは 
(1)撤退  (2)Google等との提携  (3)検索アルゴリズムの抜本的な改善  の何れかの選択を迫られる
こととなりました。

私は 使い勝手の良さを 「重要度の高い情報順に検索結果を表示」 という尺度で個別評価する為に
私個人のウェッブページ(ホームページ)を使いました。 具体的には 例えば キーワード「ヤフー」で
検索し 検索結果として私のウェッブサイト又はウェッブページが上位に表示されるなら 使い勝手が良い
と臆面も無く?判断しました。 ヤフーについて書かれているウェッブページは数多くありますが 私の
ウェッブページは ヤフーに関連した重要度の高い情報と思います。  この方法について 当然 異論も
あるでしょうが 私自身のウェッブページをベースにしているので 私のウエッブページより上位や下位に
表示される他のウェッブページが その内容から妥当かどうか 私自身で判断できます。 従い 決して
己惚れではなく ロボット型検索エンジンを個別に評価した私の方法は 他に例のない独特なものですが
効果的と思います。

キーワードとして 「ヤフー」 の外に 「プライスライン」 「カーナビ」 「アクセス向上」 「銅像」など 私の
ウェブページと関連テーマと深い関わりを持つキーワード検索語を 全部で19選び その総合結果を
ランキングで示したしたのが 上の表です。 このランキングを決めるに至った個別の評価結果を 次に説明
します

3. 個別の評価結果

ロボット型検索エンジンを個別に評価する為に キーワード検索する検索語として19(A〜S)選びました。
それぞれの検索語に対し 各ロボット型検索エンジンが検索結果として 私のウェッブページを何番目に
表示したか 次表の数字はその順位です。 

例えば 検索語 A「ヤフー登録」 でキーワード検索した結果として 関連する私のウェッブページを
Google は4番目に LYCOS は1番目に Gooは2番目に AltaVistaは10番目に表示しています。
上位30位までに表示されない場合は「N」と示されています。 小さい数字順位でN表示が少ないほど
「使い勝手が良い」 と判断されます。 検索結果の表示順位は私が調べた平成14年8月時点のもので
当然乍ら流動的です。

19の検索語(A〜S)と検索結果の表示順位を 検索エンジン別に示すと 以下です。

検索語「ヤフー登録」 「ヤフー」 [アクセス向上」 「ロボット型検索エンジン」 
「マッカーサー」 「プライスライン」 「カーナビ」 「コンピュータウィルス」 「ホームページ作成」
「ビル・ゲイツ」 「老後のキャッシュフロー」 「銅像」 「GM Buypower」 「自由の女神 
忠犬ハチ公 西郷隆盛」 「誤解されている言葉」 「白象」 アブシンベル神殿 万里の長城 
ボラボラ島
」 「リフォーム費用」 「南海の泡沫事件

                 
検索結果として私の関連ページが表示された順位
O R S 総合評価
Google 4 12 23 7 5 1 19 2 7 19 1 3 1 2 1 2 1 15 1   1位
LYCOS 1 14 20 6 17 2 N 26 9 16 1 1 6 1 1 1 1 16 1   2位
Goo 2 6 20 5 9 N 12 9 5 24 1 2 3 1 1 11 1 19 1   3位
TOCC/Search 20 N 14 4 5 4 5 6 5 N 1 2 1 2 1 10 1 5 2   4位
AltaVista 10 4 15 4 N 1 12 18 14 4 1 2 2 1 1 10 1 14 1   5位
NAVER Japan 3 26 6 13 16 1 26 7 N 18 1 N 2 1 1 N 1 N 7   6位
AAA!CAFE 1 6 13 9 4 1 17 N N 16 1 1 3 1 1 1 N 11 1   7位
AlltheWeb 20 N 19 26 4 4 N 7 N N 1 2 N 1 1 N 1 N 1   8位
Infoseek 6 N N N 27 5 8 N N 21 N 21 6 1 1 4 N N 11   9位
注: 数字は検索結果として表示された順位で Nは30位内にないもの
      
4. Google について

私の評価結果が一番良かった Google について 少し説明します。 Googleは1998年9月 Larry Pageと
Sergey Brin という二人のスタンフォード大学院生が 博士号取得を前に休学してカリフォルニア州に設立
した未公開ベンチャー企業です。 ロボット型検索エンジンとしてはnewcomerですが 急成長しており
精度の高い検索技術を持っているという定評です。 Googleという社名は 10の100乗を意味する
「googol」 から取られており web上に存在する膨大な情報を処理する会社の使命を表現しています。
(注: googleは平成16年8月にナスダック市場で株式を公開し 17億ドルを調達しました)

世界の20数カ国で検索エンジン事業を展開中で 世界最大のデータベースを誇ると共に ロボット型
検索エンジンの中で 検索機能がベスト という評価を 米国のYahoo! Internet Life , Time Digital,
The Net, PC Magazine 等の各誌からデビュー当初に得ました。 NPD Online Researchという
調査会社による平成12年第1四半期 「ユーザー満足度・ローヤルティー調査」 でも 総合第1位でした。

NetCenter等のサーチエンジンとして採用されている他に 米国ヤフーとは平成12年6月に提携してい
ます。  米国ヤフーは デフォールト・サーチエンジン(米国ヤフーで検索できない場合に補完する役割)
として提携関係にあった Inktomi を Google に切り替え Yahoo! JapanもGooとの提携を解消し
平成13年からGoogleと提携しました。

平成12年8月2日に Google の日本語ベータ版が発表され 9月12日に正式開業し 既存の日本語対応
ロボット型検索エンジンに脅威を与えました。

「重要度の高い情報順に検索結果を表示(the most important results always come up first)」させる
ことが 使い勝手の良さのポイント と判断した Google は  PageRank と呼ばれる手法(アルゴリズム)を
用いています。 「多くの良質なページからリンクされているページは良質なページ」 という考え方から
ページの重要度を決定しています。 ネットサーフィンで訪問される頻度が高いページは重要度も高い 
という考え方です。 PageRankについて Google社独自の説明は以下です。

Google is distinguished by its powerful ranking algorithm based on how many good sites link to each
site, along with other factors like the proximity of your search keywords or phrases in the 
documents.  Google uses mathematical formula to rank a web page that based on the number of 
"important " pages that link to it.  The philosopy is that high-quality websites point to other high-
quality websites.  When a search is conducted, Google detemines the websites that meet the search
criteria and then list the most popular sites among high-quality resources at the top of the list.

PageRankだけだと 特定の有名サイトが上位に表示され易いという弊害がでるので Google は上記の
英文太線にある如く PageRankと適合度の両者を勘案して最終的な順位を決めています。 重要度の高い
順に並べる手法としては PageRank 以外にも色々とあり ODiN (既に消滅)はアンカーテキスト利用により
同様の効果を狙っていました。 詳しく知りたい方はこのページ末尾の参考文献を参照ください。 
「Google の秘密 - PageRank 徹底解説」 は Google の中核要素技術の一つであるPageRankについて
その基本的な概念と求め方の原理を解説しており興味深いです。

5. 新登場のロボット型検索エンジン

ここでGoogleがデビューした後に登場したロボット型検索エンジンについて 余り馴染みがないと思います
ので 少し説明しておきます。

TOCC/Searchは 三菱電機が米国インクトゥミ社との業務提携により設立した (株)トラフィック・ワン・
コミュニケーションズ(TOCC)の運営する検索エンジンです。 Inktomi社の検索技術と三菱電機の日本語
処理技術を組み合わせたサーチエンジンで 2001年7月に発表されました。

NAVER Japanは、ポータルサイトを運営している韓国NAVER社の検索エンジンです。

AAA!CAFE は 和歌山市に本拠を置く トリプルエーコミュニケーションズの検索エンジンで  2001年12月
まで早稲田大学の学生が個人で管理・運営していた検索エンジン「Kensaku.org」から技術の譲渡を受け
2002年6月に商業化されたサービスを開始しました。 従来の検索サービスで使われている一般的な
「形態素解析方式」ではなく  「N-gram方式」と呼ばれる検索方式を採用することで 検索漏れが発生しない
検索サービスを実現しているそうです。

AlltheWebは ノルウェーのFast Search & Transfer社(FAST)が運営するサーチエンジンで 検索可能な
Webページ数は最多(平成14年8月時点)だそうです。

これら後発のロボット型検索エンジンは 使い勝手の良さで定評のあったGoogleに負けないアルゴリズム
を開発しており Googleと比べて甲乙を付け難い使い勝手になっています。

6. 評価結果をどう評価する?(まとめ)

私は今まで どのロボット型検索エンジンを使ってキーワード検索しようと 結果は似たようなものという
先入観を持っていました。 例えば Infoseek や Goo を使って検索し 必要とする情報を得られ無ければ
他の検索エンジンを使っても 結果は同じであろうと思っていました。 恐らく皆さんも同じ先入観を持って
おられたのでは無いでしょうか?

今回 自分でも呆れる程 meticulous な個別調査をして 検索結果は検索エンジン毎に皆異なることを
初めて知りました。 検索語は同じでも 検索結果として表示される順序は 検索エンジン毎に大きく異なり
ます。 重要度の高い情報をどう選び 表示順位をどう決めるか 各検索エンジンの用いるアルゴリズムの
違いが そのまま検索結果と使い易さの差を生み出しています。 

浅井勇夫氏の 「検索デスク」  というホームページでは 検索力のあるロボット型検索エンジンの
ランキングとして Goo Lycos Google TOCC/Search Naver Japan AlltheWeb AAA!CAFE AltaVista
Infoseek の如く順位を発表(平成14年7月21日時点)しています。 検索デスクは 検索結果を検索
ランク(80%)と検索数(20%)で評価します。 検索ランクは 50種類のキーワードで検索し Webサイトのランク
状況から求められます。 例えば 「検索」 「新聞」 「図書館」 といったキーワードで検索し (検索デスク)
(朝日新聞) (国会図書館) それぞれが検索結果として上位に表示されれば検索力ありと評価されます。
検索数は15種類のキーワードのヒット数から求められます。

私の評価方法を初めてこのページで紹介した平成12年9月の時点で 「検索デスク」は検索力を検索数
のみで評価していましたが 今では 私の評価方法に似た検索ランクという手法も一部取り入れています。
では 私と「検索デスク」の大きな違いはどこにあるかというと 私がWebページの検索結果を評価している
のに対し 「検索デスク」ではWebサイの検索結果を評価している点です。 ロボット型検索エンジンを使い
キーワード検索で情報を求める人は ほとんどの場合 検索結果として該当する情報のあるWebページを
探しており Webサイト(即ちトップページ)を探してはいません。 従い 使い勝手の良い検索力のある
検索エンジンを評価する手法としては 私の手法の方が妥当ではないでしょうか。

とは言え 評価手法の違いはあっても 私と「検索デスク」の評価結果はほとんど変わりません。
ロボット型検索エンジンのベスト3として 私は Google LYCOS Goo の順で選びましたが 「検索デスク」
は逆に Goo LYCOS Googleの順にしています。 GoogleとGooのどちらが優れているか 公正な
評価方法などありませんが 実際に使われた皆さんご自身の評価は如何でしょうか?

最後に このページ全体をまとめます。

1. 使い勝手の良さで ロボット型検索エンジンを選ぶなら  ベスト3の Google LYCOS Goo を優先
すべきです。 Google は使い勝手の良さで突出していますが 弱点を敢えて探すと データベースの
更新頻度が少ないです。 

2. LYCOS Goo AltaVista Infoseek は平成12年9月の時点に比べ 今回見直したところ 使い勝手が
大幅に改善され Googleと比べて ほとんど遜色の無い検索エンジンとなっています。 ロボット型検索
エンジンとしてGoogleより後に現れた TOCC/Search NAVER Japan AAA!CAFE AlltheWeb 
についても同じです。 キーワードによってはGoogleより使い勝手の良いロボット型検索エンジンも多く
使い勝手について評価順位1位と9位の差は少ないです。 ロボット型検索エンジン毎に採用されている
アルゴリズムは異なりますが アルゴリズムの狙いは皆同じで検索結果の表示を重要度の高い情報順にし
使い勝手の良いものにしています。

3. 情報量の少ないディレクトリ型検索エンジンは 実用性が低く 今後はロボット型検索エンジンの
全盛時代になりそうです。 Google など最新のアルゴリズムを備えたロボット型検索エンジンは
「デイレクトリ型の適格性」 と 「ロボット型の豊富な情報量」 をほぼ両立させており ディレクトリ型
検索エンジンの利用低下傾向を 更に加速しそうです。 従来 ホームページ作成者(ウェッブマスター)
としては アクセスを向上させる為に デイレクトリ型を代表するヤフーに登録して貰えるかどうかが最重要
でしたが 今後は Google などロボット型のアルゴリズムに適合するホームページを作れるかの方が
もっと重要になりそうです。 

4. 個別の評価結果からお分かりいただける如く 「ヤフー」 「カーナビ」 「アクセス向上」 「銅像」
「プライスライン」 「ビル・ゲイツ」 といった極めて有り触れた検索語でキーワード検索しても 各ロボット型
検索エンジンは重要度の高い情報として 検索結果の上位に私のページを表示しています。 特に
ロボット型検索エンジンのアルゴリズムに合せて 私のホームページを作成した訳ではありませんが
偶然の結果とは言え 各ロボット型検索エンジン のアルゴリズムに私のホームページは適合していると
言えそうです。 ロボットに愛されるホームページをどう作るか 一つのヒントを 私のホームページは与えて
いないでしょうか?

5. 私がこのページで用いた評価方法では 使い勝手の良さをテストしたことにはならないという 厳しい
ご指摘もあります。 私の評価方法で 検索結果の表示順位が1や2ばかりのサーチエンジンは 
アルゴリズムに偏りや欠陥がある可能性があり 必ずしも使い勝手が良いことにはならないという 逆の
見方です。 私の評価方法は絶対的なものではなく 私の評価結果(順位)が妥当かどうかは ロボット型
検索エンジンを使う皆さんが 実際にキーワード検索され その結果を横並びで相対評価していただきたく
思います。

このページで私が意図したのは 使い勝手の良さとは何かという議論に一石を投じることであり 私の
評価方法が controversial となることを むしろ願っています。 評価方法が正しいかどうかを議論して
も余り意味なく 評価結果が妥当かどうかの議論は大歓迎です。

尚 このページはリクルート社発行パソコン情報誌「月刊PC相談室」12月号(平成12年11月8日発売)
の企画「検索サイトで思いどうりの結果を出すコツはない?」(P.174-175)に紹介されました。

ご意見ご感想を 下記アドレスまでいただければ幸いです。

Eメールアドレス*123hakuzouszk@kha.biglobe.ne.jp (注意*正しいアドレスは数字123を除く)

     参考文献:
     1. 「サーチエンジンにおける検索結果のランキング」
       コンピューターサイエンス誌bit(平成12年8月号)原田昌紀(共立出版)。
     2. 「ハイパーリンクとアンアカーテキストを利用した情報検索とランキングの一手法」
       情報処理学会 研究報告 2000-FI-59 NTT未来ネット研究所(風間一洋 原田昌紀 佐藤進也)

Google