新たに公開されたGoogleの検索特許で再確認しておきたい13項目

2007/5/14 08:10

2007年4月26日付けでGoogleの検索アルゴリズムに関する新たな特許が公開されています。内容は特別目新しいものではなく、すでに公開されていたり以前から予測されていたりするものが大半を占めているようですが、特許として正式に文書化されたということですので確認しておいて損はないでしょう。

そこで、特許文書から重要そうな部分を抜き出してみました。項目は大きく分けて13個あります。スパムとみなす要因もいくつか記述されているので興味深いです。

ドキュメント発生日時
コンテンツの更新/変更
クエリの解析
リンクに基づく基準
アンカーテキスト
トラフィック
ユーザの行動
ドメインに関する情報
ランキング・ヒストリー
ユーザが保持/生成するデータ
独特な単語やフレーズ
独立したピアのリンク
ドキュメントのトピック

それぞれの項目の詳細は以下よりご覧ください。(なお、検索エンジンのアルゴリズムは絶えず変化しているものですので、ここで紹介する内容が今日通用するという保証はありません。)

1. ドキュメント発生日時

ドキュメントの発生日時は、検索エンジンがそのドキュメントを確認またはインデックスした日時で決定する。もしくは他のドキュメントからのリンクを発見した日時の場合もある。[0038]

ドキュメントの発生日時は、ドメインが登録された日時であったり、ニュース記事やメーリングリストなどの文書で言及された日時であったり、ドキュメントのページ数がある閾値を超えた日時であったり、サーバが通知するタイムスタンプであったりする。[0039]

例えば新しいドキュメントは古いドキュメントと比較してバックリンクの数が少ない。リンクベースのスコアの場合、新しいドキュメントは常に古いドキュメントより低くランクされてしまうため、検索エンジンはドキュメント発生日時を利用してスコアを修正する。[0040]

新しいドキュメントのバックリンクが増加する割合は、古いドキュメントのそれより高いため、新しいドキュメントのスコアは高くなる。しかし、その割合が急激である場合はスパムとみなされ、低くスコアがつけられる場合がある。[0041]

あるクエリでは古いドキュメントがより有利になる場合がある。その場合、検索結果のドキュメント集合の平均年齢を算出し、ドキュメントの年齢と集合の平均年齢の差に基づいたスコア修正がおこなわれる。[0044]

2. コンテンツの更新/変更

頻繁に更新されるドキュメントと、あまり更新されないドキュメントとでは、異なるスコアがつけられる。また、更新部分が広いドキュメントと狭いドキュメントとでも、異なるスコアがつけられる。[0046]

スコア付け関数のパラメータは、たとえば更新頻度と更新量である。[0047]

JavaScriptやコメント、広告、ナビゲーション要素、日時表示などの更新は重要な更新でないとみなされる。一方で、タイトルやアンカーテキストの変更は重要な更新とみなさる。[0049]

ある2つの時期でのドキュメントの変化の割合を比較したとき、変化の大きいドキュメントのほうがスコアは高くなる。また、ある閾値以上の量が更新されたドキュメントは閾値以下の量が更新されたドキュメントよりスコアは高くなる。[0050]

記憶装置のリソースがドキュメントの変化を観察するのに十分でない場合、期間ベクトルの変化量を観察したり、よく更新される部分のみを保存して観察したりする。[0051]

ドキュメントの要約の変化を観察したり、類似ハッシュの変化を観察したりもする。記憶装置が十分ある場合は、ドキュメント全体を保存して変化を観察する。[0052]

あるクエリによっては、最近更新されていないドキュメントが最近更新されたドキュメントより有利になる場合がある。その場合は、検索結果集合の平均変化日時との差を利用してスコアを調整する。つまり、検索エンジンは結果集合のドキュメントそれぞれの最終更新日時から平均を求め、その差に基づいてスコアを修正する。[0053]

3. クエリの解析

あるクエリに対する検索結果の中から選択されたドキュメントに対して、検索エンジンは高いスコアをつける。[0055]

ある期間においてホットなトピックがあるとして、それに関するキーワードを含むドキュメントは、それ以外のドキュメントより高いスコアをつけられる。[0056]

ある期間において類似のクエリによる検索結果集合が増加しているなら、そのクエリに関するドキュメントのスコアは高くなる。[0057]

「ワールドシリーズチャンピオン」のように、長期間に渡って同じクエリであるのに検索結果は年毎に変わるようなクエリに対しては、適宜スコアが調整される。[0058]

ユーザが検索結果からどのドキュメントを選択したかによって、ランクの低い新バージョンのドキュメントがどの程度重要かどうかを判断している。[0059]

新鮮でないドキュメントが長期に渡って最近のドキュメントより好んで選択されている場合、検索エンジンは新鮮でないドキュメントに高いスコアを与える。[0060]

4. リンクに基づく基準

ドキュメントへの新しいリンクが出現した日時や存在していたリンクが消滅した日時がスコア付けの要素となる。[0063]

検索エンジンはリンクの出現/消滅がいつ発生したか、その割合はどのくらいか、いくつ発生したかなどを観察している。[0064]

新しいリンクの出現割合が減少傾向にある場合、検索エンジンはそのドキュメントが新鮮でなくなってきていると判断する。逆に、増加傾向にある場合は新鮮である印となる。[0065]

検索エンジンはドキュメントに対する最近 n 日の新しいリンクの数を、ドキュメントが最初に出現した時点の新しいリンクの数と比較する。[0067]

リンクの出現日時は“スパム”判定にも利用される。通常、正常なドキュメントへのバックリンクはゆっくり増加する。急激なバックリンクの増加は、注目のトピックが出現した場合か、スパムの場合かのどちらかである。[0073]

ドキュメントへのリンクが消滅した場合、それはドキュメントが古くなってきている兆しである。いったん新鮮でないと判断されると、そのドキュメントに含まれるリンクは検索エンジンによって低く見られるか無視されるようになる。[0074]

5. アンカーテキスト

アンカーテキストの更新は、ドキュメントのスコアに影響する要素のひとつである。[0077]

アンカーテキストの新鮮度もドキュメントのスコアづけの要素のひとつである。アンカーテキストの新鮮度は例えばアンカーテキストの出現/変更日時、アンカーテキストに関連するリンクの出現/変更日時、リンク先に関連するドキュメントの出現/変更日時などによって決定される。リンク先のドキュメントの出現/変更日時は、「良いアンカーテキストはドキュメントが更新されたときでも変化しない」という理論に基づいてアンカーテキストの新鮮度を決める際の良い指標となる。[0078]

6. トラフィック

ドキュメントに対するトラフィックが大幅に減少すれば、検索エンジンはドキュメントが陳腐化したとみなす。[0082]

検索エンジンは、特定のドキュメントに対する“広告トラフィック”も観察している。[0083]

7. ユーザの行動

ユーザの行動も、ドキュメントのスコアに影響する要素のひとつである。例えば検索結果からユーザがどのドキュメントを選択したかなどである。[0086]

あるクエリから与えられるドキュメントにユーザが滞在していた時間も、ドキュメントのスコアの要素となる。たとえばある時期は平均30秒滞在していたのに、今は平均数秒しか滞在していないなら、そのドキュメントは陳腐化しているということになる。[0087]

8. ドメインに関する情報

そのドキュメントがどのサーバからホスティングされているかという情報も、ドキュメントのスコアに影響する要素となる。[0089]

9. ランキング・ヒストリー

ドキュメントのランキング順位も、そのドキュメントのスコアを決める要素となる。[0095]

したがって、ある期間におけるランキングの変動はそのドキュメントの将来のスコアに影響する。[0096]

あるクエリに対する検索結果トップのドキュメントのスコアが高く、毎月の検索結果が変動する場合、検索エンジンはそのクエリを「コマーシャル・クエリ」であると判断する。コマーシャル・クエリはスパムである可能性が高い。[0097]

検索エンジンは、ドキュメントのランキングの急激な上昇を観察している。それはトピック的な現象の兆候か、リンクを売買したスパムの兆候である。[0100]

政府のドキュメントやYahoo!のようなウェブ・ディレクトリや長期間高いランクを維持しいているドキュメントには権威が与えられ、リンクが急激に増加するような場合でもある程度は例外としてみなされる。[0101]

10. ユーザが保持/生成するデータ

検索エンジンは、(ブラウザやブラウザ拡張機能から得られる)ユーザの好みを示唆するブックマークやお気に入りといった、ユーザが保持/生成するデータを観察している。[0104]

11. 独特な単語やフレーズ

検索エンジンは、ウェブのグラフ構造とその振る舞いを、例えばスパムの検出のために観察している。自然につくられるウェブグラフは独立決定性に伴って生じる。スパムのように合成的につくられるウェブグラフは協調決定性に基づいており、アンカーに使われる単語が急激に増加する特徴をもたらす。[0108]

12. 独立したピアのリンク

一つのドキュメントに対する大量のリンクを含む独立したピアが大量に出現した場合、それはスパムであるとみなされる。[0112]

13. ドキュメントのトピック

ドキュメントのトピックの大幅な変更はドキュメントの所有者が変わったとみなされ、それまでのドキュメントのスコアなどが信頼できないものとなる。[0114]

まとめ

「1. ドキュメント発生日時」はいわゆるフレッシュクロールに関連していて、新鮮なドキュメントにとって重要であることがわかります。また、リンクに基づいたアルゴリズムで新鮮なドキュメントのスコアが低くなるというのは、数年前に問題となっていたSandbox効果に関係しているようです。(via Google Patent Defines The Sandbox | WebProNews)

「4. リンクに基づく基準」については「ページ数と被リンク数の増減を検索エンジンがどう判断しているのか | Web担当者Forum」や「検索エンジンのリンク解釈に関する2つの理解されにくい問題 | Web担当者Forum」でも特許公開以前に解説されています。今回の特許はこれらの記事の内容を裏付ける資料となるでしょう。

「8. ドメインに関する情報」は、ホスティングサーバを慎重に選んだほうがよいということを示唆しています。スパムサイトと同じサーバやゲートウェイから配信されるドキュメントは好まれないようです。