F.Ko-Jiの「一秒後は未来」

Googleブログ検索の特許で明らかになったブログの評価を決定する12の要因

Google Operating System: How Google Blog Search Ranks Resultsによると、Googleのブログ検索に関する特許が明らかになったそうです。ポイントは参照元の記事にも書いてありますが、勉強がてらその特許を読んでみたので以下に概要をまとめておきます。[]で囲まれる数字は、特許本文にある項目に対応しています。

Googleのブログ検索特許の全文(英語です)

ポジティブな要因とネガティブな要因でスコアを調整する

ブログのスコアは、まず検索キーワードとブログの関連性で決まるブログの初期スコア(first score)を求め、ポジティブ・インジケータ(positive indicator)とネガティブ・インジケータ(negative indicator)によって初期スコアの調整をおこなうことで決定するそうです。(see Claim 1.)

ポジティブ・インジケータに分類される5つの要因

  • ブログのポピュラリティ
  • ブログロールのリンク
  • ブログに対して付けられたタグ
  • 他のドキュメントからの参照
  • ブログのページランク

これらはブログのスコアを上げる要因です。

ブログのポピュラリティ [0038],[0039]

ニュース・リーダーやRSSリーダーなどのアグリゲータが持つ購読者数のデータからブログのポピュラリティを判定できます。一人が複数のアカウントで自分のブログを購読させるようなスパムに対しては、IPアドレスによるフィルタリングなどで対処するようです。(see [0038])

また、目に見えない暗黙のポピュラリティとして検索結果のクリック数があります。検索結果から多くクリックされたブログほどスコアは高くなります。(see [0039])

ブログロールのリンク [0040],[0041],[0042]

Wikipediaによると、ブログロールとは「ブログのサイドバーなどに見られる他のブログへのリンクの集合」を意味します。(ref Blogroll – Wikipedia, the free encyclopedia)

ブログロールに含まれるリンクは、ブロガーが関心を持ったサイトであるため信頼性が高いと言えます。よってブログロールからのリンクはポジティブな要因となります。(see [0040])

また、有名なブロガーや信頼できるブロガーのブログロールは信頼性が高く、そのブログロールからリンクされているブログの評価も高くなります。これは彼らがスパム・ブロガーでないという仮定に基づいています。(see [0041],[0042])

ブログに対して付けられたタグ [0043]

いくつかのサイトでは、カテゴライズのためにユーザにタグ付けを許可しているサイトがあります。代表的なものはソーシャル・ブックマーク・サイトでしょう。これは個人がブログのコンテンツを評価したことになるため、ポジティブな要因となります。(see [0043])

他のドキュメントからの参照 [0044]

この“ドキュメント”にはメールやチャットが含まれるそうです。これはGmailやGoogle Talkのことを指していると考えられるでしょう。コミュニケーションの中で話題にのぼるブログは評価が高いという考え方のようです。(see [0044])

ブログのページランク [0045]

Googleの持つページランクのデータも利用されます。ページランクの高いブログはブログ検索のスコアも高くなります。最新の投稿記事はそれ自体はページランクを持たないため、その記事が属するブログのページランクが継承されます。(see [0045])

ネガティブ・インジケータに分類される7つの要因

  • ブログの更新頻度とパターン
  • ブログのコンテンツとフィードのコンテンツの不一致
  • コンテンツのサイズ
  • スパムブログによく含まれる単語やフレーズ
  • 特定のブログへのリンクの割合
  • ブログに含まれる広告の量
  • ブログ内の広告の場所

これらはブログのスコアを下げる要因です。

ブログの更新頻度とパターン [0047]

スパマーは短時間に大量の記事を投稿します。また、決まった時間間隔で最新記事を作成します。このように短時間に大量に投稿し、その投稿パターンが一定であるとスパムとみなされます。(see [0047])

ブログのコンテンツとフィードのコンテンツの不一致 [0048]

スパマーはブログ本体では異なる記事を投稿しているにも関わらず、フィードには特定のコンテンツしか含めない傾向にあります。このようにブログとフィードのコンテンツが異なる場合はスパムとみなされます。(see [0048])

コンテンツのサイズ [0049],[0051]

上記のように生成されたコンテンツのサイズは同じになるため、サイズが同じコンテンツが複数存在する場合にはスパムとみなされます。また、自動生成される投稿は巨大なコンテンツになることもあります。そのためサイズの大きなコンテンツはスパムとみなされます。(see [0049],[0051])

スパムブログによく含まれる単語やフレーズ [0050]

スパムブログを分析すればそれらによく利用されている単語やフレーズを抽出できます。ブログにそのような単語が多く含まれている場合はスパムとみなされ評価が低くなります。

特定のブログへのリンクの割合 [0052]

いくつかの投稿記事は、ある特定の記事のページランクを上げるために生成されています。あるブログからのリンクが特定のブログに集中していて、それが閾値を超えるとスパムとみなされます。(see [0052])

ブログに含まれる広告の量 [0053]

多すぎる広告はネガティブな要因となります。広告の割合には気を配らなくてはなりません。(see [0053])

ブログ内の広告の場所 [0054]

ブログの構成要素には一般的に「最近の投稿記事」、「ブログロール」、「ブログのメタデータ(著者のプロフィールなど)」の3つがあり、広告はメタデータの中やブログロールの傍にあるものです。もし、最近の投稿記事の中に含まれる広告の割合が高い場合は、それはネガティブな要因となり、評価が下がります。(see [0054])

***

以上です。より詳しい情報は特許本文を参照してください。(この特許は画像ビューワーのプラグインで見れるようですが、よく分かりませんでした。お分かりの方がいましたら教えてください。)

※ 追記: AlternaTIFF TIFF Plug-inのプラグインで画像も表示できました。yotinakkさんありがとうございます。

間違いがあったら追記・修正します。

【関連エントリー】 眠れないのでGoogleの特許を読んでみる

  1. yotinakk より:

    USPTOの特許イメージは
    http://www.alternatiff.com/
    のプラグインをインストールすると見られます。

  2. tak より:

    グーグルブログ特許のことを知り、検索でたどりつきました。翻訳ありがとうございました。たいへん参考になりました。
    ますますのご活躍をお祈りしております。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

著者について

fkoji

F.Ko-Ji

Webエンジニアやってます。最近は ドットインストール の開発がお仕事です。その傍ら、個人で Meity電車遅延なう梅酒.in#グラドル自画撮り部 の部室といったネットサービスを開発・運営してます。梅酒と草野球とリアル脱出ゲームが好きです。

» 詳しいプロフィールや運営サービスの一覧など