F.Ko-Jiの「一秒後は未来」

Googleブログ検索がページ全体をインデックスしようとしているらしい

数日前に見かけた情報ですが、これまでフィードに掲載されているコンテンツのみインデックスしていたGoogleブログ検索が、ページ全体をインデックスしようと試みているそうです。

» Google Blog Search Changes How It Indexes Posts – Nine By Blue

記事によるとGoogleグループの「Blog Search side(bar) effects – Google Blog Search | Google Groups」に情報があるということなので実際に見てみると、Google BlogSearchチームのJeremy Hyltonという人が次のように発言しています。

We have changed the way we index blog posts to include the full
content of the page. We’ve had occasional complaints about the use of
the feed content, particularly the problem with partial feeds that you
mentioned. The indexing change has improved the results for a lot of
queries, both because we have the full content of the page and because
we extract links that are missing from the feeds.

We expected some problems from blogroll matches, but may have
underestimated the impact on searches using the link: operator or
where the query matches a blog or blogger’s name. We do expect to fix
the problem you’re seeing. We’ll use the full page content, but
exclude the content that isn’t really part of the post. I’m not sure
if we’ll be able to make the change before the end of the year, but we
are working on it and are pretty confident that it can be solved.
We’ll post an update here when we’ve got a solution.

要するに部分配信されているフィードであってもブログ検索でページの全文を検索できるようになるし、フィードに掲載されないリンク情報などにもとづいて検索結果を改善できるといったメリットがあるよということらしいです。

ただ、ブログロール(サイドバーにある他のブログへのリンク集)など本文以外の部分も検索にひっかかるようになってしまったようで、それに対してBlogSearchチームは改善の努力をしているとのことです。

要するに本文抽出がまだできていないようです。

ブログ検索で本文抽出といえばgooのブログ検索が実施していたと思いますが、Googleも同じ方針に転換しようとしているみたいです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

著者について

fkoji

F.Ko-Ji

Webエンジニアやってます。最近は ドットインストール の開発がお仕事です。その傍ら、個人で Meity電車遅延なう梅酒.in#グラドル自画撮り部 の部室といったネットサービスを開発・運営してます。梅酒と草野球とリアル脱出ゲームが好きです。

» 詳しいプロフィールや運営サービスの一覧など