F.Ko-Jiの「一秒後は未来」ではウェブやSEO、API、RSSといった技術的ネタから、ちょっとした豆知識や梅酒、エンタメ系まで様々な情報を不定期にお届けしています。

F.Ko-Jiの「一秒後は未来」 > Google > User-Agentによってはgzipが有効にならないことがある?

User-Agentによってはgzipが有効にならないことがある?

  • B!
スポンサード リンク

Googleを支える技術」の244ページに次のような記述があった。

たとえば以前のクローラーでは、Webアクセスのときの「User-Agent」が次のようになっていました。
Googlebot/2.1 (+http://www.google.com/bot.html)
Bigdaddy以降は、これが次のように変わっています。
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
この変更により、Webページのgzip圧縮が有効になるケースが多くなり、結果的にネットワークへの負担をさらに減らせるということです。

つまりヘッダに Accept-Encoding: deflate, gzip をつけていてもgzipを有効にしてくれないサーバがあるということ。

色々とネットを探ってみると、GoogleのMatt Cutts氏のブログの「Crawl caching proxy」という記事の中で言及されていた。

For example, the pre-Bigdaddy webcrawl Googlebot with user-agent “Googlebot/2.1 (+http://www.google.com/bot.html)” would sometimes allow gzipped encoding. The newer Bigdaddy Googlebots with user-agent “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)” are much more likely to support gzip encoding.

GoogleがクローラーをBigdaddyという集中管理システムに移行したのが2005年末から2006年にかけてらしいので、そんなに古い話でもない。今でもそのようなサーバはちらほらあるということだろう。

たとえば Apacheのmod_deflateのドキュメントにはgzipを扱えないNetScape 4.x系のブラウザに対してgzipを無効にする設定が書かれていたりする。

BrowserMatch ^Mozilla/4 gzip-only-text/html
BrowserMatch ^Mozilla/4\.0[678] no-gzip
BrowserMatch \bMSIE !no-gzip !gzip-only-text/html

こんな感じでヘッダのUser-Agentからgzipの有効/無効を判定することはあるようだ。サーバによって設定が様々だから、以前のGoogleのUser-Agentだとgzipを無効にされるケースがあったということになる。

ブラウザとgzipの関係については Which browsers can handle 'Content-Encoding:'? あたりが詳しい。

つまりはクローラーのユーザーエージェントは Mozilla/5.0 (compatible; で始まる文字列にしておいたほうがよさそう、ということになる。

だから検索エンジンのクローラーはほとんどこの書式なのね。勉強になった。

[2010-01-12] RSS フィードの URL が変わりました。お手数ですが RSS リーダーへの再登録をお願いします。
Subscribe with livedoor Reader Add to Google Subscribe with Fastladder My Yahoo!に追加 Bloglinesで閲読登録 はてなRSSに追加 エキサイトリーダーに登録


コメントを投稿

(承認されるまでコメントは表示されません。)

Google / 豆知識

English version

前のエントリー: « Yahoo!形態素解析APIを使ってブログの記事にタグをつけてみる
次のエントリー: Tips検索が開設1年で100万PVを突破していたのでアクセス解析データを公開 »

トラックバック

このエントリーのトラックバックURL:

タイトル:

URL:

リンク用HTMLタグ:

Agile Media Network

AMN Partner Blog

広告掲載について

東京ナイロンガールズ
最近の注目記事
持っているガジェット
powered by Gadget Party
最近のつぶやき
えもにゅ

↑ 気持ち記録サービス「えもにゅ」です

このブログの読者になる

F.Ko-Jiの「一秒後は未来」 - RSSフィード

クマでもわかるこのブログの便利な更新チェック方法

DailyFeed

あわせて読みたいブログパーツ

フィードメーター - F.Ko-Jiの「一秒後は未来」

月別アーカイブ


<< March 2010
SuMoTuWeThFrSa
 123456
78910111213
14151617181920
21222324252627
28293031 
人気エントリー
TopHatenar
携帯からのアクセスは
QRコード
http://mob.fkoji.com/