F.Ko-Jiの「一秒後は未来」

検索エンジンロボットのクロール間隔を調整する方法(ただしGoogleを除く)

MSNやYahoo!やBaiduやAskの検索エンジンのクローラーからのアクセス間隔を調整したいときには、robots.txtで Crawl-delay を設定すればよいそうです。

Yahoo: Yahoo!検索 ヘルプ – 検索エンジン用ロボットからのリクエスト数を減らすには

アクセス間隔によって問題が生じている場合、検索エンジン用ロボットのアクセス間隔の設定を、サーバーの環境に合わせて設定してください。
「robots.txt」をウェブサーバーに置き、”Crawl-delay: xx”の”xx”を5や20などに調整すると、アクセス間隔を伸ばせます。

MSN: サイト オーナー ヘルプ:

MSNBot がサイトをクロールするときは、通常、数秒に複数回という短い間隔でサイトにアクセスすることはありません。サイトが低速で接続されていると MSNBot が判断した場合、アクセスの間隔は自動的に調整されます。アクセスの間隔 (秒単位) の最小値を指定するには、Robots.txt ファイルのクロールの遅延パラメータを使用してください。

Baidu: Baidu検索エンジンについて

リクエスト数を減らすにはアクセス間隔によって問題が生じている場合、検索エンジン用ロボットのアクセス間隔の設定を、サーバーの環境に合わせて設定してください。「robots.txt」をウェブサーバーに置き、”Crawl-delay: xx”の”xx”を調整すると、アクセス間隔を伸ばせます。

Ask: サイトの登録 / 削除:アスク ドット ジェーピー

Ask.jpのクローラーがURLを連続してリクエストする間隔の最低秒数を指定することができます。
robots.txtの中で 「Crawl-Delay: 秒数」 と指定すると、クローラーは、その秒数以上の間隔を空けて、そのサーバーのURLをリクエストするようになります。

一方、GoogleのGooglebotはCrowl-delayに対応していないようです。Matt Cutts氏のブログのコメントにそう書かれていました。

Googlebot: Keep out!

Dave, Googlebot doesn’t support the Crawl-Delay suggestion in robots.txt. I intend to do a post about why not at some point. If you’re impatient, you can listen to the MP3 of pundits of search from the SES NYC show on webmasterradio.fm. I talked about why we don’t support crawl-delay there. I would like our crawl team to support some way of reporting how much to throttle Googlebot though.

robots.txtにCrowl-delayを記述するときは、以下のように記述します。単位は「秒」で、20を設定すれば最低でも20秒はクロール間隔が空くようになるそうです。

User-agent: Slurp
Crawl-delay: 20

User-agent: msnbot
Crawl-delay: 120

User-agent: baiduspider
Crawl-delay: 5

User-Agent: Teoma
Crawl-delay: 20

User-Agent: Ask Jeeves
Crawl-delay: 10

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

著者について

fkoji

F.Ko-Ji

Webエンジニアやってます。最近は ドットインストール の開発がお仕事です。その傍ら、個人で Meity電車遅延なう梅酒.in#グラドル自画撮り部 の部室といったネットサービスを開発・運営してます。梅酒と草野球とリアル脱出ゲームが好きです。

» 詳しいプロフィールや運営サービスの一覧など