検索エンジンロボットのクロール間隔を調整する方法(ただしGoogleを除く)
MSNやYahoo!やBaiduやAskの検索エンジンのクローラーからのアクセス間隔を調整したいときには、robots.txtで Crawl-delay を設定すればよいそうです。
Yahoo: Yahoo!検索 ヘルプ – 検索エンジン用ロボットからのリクエスト数を減らすには
アクセス間隔によって問題が生じている場合、検索エンジン用ロボットのアクセス間隔の設定を、サーバーの環境に合わせて設定してください。
「robots.txt」をウェブサーバーに置き、”Crawl-delay: xx”の”xx”を5や20などに調整すると、アクセス間隔を伸ばせます。
MSN: サイト オーナー ヘルプ:
MSNBot がサイトをクロールするときは、通常、数秒に複数回という短い間隔でサイトにアクセスすることはありません。サイトが低速で接続されていると MSNBot が判断した場合、アクセスの間隔は自動的に調整されます。アクセスの間隔 (秒単位) の最小値を指定するには、Robots.txt ファイルのクロールの遅延パラメータを使用してください。
Baidu: Baidu検索エンジンについて
リクエスト数を減らすにはアクセス間隔によって問題が生じている場合、検索エンジン用ロボットのアクセス間隔の設定を、サーバーの環境に合わせて設定してください。「robots.txt」をウェブサーバーに置き、”Crawl-delay: xx”の”xx”を調整すると、アクセス間隔を伸ばせます。
Ask: サイトの登録 / 削除:アスク ドット ジェーピー
Ask.jpのクローラーがURLを連続してリクエストする間隔の最低秒数を指定することができます。
robots.txtの中で 「Crawl-Delay: 秒数」 と指定すると、クローラーは、その秒数以上の間隔を空けて、そのサーバーのURLをリクエストするようになります。
一方、GoogleのGooglebotはCrowl-delayに対応していないようです。Matt Cutts氏のブログのコメントにそう書かれていました。
Dave, Googlebot doesn’t support the Crawl-Delay suggestion in robots.txt. I intend to do a post about why not at some point. If you’re impatient, you can listen to the MP3 of pundits of search from the SES NYC show on webmasterradio.fm. I talked about why we don’t support crawl-delay there. I would like our crawl team to support some way of reporting how much to throttle Googlebot though.
robots.txtにCrowl-delayを記述するときは、以下のように記述します。単位は「秒」で、20を設定すれば最低でも20秒はクロール間隔が空くようになるそうです。
User-agent: Slurp Crawl-delay: 20 User-agent: msnbot Crawl-delay: 120 User-agent: baiduspider Crawl-delay: 5 User-Agent: Teoma Crawl-delay: 20 User-Agent: Ask Jeeves Crawl-delay: 10
コメントを残す