動的URLと重複コンテンツとクローラーの負荷
Googleが動的URLについて「Official Google Webmaster Central Blog」で述べている内容と、それに対する解説記事「Google、動的URLの扱いに新見解「動的URLのままで問題なし」:渡辺隆広のサーチエンジン情報館 – CNET Japan」を読んでみました。
ややこしいですね、、。
- Googleが扱える動的URLのパラメータ数に制限はない
- 複数の動的URLで重複コンテンツがあれば、Googleは無駄なパラメータを探そうとする
- URLを静的化してもよいが、複数のURLでコンテンツが重複しないようにね
うーん、動的URLのままでコンテンツが重複していたとしても、「Googleが勝手に無駄なパラメータを見つけるから大丈夫」ということかな。ただ、場合によってはGoogleが間違えることだってありえます。そう考えると静的URLのほうがいいのかもと思います。
しかし、そもそも動的URLの場合であっても、すべてのコンテンツが異なるもの(異なるの度合いはわからないけど)であれば、Googleは無駄なパラメータ探しをしないと思います。そのほうが効率的ですし。
Googleが無駄なパラメータを見つける方法は定かではありませんが、無駄なパラメータを省略した結果として1000個の動的URLが重複扱いされたとすると、その1000個のURLに対するクロール負荷が無駄なものだったということになります。
クローラーが1日にクロールするページ数には上限があるはずです。検索エンジンにサイトの最新の内容をなるべく早く登録/更新してもらうという意味でも、クローラーの負荷を減らすという意味でも、最初からサイト運営者側で重複するコンテンツのURLをユニークにしておくことは重要でしょう。
そのためにはURLを適切に静的化する以外に、robots.txtで不要パラメータに対するクロールをブロックするとか、.htaccessやmod_rewriteで301リダイレクトさせるといった複数の対策をしておく必要があります。
ただ、Googleが提示している例のように「セッションIDまでも静的URLにしているようなサイト」が増えてしまうと問題なので、「そんな無駄なことをされるよりは動的URLのまま処理できるようにしよう」という考えに至ったんだと思います。
コメントを残す