クロールバジェットとは?検索エンジンのコスト意識を理解してサイト設計を見直す
戦略一覧
SEO
2020.07.26

クロールバジェットとは?検索エンジンのコスト意識を理解してサイト設計を見直す

クロールバジェットを意識して、皆さんのコストがかかるサイトの設計を見直していく必要があるということについて学んでいきましょう。

広報やマーケティング担当者がこの情報を知ってくれば、社内外で一目置かれることは間違いありません。

 

クロールバジェットとは?すべてのサイトは等しくクロールされない

世界中のすべてのサイトのすべてのページにアクセスしていると、100億ページ以上に毎月アクセスする必要があります。

仮に100億ページを月に1回巡回するためには、1秒間に3858ページをクロールする必要があります。ただ全部のサイトやページは平等ではありません。重要なコンテンツが詰まっているサイトや、更新が速く情報の新鮮さが重要なページは優先して、高速にクロールされるのが実態です。

そのとき、サイトの重要性とページごとの更新速度を考慮してクロール速度が決められます。

 

クロールバジェットでクロールされるページ数が決まります

クロール頻度に加えて、もうひとつ序列が決まるのが、サイト内で何ページまでクロールするかです。

重要なサイトであれば多くのページがあっても全部クロールすべきですし、ほとんど中身のないサイトであれば何百万ページあったとしても1ページしかクロールしないかもしれません。このように、サイトの重要度によって検索エンジンがクロールするページ数は決まっているようです。

この検索エンジンがクロールするページ数のことを「クロールバジェット」と呼んでいて、人気度や更新頻度が高いサイトほど大きなクロールバジェットを持つ傾向にあります。

 

サイト設計を見直してクロール効率を最大化する方法6選

残念ながら、クロールバジェットがいくつなのかを知る方法はありません。

では、具体的に何をすればいいのでしょうか?サイト内のページ数が比較的多い、中・大規模サイトの場合には、まずクロールバジェットを節約することをおすすめします。以下のような方法でクロールバジェットの節約が可能となります。節約できる部分がないか、エンジニアと相談しましょう。

■404

404とはサイトにアクセスしたものの該当するページがないことを示すエラーメッセージです。削除されたページは、HTTPレスポンスコードとして、サーバーから404を返すことによって、いずれそのURLはクロール対象から外されます。

この設定が正しくできているかどうかをチェックするには、開発者ツールで「結果」が「404」になているかどうかを確認します。「200」になっているサイトも見かけますが、その場合、クローラーはクロールを続けてしまいます。

■並べ替え

リスト一覧ページでの価格順などの並べ替えページは、訪問者にとっては必要ですが、検索エンジンにとっては並べ替える前のページと同じ内容なので不要なものとみなされます。並べ替えページへのリンクは、AJAX化して同一URLのまま表示すれば、バジェットを節約できます。

または、「https://example2.com/fruits/」というページがあり、並べ替えのページが「https://example2.com/fruits/?sort=asc」というURLだとすると、後者のHTML内にcanonicalタグの記述をして前者のページと同一であることを宣言することもできます。ただし、この方法ではあまり大きなクロールバジェットの節約にはなりません。

■類似ページ

オートバイのヘルメットなどで、色ごとに型番が異なるような場合は、ユーザーは全色を1ページで見たいと想定されます。

もし、全色を一覧できるページと各色のページがそれぞれ別に存在するような場合には、各色のページは類似ページと認識されます。このようなページはAJAXによる画面内での画像の差し替えなどを用いて、各色のページがクロールされないようにするといいでしょう。

■トラッキングパラメーター

アクセス解析のためにトラッキングパラメーターが使われることが多いのですが、トラッキングパラメーター付きのURLはトラッキングパラメーターなしのURLとは厳密には異なるので、クロールバジェットを消費してしまいます。

並べ替えや類似ページほどパターンは多くないケースが多いですが、対策しておいてください。クロールバジェットの節約のためには、トラッキングパラメーターを使わず、例えばGoogleアナリティクスとGoogleタグマネージャーを組み合わせて自動イベントトラッキングを使って、自動的に指定したページのみリンクのクリックの記録を取得するなどの方法を取るといいでしょう。

Search Consoleを使って特定のトラッキングパラメーターをクロール対象から外すことができますが、Googleにとって、サイト内で実際にシステムが使用しているパラメーターと、外部サイトから付与されるトラッキングパラメーターは区別がつかないため、間違って重要なページをインデックスから削除するリスクがあり、使用はおすすめしません。

■ページネーション

ページネーションは訪問者にも検索エンジンにも重要ですが、1ページ内に表示している情報の件数が少ないと、結果としてページ数が増え、クロールバジェットを消費してしまいます。

例えばファッションECサイトの「トップス」ページで1000ページ以上のページは送りが必要になる場合、このページではページ送りを表示せず、絞り込んだ「トップス」-「キャミソール」のページでページ送りを表示すると、無駄なクロールを抑えられます。また「キャミソール」のページでも、1ページに10件表示ではなく、30件や60件など、閲覧しやすい限り多めの商品数を載せたほうが、クロールバジェットの観点からは好影響になります。

■サイト内検索

サイト内検索結果をトップページからリンクしているような場合、サイト内検索結果がインデックスされてしまうことがあります。むやみにインデックスさせないように注意するとともに、意図的にインデックスさせる場合には、サイト内検索結果画面内に、別のサイト内検索結果画面へのリンクを絶対に張らないようにしてください。

クローラーが無限にサイト内検索結果画面をクロールし続けるリスクがあり、非常に多くのクロールバジェットを消費してしまいます。サイト内検索結果をインデックスさせない通常の場合、サイト内検索の検索語のパラメーターはGETとして画面に表示させ、パラメーター名には他のサイト内で使われているモノとは異なる、ユニークなものを使用します。こうすることにより、Googleアナリティクスなどでサイト内検索語を分析できるようになるだけでなく、Search Consoleで容易にサイト内検索をインデックスから安全に除外できます。

 

クロールバジェットまとめ 検索エンジンもビジネス!コスト削減に双方でつとめよう

検索エンジンもビジネスなので、コスト削減に真剣に取り組んでいます。その最たるものが「クロールバジェット」です。

小・中規模サイトでは気にする必要はありませんが、大規模サイトのWeb担当者は知っておくべき概念です。


執筆者・監修者
上岡正明
テレビコメンテーター・経済記者
戦略PRプランナー・著書26冊累計105万部のビジネス作家
登録者25万人のYoutuber
上岡正明

MBA(多摩大学院経営情報学修了)
テレビコメンテーター
多摩大学客員講師(18,19)
帝塚山大学客員講師(19)
登録者24万人のビジネス系YouTube

「スーパーJチャンネル」「めざましテレビ」「王様のブランチ」「クイズミリオネア」等の元放送作家。日本を代表するPR戦略の専門家で、企業広報のスペシャリスト。未上場から上場企業まで戦略PRを手掛けたクライアントは300社以上。

広報ブランディング、新規事業構築、外資系企業の国内イベント、海外プロモーション支援のコンサルティング会社代表。現在まで約20年間、実業家として会社を経営。これまでに三井物産、SONY、三菱鉛筆、日本瓦斯など200社以上の広報支援、スウェーデン大使館やドバイ政府観光局などの国際観光誘致イベントなどを行う。

代表的なコンサルティング案件としては、日本中の女性たちの心を動かした「表参道のパンケーキブーム」、1年で200万台以上を売り上げた「ふとん専用掃除機レイコップ」、世界が注目する食イベント「肉フェス」、1カ月で6000万人(日本の約半分)にバズらせた「ジャポニカ学習帳“昆虫の表紙が変わった?”」がある。

経営と並行してMBA(情報工学博士前期課程)取得。東京都中小企業振興公社講師。成蹊大学、多摩大学、帝塚山大学の客員講師。東洋経済新報社、ダイヤモンド社、朝日新聞出版社、PHP出版、総合法令出版社、アスコム社、大和出版、すばる舎、宝島社から累計21冊80万部の著書を上梓。

日本神経心理学会、日本行動心理学学会、行動経済学学会、一般社団法人日本行動分析学会、日本社会心理学会、一般社団法人日本小児心身医学会、認知神経科学会の各学会員。

日経ヴェリタス・東洋経済オンライン・ダイヤモンドオンライン・プレジデントの4大経済メディアで専門家として記事連載もおこなっております。お読みになりたい方はこちらからご覧下さい。

①:東洋経済オンラインでの連載記事
②:ダイヤモンドオンラインでの連載記事
③:プレジデントでの連載記事
④:日本経済新聞での連載記事