robot.txt とは何ですか?ウェブサイトをインデックスするためにどのように使用しますか?

プロのウェブサイト運営者は、多くの場合、自分のウェブサイトを検索エンジンでより目立たせることを目指します。これを行うための要件の 1 つは、すべての URL が検索ロボットによって読み取られ、正しくインデックス付けされるようにすることです。これは簡単な作業のように思えますが、検索エンジンがウェブサイト全体をクロールすることはほとんどないことに注意することが重要です。 Google のウェブサイトコンテンツの収集と保存機能にも限界があります。代わりに、各ドメインには特定のクロールバジェットが割り当てられ、これによって読み取られる URL の数と、必要に応じてインデックスが作成される URL の数が決まります。大規模なウェブサイトの運営者は、特定のページのどの部分をクロールし、どのページを無視するかを検索ロボットに指示する信号を送信することで、この問題に戦略的に取り組むことが推奨されます。インデックス管理に重要なツールには、メタタグ内のロボットデータ、正規タグ、リダイレクト、そして今日ご紹介する robots.txt ファイルなどがあります。

robots.txt ファイルを使用してウェブサイトのインデックスを管理する

robot.txt とは何ですか?

Robots.txt は、ドメインのルートディレクトリに保存されるテキストファイルです。これらのファイルを使用すると、Web サイト運営者は、サイトの選択した部分で一部またはすべての検索ロボットをブロックすることにより、サイトへの検索エンジンのアクセスを制御できます。 robots.txt ファイルにある情報は、ディレクトリツリー全体を参照します。後者の側面により、このインデックス管理ツールは、特殊な HTML ドキュメントにのみ適用されるメタロボットデータやリダイレクトとは大きく異なります。この文脈では、「ブロック」という言葉に特別な注意を払う必要があります。検索エンジンは robots.txt ファイルをガイドラインとしてのみ解釈します。つまり、検索エンジンに対して特定のクロール動作を強制することはできません。 Google や他の大手検索エンジンは、これらの指示に従っていると主張しています。ただし、不正アクセスを防ぐ唯一の方法は、強力なパスワード保護対策を実施することです。

robot.txt を作成する

検索ロボットが個別のクロールガイドラインにアクセスできるようにするには、プレーンテキストファイルに「robots.txt」という名前を付け、ドメインのルートディレクトリに保存する必要があります。たとえば、ドメイン example.com のクロールガイドラインを定義する場合は、robots.txt を www.example.com と同じディレクトリに保存する必要があります。インターネット経由でアクセスすると、このファイルは www.example.com/robots.txt にあります。ウェブサイトのホスティングモデルがサーバーのルートディレクトリへのアクセスを提供せず、サブフォルダー (www.example.com/user/ など) へのアクセスのみを提供する場合、robots.txt ファイルを使用してインデックス管理を実現することはできません。 robots.txt を設定する Web サイト運営者は、vi (Linux) や notpad.exe (Windows) などのプレーンテキストエディターを使用する必要があります。FTP 転送を実行する場合は、ファイルが ASCII モードで転送されるようにすることも重要です。オンラインでは、robots.txt ジェネレータを使用してこのファイルを作成できます。構文エラーは Web プロジェクトのインデックス作成に破壊的な影響を及ぼす可能性があるため、テキストファイルをアップロードする前にテストすることをお勧めします。 Google の Search Console には、このためのツールが用意されています。

Robots.txt の構造

各 robots.txt ファイルは 2 つの部分で構成されます。最初の部分ではキーワード、ユーザーエージェントを紹介し、2 番目の部分では指示を与えることができる検索ロボットを紹介します。これらは、クロール禁止を処理するためのルールを説明しています。これらのコマンドは、キーワード disallow によって開始され、ディレクトリまたは複数のファイルの名前を指定します。結果は次の基本構造になります。

ユーザーエージェント: Googlebot
禁止: /temp/
禁止: /news.html
禁止: /print

上記の例の robots.txt は、「Googlebot」という名前の Web クローラーにのみ適用され、/temp/ ディレクトリと news ファイルの読み取りを「禁止」します。さらに、パスが print で始まるすべてのファイルとディレクトリがブロックされます。ここで、disallow: /temp/ と disallow: /print は、末尾のスラッシュ (/) がないことによってのみ (構文的に) 区別できることに留意してください。これにより、robots.txt の構文ではまったく異なる意味になります。

コメントを挿入

必要に応じて、robot.txt ファイルにコメントを追加できます。次に、前述のハッシュタグでタグ付けします。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
disallow: /temp/ # ディレクトリには一時データが含まれています
disallow: /print/ # ディレクトリには印刷ページが含まれています
disallow: /news.html # ファイルは毎日変更されます

複数のユーザーエージェントの処理

複数のユーザーエージェントを処理する場合は、robots.txt にその構造に従って任意の数のブロックを含めることができます。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
禁止: /temp/
   
ユーザーエージェント: Bingbot
禁止: /print/

Google の Web クローラーはディレクトリ /temp/ の検索が禁止されていますが、Bing ボットは /print/ のクロールがブロックされています。

すべてのユーザーエージェントを解決する

特定のディレクトリまたはファイルをすべての Web クローラーからブロックする必要がある場合は、すべてのユーザーのワイルドカードを表すアスタリスク (*) を実装します。

 # http://www.example.com の robots.txt

ユーザーエージェント: *
禁止: /temp/
禁止: /print/
禁止: /pictures/

robots.txt ファイルは、すべての Web クローラーから /temp/、/print/、および /pictures/ ディレクトリをブロックします。

すべてのディレクトリをインデックスから除外する

ウェブサイトがすべてのユーザーエージェントを完全にブロックする必要がある場合は、キーワード disallow の後にスラッシュを追加するだけです。

 # http://www.example.com の robots.txt

 ユーザーエージェント: *
 禁止: /

すべてのウェブクローラーはサイト全体を無視するように指示されました。たとえば、このような robot.txt ファイルは、まだテスト段階にある Web プロジェクトで使用できます。

すべてのディレクトリのインデックス作成を許可する

ウェブ運営者は、末尾のスラッシュなしでキーワード「barred」を適用することで、検索ロボットがサイト全体をクロールしてインデックスできるようにすることができます。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
許可しない:

robot.txt ファイルに末尾のスラッシュなしの disallow が含まれている場合、ユーザーエージェントで定義された Web クローラーはサイト全体を自由に使用できます。

表1: robots.txtの基本機能

注文	例	関数
ユーザーエージェント:	ユーザーエージェント: Googlebot	特定のウェブクローラーを解決する
	ユーザーエージェント:	すべてのウェブクローラーを解決する
許可しない:	許可しない:	ウェブサイト全体をクロールできる
	禁止: /	サイト全体がブロックされています
	禁止: /ディレクトリ/	特定のディレクトリがブロックされています
	禁止: /file.html	特定のファイルがブロックされています
	禁止: /例	パスがexampleで始まるすべてのディレクトリとファイルはブロックされます

その他の機能

上記の事実上の標準機能に加えて、検索エンジンは、robots.txt にコンテンツを表示できるようにするいくつかの追加パラメータをサポートしています。

以下の機能は、Google のサポートセクションで確認できます。これらは、Microsoft および Yahoo! との契約に基づいています。

例外の定義

Google は、disallow に加えて、robots.txt 内の別のキーワードである allow もサポートしており、ブロックされたディレクトリの例外を定義できます。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
禁止: /news/
許可: /news/index.html

キーワード allow により、上位ディレクトリ news がブロックされている場合でも、ファイル "http://www.example.com/news/index.html" を Google ボットが読み取ることができるようになります。

特定の末尾を持つファイルをブロックする

Google ボットが特定の末尾を持つファイルを読み取るのを防ぎたいウェブサイト運営者は、次の例に従ってデータセットを使用できます。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
禁止: /*.pdf$

キーワード disallow は、.pdf で終わるすべてのファイルを参照し、これらの Google をボット攻撃から保護します。アスタリスク（*）はドメイン名のワイルドカード文字として使用されます。このエントリは、行末アンカーとして機能するドル記号で完了します。

サイトマップにウェブクローラーを推奨

robots.txt ファイルは、クロール動作を制御するだけでなく、検索ロボットが Web サイトのサイトマップを参照できるようにもします。サイトマップ参照を含む robots.txt は次のように呼び出すことができます。

 # http://www.example.com の robots.txt

ユーザーエージェント: *
禁止: /temp/

サイトマップ: http://www.example.com/sitemap.xml

表2: 拡張されたrobots.txtの機能

注文	例	関数
許可する：	許可: /example.html	入力ファイルまたはディレクトリを取得できません
禁止: /*…$	禁止: /*.jpg$	特定の末尾を持つファイルはブロックされます
サイトマップ:	サイトマップ: http://www.example.com/sitemap.xml	XMLサイトマップは入力したアドレスにあります