robot.txt とは何ですか?ウェブサイトをインデックスするためにどのように使用しますか?

robot.txt とは何ですか?ウェブサイトをインデックスするためにどのように使用しますか?

プロのウェブサイト運営者は、多くの場合、自分のウェブサイトを検索エンジンでより目立たせることを目指します。 これを行うための要件の 1 つは、すべての URL が検索ロボットによって読み取られ、正しくインデックス付けされるようにすることです。 これは簡単な作業のように思えますが、検索エンジンがウェブサイト全体をクロールすることはほとんどないことに注意することが重要です。 Google のウェブサイト コンテンツの収集と保存機能にも限界があります。 代わりに、各ドメインには特定のクロール バジェットが割り当てられ、これによって読み取られる URL の数と、必要に応じてインデックスが作成される URL の数が決まります。 大規模なウェブサイトの運営者は、特定のページのどの部分をクロールし、どのページを無視するかを検索ロボットに指示する信号を送信することで、この問題に戦略的に取り組むことが推奨されます。 インデックス管理に重要なツールには、メタタグ内のロボットデータ、正規タグ、リダイレクト、そして今日ご紹介する robots.txt ファイルなどがあります。

robots.txt ファイルを使用してウェブサイトのインデックスを管理する

robot.txt とは何ですか?

Robots.txt は、ドメインのルート ディレクトリに保存されるテキスト ファイルです。 これらのファイルを使用すると、Web サイト運営者は、サイトの選択した部分で一部またはすべての検索ロボットをブロックすることにより、サイトへの検索エンジンのアクセスを制御できます。 robots.txt ファイルにある情報は、ディレクトリ ツリー全体を参照します。 後者の側面により、このインデックス管理ツールは、特殊な HTML ドキュメントにのみ適用されるメタ ロボット データやリダイレクトとは大きく異なります。 この文脈では、「ブロック」という言葉に特別な注意を払う必要があります。 検索エンジンは robots.txt ファイルをガイドラインとしてのみ解釈します。つまり、検索エンジンに対して特定のクロール動作を強制することはできません。 Google や他の大手検索エンジンは、これらの指示に従っていると主張しています。 ただし、不正アクセスを防ぐ唯一の方法は、強力なパスワード保護対策を実施することです。

robot.txt を作成する

検索ロボットが個別のクロール ガイドラインにアクセスできるようにするには、プレーン テキスト ファイルに「robots.txt」という名前を付け、ドメインのルート ディレクトリに保存する必要があります。たとえば、ドメイン example.com のクロール ガイドラインを定義する場合は、robots.txt を www.example.com と同じディレクトリに保存する必要があります。インターネット経由でアクセスすると、このファイルは www.example.com/robots.txt にあります。ウェブサイトのホスティング モデルがサーバーのルート ディレクトリへのアクセスを提供せず、サブフォルダー (www.example.com/user/ など) へのアクセスのみを提供する場合、robots.txt ファイルを使用してインデックス管理を実現することはできません。 robots.txt を設定する Web サイト運営者は、vi (Linux) や notpad.exe (Windows) などのプレーン テキスト エディターを使用する必要があります。FTP 転送を実行する場合は、ファイルが ASCII モードで転送されるようにすることも重要です。オンラインでは、robots.txt ジェネレータを使用してこのファイルを作成できます。構文エラーは Web プロジェクトのインデックス作成に破壊的な影響を及ぼす可能性があるため、テキスト ファイルをアップロードする前にテストすることをお勧めします。 Google の Search Console には、このためのツールが用意されています。

Robots.txt の構造

各 robots.txt ファイルは 2 つの部分で構成されます。 最初の部分ではキーワード、ユーザーエージェントを紹介し、2 番目の部分では指示を与えることができる検索ロボットを紹介します。 これらは、クロール禁止を処理するためのルールを説明しています。 これらのコマンドは、キーワード disallow によって開始され、ディレクトリまたは複数のファイルの名前を指定します。 結果は次の基本構造になります。

ユーザーエージェント: Googlebot
禁止: /temp/
禁止: /news.html
禁止: /print

上記の例の robots.txt は、「Googlebot」という名前の Web クローラーにのみ適用され、/temp/ ディレクトリと news ファイルの読み取りを「禁止」します。 さらに、パスが print で始まるすべてのファイルとディレクトリがブロックされます。 ここで、disallow: /temp/ と disallow: /print は、末尾のスラッシュ (/) がないことによってのみ (構文的に) 区別できることに留意してください。これにより、robots.txt の構文ではまったく異なる意味になります。

コメントを挿入

必要に応じて、robot.txt ファイルにコメントを追加できます。 次に、前述のハッシュタグでタグ付けします。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
disallow: /temp/ # ディレクトリには一時データが含まれています
disallow: /print/ # ディレクトリには印刷ページが含まれています
disallow: /news.html # ファイルは毎日変更されます

複数のユーザーエージェントの処理

複数のユーザーエージェントを処理する場合は、robots.txt にその構造に従って任意の数のブロックを含めることができます。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
禁止: /temp/
   
ユーザーエージェント: Bingbot
禁止: /print/

Google の Web クローラーはディレクトリ /temp/ の検索が禁止されていますが、Bing ボットは /print/ のクロールがブロックされています。

すべてのユーザーエージェントを解決する

特定のディレクトリまたはファイルをすべての Web クローラーからブロックする必要がある場合は、すべてのユーザーのワイルドカードを表すアスタリスク (*) を実装します。

 # http://www.example.com の robots.txt

ユーザーエージェント: *
禁止: /temp/
禁止: /print/
禁止: /pictures/

robots.txt ファイルは、すべての Web クローラーから /temp/、/print/、および /pictures/ ディレクトリをブロックします。

すべてのディレクトリをインデックスから除外する

ウェブサイトがすべてのユーザーエージェントを完全にブロックする必要がある場合は、キーワード disallow の後にスラッシュを追加するだけです。

 # http://www.example.com の robots.txt

 ユーザーエージェント: *
 禁止: /

すべてのウェブクローラーはサイト全体を無視するように指示されました。 たとえば、このような robot.txt ファイルは、まだテスト段階にある Web プロジェクトで使用できます。

すべてのディレクトリのインデックス作成を許可する

ウェブ運営者は、末尾のスラッシュなしでキーワード「barred」を適用することで、検索ロボットがサイト全体をクロールしてインデックスできるようにすることができます。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
許可しない:

robot.txt ファイルに末尾のスラッシュなしの disallow が含まれている場合、ユーザーエージェントで定義された Web クローラーはサイト全体を自由に使用できます。

表1: robots.txtの基本機能

注文関数
ユーザーエージェント:ユーザーエージェント: Googlebot特定のウェブクローラーを解決する
ユーザーエージェント:すべてのウェブクローラーを解決する
許可しない:許可しない:ウェブサイト全体をクロールできる
禁止: /サイト全体がブロックされています
禁止: /ディレクトリ/特定のディレクトリがブロックされています
禁止: /file.html特定のファイルがブロックされています
禁止: /例パスがexampleで始まるすべてのディレクトリとファイルはブロックされます

その他の機能

上記の事実上の標準機能に加えて、検索エンジンは、robots.txt にコンテンツを表示できるようにするいくつかの追加パラメータをサポートしています。

以下の機能は、Google のサポート セクションで確認できます。 これらは、Microsoft および Yahoo! との契約に基づいています。

例外の定義

Google は、disallow に加えて、robots.txt 内の別のキーワードである allow もサポートしており、ブロックされたディレクトリの例外を定義できます。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
禁止: /news/
許可: /news/index.html

キーワード allow により、上位ディレクトリ news がブロックされている場合でも、ファイル "http://www.example.com/news/index.html" を Google ボットが読み取ることができるようになります。

特定の末尾を持つファイルをブロックする

Google ボットが特定の末尾を持つファイルを読み取るのを防ぎたいウェブサイト運営者は、次の例に従ってデータセットを使用できます。

 # http://www.example.com の robots.txt

ユーザーエージェント: Googlebot
禁止: /*.pdf$

キーワード disallow は、.pdf で終わるすべてのファイルを参照し、これらの Google をボット攻撃から保護します。 アスタリスク(*)はドメイン名のワイルドカード文字として使用されます。 このエントリは、行末アンカーとして機能するドル記号で完了します。

サイトマップにウェブクローラーを推奨

robots.txt ファイルは、クロール動作を制御するだけでなく、検索ロボットが Web サイトのサイトマップを参照できるようにもします。 サイトマップ参照を含む robots.txt は次のように呼び出すことができます。

 # http://www.example.com の robots.txt

ユーザーエージェント: *
禁止: /temp/

サイトマップ: http://www.example.com/sitemap.xml

表2: 拡張されたrobots.txtの機能

注文関数
許可する:許可: /example.html入力ファイルまたはディレクトリを取得できません
禁止: /*…$禁止: /*.jpg$特定の末尾を持つファイルはブロックされます
サイトマップ:サイトマップ: http://www.example.com/sitemap.xml XMLサイトマップは入力したアドレスにあります

<<:  スタックテーブルとは何ですか? CSS でスタックフォームを作成する方法は?

>>:  Huawei Qiankun 端末セキュリティ ソフトウェア (あらゆる種類のマルウェアをブロック) v1.1.11.68

推薦する

NetEase Mail Master APP (Android メール ソフトウェア) v7.15.2 広告なしバージョン

📱NetEase Mail Master アプリは、すべてのメール クライアントを管理するための 1...

CorelDRAW Graphics Suite 2024 v25.2.1.313 中国語直接インストール版

CorelDRAW Graphics Suite 2024 は、イラスト、ページ レイアウト、写真編...

テスラのモデルXとモデルY電気自動車の違いは何ですか?

電気自動車は極めて人気が高まっているが、テスラの推定50%の市場シェアに匹敵できる企業は一つもない。...

ON1 Photo RAW MAX(写真後処理ソフト)2025.1 v19​​.1.0.16236

ON1 Photo RAW は、強力な写真編集ソフトウェアであり、写真家が必要とするすべてを 1 ...

Windows 12 の機能、噂、リリース日など

Windows 12 は Windows 11 の後継であり、2024 年末にリリースされる予定です...

Fast Screen Recorder(スクリーン録画ツール)v2.1.0.11 中国語直接インストール版

Fast Screen Recorder は、コンピューター画面上のアクティビティを記録するために特...

JetBrains Rider (.NET 統合開発環境) 2024.3.5 直接インストール アクティベーション バージョン

JetBrains Rider は、高速で安定した強力なクロスプラットフォーム .NET 統合開発環...

Android 携帯でネットワーク IP アドレスを切り替えるにはどうすればいいですか?

Android 携帯のネットワーク IP アドレスを切り替えるにはどうすればよいでしょうか? 多く...

デバイス情報アプリ(モバイルパラメータアプリ)v2.9.9 プロフェッショナルエディションのロック解除

📱DeviceInfoアプリ(DeviceInfo携帯電話パラメータアプリ)は、携帯電話のハードウェ...

MobiOffice Premium + PDF v15.2.55226 プレミアムエディションのロック解除

📱MobiOffice Premium は、携帯電話、タブレット、PC での使用をサポートし、ドキュ...

CorelDRAW Graphics Suite 2024 v25.2.1.313 中国語クラック版

CorelDRAW Graphics Suite は、CorelDRAW、Corel PHOTO-P...

Veyon (オープンソースの電子教室管理ソフトウェア) v4.9.3.0

Veyon はもともと Linux ベースの教育用ネットワーク管理ソフトウェアでしたが、現在は W...

正式版丨最新バージョンダウンロード丨バージョン番号 4.0.4

Ziyou は、文字変換、グリフ分析、グリフ結合、テキスト組版などの複数の機能を統合した中国語組版...

オリジナル記事がAIライティングツールを上回る様々な方法を紹介

人工知能が芸術から執筆までクリエイティブ産業に進出し続ける中、コンテンツライターは当然ながら自らのク...

簡単に視聴できるアプリ(無料のAndroidビデオソフトウェア)v23.06.15広告なしバージョン

📱Yikan Pro は、ブラウザ、ビデオ プレーヤー、ダウンローダーを統合したネットワーク セキュ...