プロのウェブサイト運営者は、多くの場合、自分のウェブサイトを検索エンジンでより目立たせることを目指します。 これを行うための要件の 1 つは、すべての URL が検索ロボットによって読み取られ、正しくインデックス付けされるようにすることです。 これは簡単な作業のように思えますが、検索エンジンがウェブサイト全体をクロールすることはほとんどないことに注意することが重要です。 Google のウェブサイト コンテンツの収集と保存機能にも限界があります。 代わりに、各ドメインには特定のクロール バジェットが割り当てられ、これによって読み取られる URL の数と、必要に応じてインデックスが作成される URL の数が決まります。 大規模なウェブサイトの運営者は、特定のページのどの部分をクロールし、どのページを無視するかを検索ロボットに指示する信号を送信することで、この問題に戦略的に取り組むことが推奨されます。 インデックス管理に重要なツールには、メタタグ内のロボットデータ、正規タグ、リダイレクト、そして今日ご紹介する robots.txt ファイルなどがあります。 robots.txt ファイルを使用してウェブサイトのインデックスを管理する robot.txt とは何ですか?Robots.txt は、ドメインのルート ディレクトリに保存されるテキスト ファイルです。 これらのファイルを使用すると、Web サイト運営者は、サイトの選択した部分で一部またはすべての検索ロボットをブロックすることにより、サイトへの検索エンジンのアクセスを制御できます。 robots.txt ファイルにある情報は、ディレクトリ ツリー全体を参照します。 後者の側面により、このインデックス管理ツールは、特殊な HTML ドキュメントにのみ適用されるメタ ロボット データやリダイレクトとは大きく異なります。 この文脈では、「ブロック」という言葉に特別な注意を払う必要があります。 検索エンジンは robots.txt ファイルをガイドラインとしてのみ解釈します。つまり、検索エンジンに対して特定のクロール動作を強制することはできません。 Google や他の大手検索エンジンは、これらの指示に従っていると主張しています。 ただし、不正アクセスを防ぐ唯一の方法は、強力なパスワード保護対策を実施することです。 robot.txt を作成する検索ロボットが個別のクロール ガイドラインにアクセスできるようにするには、プレーン テキスト ファイルに「robots.txt」という名前を付け、ドメインのルート ディレクトリに保存する必要があります。たとえば、ドメイン example.com のクロール ガイドラインを定義する場合は、robots.txt を www.example.com と同じディレクトリに保存する必要があります。インターネット経由でアクセスすると、このファイルは www.example.com/robots.txt にあります。ウェブサイトのホスティング モデルがサーバーのルート ディレクトリへのアクセスを提供せず、サブフォルダー (www.example.com/user/ など) へのアクセスのみを提供する場合、robots.txt ファイルを使用してインデックス管理を実現することはできません。 robots.txt を設定する Web サイト運営者は、vi (Linux) や notpad.exe (Windows) などのプレーン テキスト エディターを使用する必要があります。FTP 転送を実行する場合は、ファイルが ASCII モードで転送されるようにすることも重要です。オンラインでは、robots.txt ジェネレータを使用してこのファイルを作成できます。構文エラーは Web プロジェクトのインデックス作成に破壊的な影響を及ぼす可能性があるため、テキスト ファイルをアップロードする前にテストすることをお勧めします。 Google の Search Console には、このためのツールが用意されています。 Robots.txt の構造各 robots.txt ファイルは 2 つの部分で構成されます。 最初の部分ではキーワード、ユーザーエージェントを紹介し、2 番目の部分では指示を与えることができる検索ロボットを紹介します。 これらは、クロール禁止を処理するためのルールを説明しています。 これらのコマンドは、キーワード disallow によって開始され、ディレクトリまたは複数のファイルの名前を指定します。 結果は次の基本構造になります。 ユーザーエージェント: Googlebot 禁止: /temp/ 禁止: /news.html 禁止: /print 上記の例の robots.txt は、「Googlebot」という名前の Web クローラーにのみ適用され、/temp/ ディレクトリと news ファイルの読み取りを「禁止」します。 さらに、パスが print で始まるすべてのファイルとディレクトリがブロックされます。 ここで、disallow: /temp/ と disallow: /print は、末尾のスラッシュ (/) がないことによってのみ (構文的に) 区別できることに留意してください。これにより、robots.txt の構文ではまったく異なる意味になります。 コメントを挿入 必要に応じて、robot.txt ファイルにコメントを追加できます。 次に、前述のハッシュタグでタグ付けします。 # http://www.example.com の robots.txt ユーザーエージェント: Googlebot disallow: /temp/ # ディレクトリには一時データが含まれています disallow: /print/ # ディレクトリには印刷ページが含まれています disallow: /news.html # ファイルは毎日変更されます 複数のユーザーエージェントの処理 複数のユーザーエージェントを処理する場合は、robots.txt にその構造に従って任意の数のブロックを含めることができます。 # http://www.example.com の robots.txt ユーザーエージェント: Googlebot 禁止: /temp/ ユーザーエージェント: Bingbot 禁止: /print/ Google の Web クローラーはディレクトリ /temp/ の検索が禁止されていますが、Bing ボットは /print/ のクロールがブロックされています。 すべてのユーザーエージェントを解決する 特定のディレクトリまたはファイルをすべての Web クローラーからブロックする必要がある場合は、すべてのユーザーのワイルドカードを表すアスタリスク (*) を実装します。 # http://www.example.com の robots.txt ユーザーエージェント: * 禁止: /temp/ 禁止: /print/ 禁止: /pictures/ robots.txt ファイルは、すべての Web クローラーから /temp/、/print/、および /pictures/ ディレクトリをブロックします。 すべてのディレクトリをインデックスから除外する ウェブサイトがすべてのユーザーエージェントを完全にブロックする必要がある場合は、キーワード disallow の後にスラッシュを追加するだけです。 # http://www.example.com の robots.txt ユーザーエージェント: * 禁止: / すべてのウェブクローラーはサイト全体を無視するように指示されました。 たとえば、このような robot.txt ファイルは、まだテスト段階にある Web プロジェクトで使用できます。 すべてのディレクトリのインデックス作成を許可する ウェブ運営者は、末尾のスラッシュなしでキーワード「barred」を適用することで、検索ロボットがサイト全体をクロールしてインデックスできるようにすることができます。 # http://www.example.com の robots.txt ユーザーエージェント: Googlebot 許可しない: robot.txt ファイルに末尾のスラッシュなしの disallow が含まれている場合、ユーザーエージェントで定義された Web クローラーはサイト全体を自由に使用できます。 表1: robots.txtの基本機能
その他の機能上記の事実上の標準機能に加えて、検索エンジンは、robots.txt にコンテンツを表示できるようにするいくつかの追加パラメータをサポートしています。 以下の機能は、Google のサポート セクションで確認できます。 これらは、Microsoft および Yahoo! との契約に基づいています。 例外の定義 Google は、disallow に加えて、robots.txt 内の別のキーワードである allow もサポートしており、ブロックされたディレクトリの例外を定義できます。 # http://www.example.com の robots.txt ユーザーエージェント: Googlebot 禁止: /news/ 許可: /news/index.html キーワード allow により、上位ディレクトリ news がブロックされている場合でも、ファイル "http://www.example.com/news/index.html" を Google ボットが読み取ることができるようになります。 特定の末尾を持つファイルをブロックする Google ボットが特定の末尾を持つファイルを読み取るのを防ぎたいウェブサイト運営者は、次の例に従ってデータセットを使用できます。 # http://www.example.com の robots.txt ユーザーエージェント: Googlebot 禁止: /*.pdf$ キーワード disallow は、.pdf で終わるすべてのファイルを参照し、これらの Google をボット攻撃から保護します。 アスタリスク(*)はドメイン名のワイルドカード文字として使用されます。 このエントリは、行末アンカーとして機能するドル記号で完了します。 サイトマップにウェブクローラーを推奨 robots.txt ファイルは、クロール動作を制御するだけでなく、検索ロボットが Web サイトのサイトマップを参照できるようにもします。 サイトマップ参照を含む robots.txt は次のように呼び出すことができます。 # http://www.example.com の robots.txt ユーザーエージェント: * 禁止: /temp/ サイトマップ: http://www.example.com/sitemap.xml 表2: 拡張されたrobots.txtの機能
|
<<: スタックテーブルとは何ですか? CSS でスタックフォームを作成する方法は?
>>: Huawei Qiankun 端末セキュリティ ソフトウェア (あらゆる種類のマルウェアをブロック) v1.1.11.68
📱NetEase Mail Master アプリは、すべてのメール クライアントを管理するための 1...
CorelDRAW Graphics Suite 2024 は、イラスト、ページ レイアウト、写真編...
電気自動車は極めて人気が高まっているが、テスラの推定50%の市場シェアに匹敵できる企業は一つもない。...
ON1 Photo RAW は、強力な写真編集ソフトウェアであり、写真家が必要とするすべてを 1 ...
Windows 12 は Windows 11 の後継であり、2024 年末にリリースされる予定です...
Fast Screen Recorder は、コンピューター画面上のアクティビティを記録するために特...
JetBrains Rider は、高速で安定した強力なクロスプラットフォーム .NET 統合開発環...
Android 携帯のネットワーク IP アドレスを切り替えるにはどうすればよいでしょうか? 多く...
📱DeviceInfoアプリ(DeviceInfo携帯電話パラメータアプリ)は、携帯電話のハードウェ...
📱MobiOffice Premium は、携帯電話、タブレット、PC での使用をサポートし、ドキュ...
CorelDRAW Graphics Suite は、CorelDRAW、Corel PHOTO-P...
Veyon はもともと Linux ベースの教育用ネットワーク管理ソフトウェアでしたが、現在は W...
Ziyou は、文字変換、グリフ分析、グリフ結合、テキスト組版などの複数の機能を統合した中国語組版...
人工知能が芸術から執筆までクリエイティブ産業に進出し続ける中、コンテンツライターは当然ながら自らのク...
📱Yikan Pro は、ブラウザ、ビデオ プレーヤー、ダウンローダーを統合したネットワーク セキュ...