OpenAI の GPTBot とは何ですか?なぜサイトはそれをブロックするのでしょうか?

OpenAI の GPTBot とは何ですか?なぜサイトはそれをブロックするのでしょうか?

2023年8月、ChatGPTの開発で知られる人工知能の巨人OpenAIは、ウェブを横断してデータを収集するように設計されたウェブクローラーGPTBotのリリースを発表しました。

このニュースが発表されてすぐに、インターネット上の最大手サイトのいくつかはボットによるサイトへのアクセスをブロックしました。 しかし、なぜ? OpenAI の GPTBot とは何ですか? 大手サイトはなぜそれを恐れ、ブロックしようとしているのでしょうか?

OpenAI の GPTBot とは何ですか?

GPTBot は、OpenAI の人工知能開発目標のためにインターネットを検索し、情報を収集するために OpenAI によって作成された Web クローラーです。 これは、公開ウェブサイトをクロールし、データを OpenAI のサーバーに送り返すようにプログラムされています。 OpenAI はこのデータを活用して AI モデルのトレーニングと改善を行い、より高度な AI システムの構築を目指します。 GPT-4 や ChatGPT のような派生モデルのような複雑な AI モデルを構築するには、Web クローラーがほぼ必須です。

GPTBot

AI モデルのトレーニングには大量のデータが必要であり、このデータを収集する最も効果的な方法の 1 つは、Web クローラーなどのツールを導入することです。 クローラーは、リンクをたどって大量の Web ページをインデックスし、事前定義されたパターンに一致するテキスト、画像、メタデータなどの重要なデータを抽出しながら、体系的に Web を閲覧できます。

このデータは構造化されて AI モデルに取り込まれ、自然言語処理や画像生成機能をトレーニングしたり、他の AI タスクを実行するようにトレーニングしたりできます。 つまり、Web クローラーによって収集されたデータにより、ChatGPT や DALL-E などのツールがその機能を実行できるようになります。

Web クローラーは新しい概念ではありません。 今日、インターネット上の何十億ものウェブサイトをクロールしている人はおそらく何百万人もいるでしょう。 少なくとも 90 年代初頭から存在しています。 GPTBot は、OpenAI が持つクローラーの 1 つにすぎません。 それで、この特定の Web クローラーをめぐる論争の原因は何だったのでしょうか?

ウェブサイトが GPTBot をブロックするのはなぜですか?

Business Insider によると、インターネット上の最大規模のサイトのいくつかは、自社のサイトから OpenAI クローラーを積極的にブロックしているという。 では、GPTBot の究極の目標が人工知能の開発を進めることであるならば、何らかの形で AI の恩恵を受けているインターネット上の最大規模のサイトのいくつかがなぜこれに反対しているのでしょうか?

さて、問題はこれです。 2022年に生成AI技術が復活して以来、AI企業がインターネット上のデータ(その多くは著作権で保護されている)をほぼ無制限にアクセスして使用する権利があるかどうかについて多くの議論がなされてきました。 これらの企業が自社の利益のためにデータをどのように収集し使用するかを規定する明確な法律はありません。

つまり、基本的に、GPTBot のようなクローラーは Web をスクレイピングし、テキスト、画像、またはその他の形式のメディアの形式で人々の創作物をスクレイピングし、許可を得たり、元の作成者に報酬を提供したりすることなく、それらを商業目的で使用します。

そのため、Web サイトでは、Web クローラーをブロックする何十年も前からある方法である「robots.txt」を導入する必要があります。 OpenAI によれば、GPTBot は、Web クローラーに Web サイトでの動作を指示する小さなテキスト ファイルである robots.txt に埋め込まれたルールに基づいて、Web サイトをクロールするか、クロールを回避するかの指示に従います。 独自の Web サイトがあり、GPTBot によるデータのクロールを防ぎたい場合は、以下の手順に従って OpenAI のクローラーによる Web サイトのクロールをブロックできます。

ウェブサイトは本当に GPTBot をブロックできるのでしょうか?

GPTBot のようなクローラーは、高度な AI システムをトレーニングするために必要な膨大な量のデータを収集するために不可欠ですが、著作権と公正使用に関する正当な懸念を無視することはできません。

もちろん、robots.txt のような簡単なツールを使用してこれを防ぐことはできますが、GPTBot がそのファイルの指示に従うかどうかは完全に OpenAI の裁量に委ねられています。 彼らがそうする保証はなく、彼らがそうしたかどうかをすぐに確実に知る方法もありません。 GPTBot が著作権で保護されたデータにアクセスするのを防ぐための戦いでは、少なくとも今のところは OpenAI が切り札を握っている。

<<:  中小企業向け究極の SEO ガイド

>>:  YouTube APP (YouTube Android 版) v18.34.38 正式版

推薦する

Notepad++ (強力なコードエディタ) v8.7.8 多言語ポータブル版

Notepad++ は、完全な中国語インターフェイスと多言語記述のサポート (UTF8 テクノロジー...

Kaspersky (Kaspersky Anti-Virus) v21.20.8.505 中国語無料版

Kaspersky Free は、世界的に有名なサイバーセキュリティ企業である Kaspersky ...

APK ファイルとは何ですか? APK ファイルの主な用途は何ですか?

Android デバイスをお持ちの場合は、「APK」という用語を聞いたことがあるかもしれませんが、...

WinRAR 中国語版 v7.00 公式商用登録版

WinRAR は、ZIP、RAR、7Z、CAB、ISO など、複数の圧縮形式をサポートする強力な圧縮...

懐中電灯 + アプリ (携帯電話の画面が LED 懐中電灯に変わります) Pro v2.10.15 Google バージョン

📱懐中電灯アプリは、懐中電灯機能を主な機能とするモバイルアプリケーションです。携帯電話の画面を高輝度...

Shutter Image Browser(画像の閲覧と管理)v1.41

Shutter は、販売が終了した ExifPro をベースにしています。ExifPro は、VC...

ビデオポートレート美化アプリPrettyUp v5.9.1 VIPクラック版

📱PrettyUp Cracked VIPバージョンは、海外ユーザー向けのビデオポートレート美化アプ...

Bilibili公式オリジナル版丨最新バージョンダウンロード丨バージョン番号1.16.2.4057

Bilibili PC クライアントは、ユーザーが自分のコンピューターで Bilibili (B ...

Xiaoyouzi 映画テレビアプリ (Android 映画テレビソフトウェア) v4.2.7 広告なしバージョン

📱Xiaoyouzi Film and Television APPは、テレビドラマや映画のオンライ...

スキャンキングアプリ(旧称スキャンキングQuannengbao)v6.8.05クラック版

📱スキャナーアプリ(原名:スキャナー王全能宝)は、国産のOCR写真認識ソフトウェアです。全能スキャナ...

PhotoDirector Android版(Camera Master Android版)v19.11.2 b90191120修正版

📱Android 版 PhotoDirector は、Android デバイス用の強力な写真編集およ...

NetTraffic (ネットワークトラフィック監視ソフトウェア) v1.71.0 多言語無料版

NetTraffic は、ネットワーク トラフィックを監視するためのソフトウェアです。コンピュータが...

Calc Android版(Android携帯電卓アプリ)v2.2.6修正版

📱Android 用 Calc は、日常生活や学習におけるユーザーの計算ニーズを満たすさまざまな数学...

Soda Music公式オリジナル版丨最新バージョンダウンロード丨バージョン番号2.1.0

Soda Music は、Tik Tok が制作した音楽プレーヤーで、携帯電話、タブレット、コンピ...

VideoGuru ビデオ編集アプリ (モバイルビデオ編集) v1.522.156.I 修正バージョン

📱VideoGuru は、ユーザーがプロ品質のビデオ コンテンツを作成できるように設計された強力なビ...