С развитием искусственного интеллекта на повестку дня встал вопрос о происхождении обучающих данных для больших языковых моделей — таких как GPT-4, а также о праве создателей этих ИИ использовать эти данные. В некоторых случаях этот вопрос даже выносился на рассмотрение суда.
Для обучения этих моделей используются большие объемы данных, в том числе контент, извлеченный из различных веб-сайтов. Этот процесс, известный как «web scraping», является обычной практикой в научных исследованиях, журналистике и цифровом архивировании. Однако некоторые владельцы сайтов могут быть не согласны с тем, что их контент используется именно в этом контексте.
По этой причине OpenAI и Google недавно предоставили инструкции для тех владельцев сайтов, которые хотят предотвратить включение содержимого своих сайтов в огромные наборы данных для обучения моделей ИИ этого типа.
Защита вашего контента от искусственного интеллекта GPT
Благодаря этому мы можем кратко описать шаги, которые необходимо предпринять, если вы хотите исключить свой сайт из «памяти» Chat GPT и его конкурентов. Или, скорее, исключить будущий контент, который вы загружаете на свои сайты, поскольку обе компании не предложили (и, вероятно, никогда не предложат) способ удаления данных, на которых их ИИ уже обучался.

Расположение файла robots.txt в каталогах веб-сервера, просматриваемое через веб-интерфейс.
Если вы хотите предотвратить использование содержимого вашего сайта в будущем для сбора данных двумя гигантами искусственного интеллекта, есть простой процесс, если ваш хостинг позволяет вам получить доступ к файловой структуре вашего сайта либо через веб-интерфейс хостинг-провайдера, либо через FTP-клиент.
Чтобы дать ботам этих компаний цифровой эквивалент знака «Доступ запрещен», вы должны отредактировать или создать файл «robots.txt» в корневом каталоге вашего веб-сервера. То есть он будет доступен (да, его должен видеть каждый) по адресу:
https://www.example.com/robots.txt
Так, например, файл «robots.txt» газеты The New York Times в настоящее время блокирует ChatGPT и Bard.
Этот файл служит набором инструкций для ботов и веб-краулеров. До сих пор он использовался в основном для выдачи инструкций поисковым системам (также можно исключить из них наш контент).
Инструкции по блокировке веб-скраппинга сайтов чатами ChatGPT и Google Bard
Чтобы заблокировать доступ этих моделей к вашему сайту, вы должны включить следующие строки в файл robots.txt:
User-agent: GPTBot
Disallow:/
User-agent: Google-Extended
Disallow:/
В «Disallow» вы можете указать только определенные папки, которые будут заблокированы, если вы не возражаете против использования остального содержимого вашего сайта (символ «https://www.genbeta.com/» обозначает корневой каталог и все те, которые зависят от него… то есть весь веб).
Например, вы не возражаете против того, чтобы большая часть данных на вашем сайте использовалась для обучения ИИ, но на сайте есть блог, который вы используете как личный дневник. Ничего страшного: вы можете заблокировать определенные папки.
Так, если блог расположен на вашем сайте по адресу «yoursite.com/blog», вы можете использовать следующее:
User-agent: GPTBot
Disallow: /blog
User-agent: Google-Extended
Запретить: /blog