Как можно заставить ChatGPT и Google Bard не использовать содержимое вашего сайта для создания их ответов

Последнее обновление: 2024/06/20 at 11:40 ДП

Опубликовано 20.06.2024

4 Мин. чтение

Содержание:

Защита вашего контента от искусственного интеллекта GPT Инструкции по блокировке веб-скраппинга сайтов чатами ChatGPT и Google Bard

С развитием искусственного интеллекта на повестку дня встал вопрос о происхождении обучающих данных для больших языковых моделей — таких как GPT-4, а также о праве создателей этих ИИ использовать эти данные. В некоторых случаях этот вопрос даже выносился на рассмотрение суда.

Для обучения этих моделей используются большие объемы данных, в том числе контент, извлеченный из различных веб-сайтов. Этот процесс, известный как «web scraping», является обычной практикой в научных исследованиях, журналистике и цифровом архивировании. Однако некоторые владельцы сайтов могут быть не согласны с тем, что их контент используется именно в этом контексте.

По этой причине OpenAI и Google недавно предоставили инструкции для тех владельцев сайтов, которые хотят предотвратить включение содержимого своих сайтов в огромные наборы данных для обучения моделей ИИ этого типа.

Защита вашего контента от искусственного интеллекта GPT

Благодаря этому мы можем кратко описать шаги, которые необходимо предпринять, если вы хотите исключить свой сайт из «памяти» Chat GPT и его конкурентов. Или, скорее, исключить будущий контент, который вы загружаете на свои сайты, поскольку обе компании не предложили (и, вероятно, никогда не предложат) способ удаления данных, на которых их ИИ уже обучался.

Расположение файла robots.txt в каталогах веб-сервера

Расположение файла robots.txt в каталогах веб-сервера, просматриваемое через веб-интерфейс.

Если вы хотите предотвратить использование содержимого вашего сайта в будущем для сбора данных двумя гигантами искусственного интеллекта, есть простой процесс, если ваш хостинг позволяет вам получить доступ к файловой структуре вашего сайта либо через веб-интерфейс хостинг-провайдера, либо через FTP-клиент.

Чтобы дать ботам этих компаний цифровой эквивалент знака «Доступ запрещен», вы должны отредактировать или создать файл «robots.txt» в корневом каталоге вашего веб-сервера. То есть он будет доступен (да, его должен видеть каждый) по адресу:

https://www.example.com/robots.txt

Так, например, файл «robots.txt» газеты The New York Times в настоящее время блокирует ChatGPT и Bard.

Этот файл служит набором инструкций для ботов и веб-краулеров. До сих пор он использовался в основном для выдачи инструкций поисковым системам (также можно исключить из них наш контент).

Инструкции по блокировке веб-скраппинга сайтов чатами ChatGPT и Google Bard

Чтобы заблокировать доступ этих моделей к вашему сайту, вы должны включить следующие строки в файл robots.txt:

User-agent: GPTBot
Disallow:/

User-agent: Google-Extended
Disallow:/

В «Disallow» вы можете указать только определенные папки, которые будут заблокированы, если вы не возражаете против использования остального содержимого вашего сайта (символ «https://www.genbeta.com/» обозначает корневой каталог и все те, которые зависят от него… то есть весь веб).

Например, вы не возражаете против того, чтобы большая часть данных на вашем сайте использовалась для обучения ИИ, но на сайте есть блог, который вы используете как личный дневник. Ничего страшного: вы можете заблокировать определенные папки.

Так, если блог расположен на вашем сайте по адресу «yoursite.com/blog», вы можете использовать следующее:

User-agent: GPTBot
Disallow: /blog

User-agent: Google-Extended
Запретить: /blog

Как можно заставить ChatGPT и Google Bard не использовать содержимое вашего сайта для создания их ответов

Защита вашего контента от искусственного интеллекта GPT

Инструкции по блокировке веб-скраппинга сайтов чатами ChatGPT и Google Bard

Клавиши стали нажиматься тяжелее или легче: когда это поломка, а когда особенность механики

Вячеслав Моше Кантор: законодательный фундамент – главный способ укоренения этических норм в обществе

Обзор GPT Image 2 — новой модели генерации изображений OpenAI

GPT‑5.5 от OpenAI: полный обзор новой агент‑модели 2026 года

OpenAI представил новую GPT-5.4 с версиями Pro и Thinking: триумф эффективности и рассуждений

GPT-5.5: что нового, тесты и реальные кейсы