Спіймали на зазубрюванні: дослідження підтвердило, що моделі OpenAI копіюють чужий контент

Компанію OpenAI знову впіймали на гарячому. Група вчених із Вашингтонського, Копенгагенського та Стенфордського університетів довела, що популярні нейромережі GPT-4 та GPT-3.5 буквально зазубрюють захищені авторським правом тексти. Моделі без проблем відтворюють цілі абзаци з платних книг та публікацій ЗМІ. Це відкриття додасть аргументів правовласникам, які засипали розробників судовими позовами.

Метод «високосюрпризних слів»: як викривали ШІ

Щоб перевірити нейромережі на чесність, дослідники застосували хитрий метод. Вони виділили в текстах книг та статтях видання The New York Times так звані «високосюрпризні слова». Це рідкісні слова, появу яких у конкретному контексті практично неможливо вгадати простою мовною логікою. Науковці видалили ці слова з уривків та попросили штучний інтелект заповнити пропуски. Коли GPT-4 безпомилково видавав точне рідкісне слово, це прямо вказувало на те, що модель бачила цей текст під час навчання.

Результати експерименту виявилися однозначними. GPT-4 продемонстрував глибоке знання багатьох популярних художніх романів та свіжих публікацій The New York Times. Хоча OpenAI постійно запевняє, що навчає ШІ законно та поважає інтелектуальну власність, факти говорять про протилежне.

Методологія та результати тестування моделей OpenAI

Параметр дослідження	Деталі експерименту науковців
Задіяні моделі	Популярні великі мовні моделі GPT-3.5 та GPT-4.
Джерела перевірки	Уривки з бестселерів художньої літератури та архівні статті The New York Times.
Суть методу перевірки	Виявлення «високосюрпризних» (рідкісних у контексті) слів, які моделі мали вгадати в обрізаних цитатах.
Результати тестування	GPT-4 успішно відновив значну частину пропущених слів, підтвердивши пряме зазубрювання копірайт-контенту.

Юридичні наслідки та етичний тупик

Використання платного контенту без ліцензії — це пряме порушення законів про авторське право. Дослідники б’ють на сполох та вимагають від розробників повної прозорості щодо джерел навчальних даних. Якщо компанії продовжать приховувати інформацію про «паливо» для своїх нейромереж, вони ризикують потонути в нескінченних судових процесах. Це може суттєво загальмувати розвиток технологій у найближчі роки.

Підсумок

Спільне дослідження вчених зі Стенфорда, Університету Вашингтона та Університету Копенгагена підтвердило, що мовні моделі OpenAI (зокрема GPT-4 та GPT-3.5) запам’ятовують та можуть точно відтворювати тексти, захищені авторським правом. За допомогою методу відновлення рідкісних «високосюрпризних» слів у вирізаних фрагментах книг та статей The New York Times дослідники довели факт навчання ШІ на захищених ліцензією джерелах. Отримані результати підсилюють позиції правовласників у поточних судових позовах проти OpenAI та актуалізують питання етики й прозорості формування баз даних для навчання великих мовних моделей.

Logitech представила Mobi Fold — свою першу ультракомпактну мишу для роботи в дорозі

Як скачати Reels з Інстаграму на телефон у 2026 році (5 безкоштовних способів)

Знижки до 40%, рекорди на стрімах та зіркові гості: як в Україні пройшли Logitech G PLAY DAYS 2026

Популярні Теги

Спіймали на зазубрюванні: дослідження підтвердило, що моделі OpenAI копіюють чужий контент

Метод «високосюрпризних слів»: як викривали ШІ

Методологія та результати тестування моделей OpenAI

Юридичні наслідки та етичний тупик

Підсумок

Logitech представила Mobi Fold — свою першу ультракомпактну мишу для роботи в дорозі

Як скачати Reels з Інстаграму на телефон у 2026 році (5 безкоштовних способів)

Знижки до 40%, рекорди на стрімах та зіркові гості: як в Україні пройшли Logitech G PLAY DAYS 2026

Спіймали на зазубрюванні: дослідження підтвердило, що моделі OpenAI копіюють чужий контент

Метод «високосюрпризних слів»: як викривали ШІ

Методологія та результати тестування моделей OpenAI

Юридичні наслідки та етичний тупик

Підсумок

Схожі Новини