
Компанію OpenAI знову впіймали на гарячому. Група вчених із Вашингтонського, Копенгагенського та Стенфордського університетів довела, що популярні нейромережі GPT-4 та GPT-3.5 буквально зазубрюють захищені авторським правом тексти. Моделі без проблем відтворюють цілі абзаци з платних книг та публікацій ЗМІ. Це відкриття додасть аргументів правовласникам, які засипали розробників судовими позовами.
Метод «високосюрпризних слів»: як викривали ШІ
Щоб перевірити нейромережі на чесність, дослідники застосували хитрий метод. Вони виділили в текстах книг та статтях видання The New York Times так звані «високосюрпризні слова». Це рідкісні слова, появу яких у конкретному контексті практично неможливо вгадати простою мовною логікою. Науковці видалили ці слова з уривків та попросили штучний інтелект заповнити пропуски. Коли GPT-4 безпомилково видавав точне рідкісне слово, це прямо вказувало на те, що модель бачила цей текст під час навчання.
Результати експерименту виявилися однозначними. GPT-4 продемонстрував глибоке знання багатьох популярних художніх романів та свіжих публікацій The New York Times. Хоча OpenAI постійно запевняє, що навчає ШІ законно та поважає інтелектуальну власність, факти говорять про протилежне.
Методологія та результати тестування моделей OpenAI
| Параметр дослідження | Деталі експерименту науковців |
|---|---|
| Задіяні моделі | Популярні великі мовні моделі GPT-3.5 та GPT-4. |
| Джерела перевірки | Уривки з бестселерів художньої літератури та архівні статті The New York Times. |
| Суть методу перевірки | Виявлення «високосюрпризних» (рідкісних у контексті) слів, які моделі мали вгадати в обрізаних цитатах. |
| Результати тестування | GPT-4 успішно відновив значну частину пропущених слів, підтвердивши пряме зазубрювання копірайт-контенту. |
Юридичні наслідки та етичний тупик
Використання платного контенту без ліцензії — це пряме порушення законів про авторське право. Дослідники б’ють на сполох та вимагають від розробників повної прозорості щодо джерел навчальних даних. Якщо компанії продовжать приховувати інформацію про «паливо» для своїх нейромереж, вони ризикують потонути в нескінченних судових процесах. Це може суттєво загальмувати розвиток технологій у найближчі роки.
Підсумок
Спільне дослідження вчених зі Стенфорда, Університету Вашингтона та Університету Копенгагена підтвердило, що мовні моделі OpenAI (зокрема GPT-4 та GPT-3.5) запам’ятовують та можуть точно відтворювати тексти, захищені авторським правом. За допомогою методу відновлення рідкісних «високосюрпризних» слів у вирізаних фрагментах книг та статей The New York Times дослідники довели факт навчання ШІ на захищених ліцензією джерелах. Отримані результати підсилюють позиції правовласників у поточних судових позовах проти OpenAI та актуалізують питання етики й прозорості формування баз даних для навчання великих мовних моделей.

