Google продовжує тренувати пошуковий ШІ на контенті сайтів, навіть якщо видавці відмовилися

Google

На тлі триваючого антимонопольного судового розгляду в США, Google знову опинилась у центрі критики через практику використання контенту видавців для навчання своїх пошукових ШІ-продуктів, зокрема AI Overviews. Як стало відомо під час слухань, Google може використовувати веб-контент для навчання моделей у пошуку навіть після того, як видавці офіційно відмовилися від участі в тренуванні ШІ. Про це пише Bloomberg.

У суді віцепрезидент Google DeepMind Елі Коллінз підтвердив, що механізм відмови, який обмежує використання контенту для моделей DeepMind, не поширюється на інші підрозділи компанії. Тобто, якщо модель на кшталт Gemini інтегрується в пошукову систему, вона може тренуватись на даних, навіть якщо видавці заборонили це для DeepMind.

Google уточнила, що видавці можуть відмовитися лише повністю — через файл robots.txt, який забороняє індексацію сайту в пошуку. Іншої форми обмеження, яка дозволяла б індексування, але забороняла б навчання ШІ, наразі не передбачено.

Документ від 26 серпня 2024 року, представлений у суді, показав, що Google після фільтрації контенту, на який було накладено відмову, видалив 80 мільярдів з 160 мільярдів “токенів” — фрагментів даних. Проте інші підрозділи Google, включно з пошуковим, можуть продовжувати використовувати залишену частину даних.

Крім того, у документі згадувалась можливість тренування моделей не лише на веб-контенті, але й на даних про пошукові сесії, а також на відео з YouTube. Це ще більше розширює обсяг інформації, що може бути використана для вдосконалення моделей Google.

Попри офіційну політику “опт-ауту”, Google зберігає технічну можливість використовувати контент видавців для навчання своїх пошукових ШІ-продуктів. Це ставить медіа перед складним вибором: або дозволити індексацію і непряме використання свого контенту в AI-відповідях, або втратити видимість у пошуку повністю. Наразі ситуація залишається невизначеною і може стати ключовою у формуванні політики використання даних у ШІ-епоху.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше
QR код

Як сканувати QR-код за допомогою смартфона: швидка інструкція

QR-коди давно стали частиною повсякденного життя — від меню в кафе до швидкої авторизації в застосунках. Але не всі знають, як правильно їх сканувати зі свого смартфона. У цій статті пояснюємо, як це зробити на iPhone та Android, без додаткових програм.
Детальніше