
На тлі триваючого антимонопольного судового розгляду в США, Google знову опинилась у центрі критики через практику використання контенту видавців для навчання своїх пошукових ШІ-продуктів, зокрема AI Overviews. Як стало відомо під час слухань, Google може використовувати веб-контент для навчання моделей у пошуку навіть після того, як видавці офіційно відмовилися від участі в тренуванні ШІ. Про це пише Bloomberg.
У суді віцепрезидент Google DeepMind Елі Коллінз підтвердив, що механізм відмови, який обмежує використання контенту для моделей DeepMind, не поширюється на інші підрозділи компанії. Тобто, якщо модель на кшталт Gemini інтегрується в пошукову систему, вона може тренуватись на даних, навіть якщо видавці заборонили це для DeepMind.
Google уточнила, що видавці можуть відмовитися лише повністю — через файл robots.txt, який забороняє індексацію сайту в пошуку. Іншої форми обмеження, яка дозволяла б індексування, але забороняла б навчання ШІ, наразі не передбачено.
Документ від 26 серпня 2024 року, представлений у суді, показав, що Google після фільтрації контенту, на який було накладено відмову, видалив 80 мільярдів з 160 мільярдів “токенів” — фрагментів даних. Проте інші підрозділи Google, включно з пошуковим, можуть продовжувати використовувати залишену частину даних.
Крім того, у документі згадувалась можливість тренування моделей не лише на веб-контенті, але й на даних про пошукові сесії, а також на відео з YouTube. Це ще більше розширює обсяг інформації, що може бути використана для вдосконалення моделей Google.
Попри офіційну політику “опт-ауту”, Google зберігає технічну можливість використовувати контент видавців для навчання своїх пошукових ШІ-продуктів. Це ставить медіа перед складним вибором: або дозволити індексацію і непряме використання свого контенту в AI-відповідях, або втратити видимість у пошуку повністю. Наразі ситуація залишається невизначеною і може стати ключовою у формуванні політики використання даних у ШІ-епоху.