Google продовжує тренувати пошуковий ШІ на контенті сайтів, навіть якщо видавці відмовилися

Google

На тлі триваючого антимонопольного судового розгляду в США, Google знову опинилась у центрі критики через практику використання контенту видавців для навчання своїх пошукових ШІ-продуктів, зокрема AI Overviews. Як стало відомо під час слухань, Google може використовувати веб-контент для навчання моделей у пошуку навіть після того, як видавці офіційно відмовилися від участі в тренуванні ШІ. Про це пише Bloomberg.

У суді віцепрезидент Google DeepMind Елі Коллінз підтвердив, що механізм відмови, який обмежує використання контенту для моделей DeepMind, не поширюється на інші підрозділи компанії. Тобто, якщо модель на кшталт Gemini інтегрується в пошукову систему, вона може тренуватись на даних, навіть якщо видавці заборонили це для DeepMind.

Google уточнила, що видавці можуть відмовитися лише повністю — через файл robots.txt, який забороняє індексацію сайту в пошуку. Іншої форми обмеження, яка дозволяла б індексування, але забороняла б навчання ШІ, наразі не передбачено.

Документ від 26 серпня 2024 року, представлений у суді, показав, що Google після фільтрації контенту, на який було накладено відмову, видалив 80 мільярдів з 160 мільярдів “токенів” — фрагментів даних. Проте інші підрозділи Google, включно з пошуковим, можуть продовжувати використовувати залишену частину даних.

Крім того, у документі згадувалась можливість тренування моделей не лише на веб-контенті, але й на даних про пошукові сесії, а також на відео з YouTube. Це ще більше розширює обсяг інформації, що може бути використана для вдосконалення моделей Google.

Попри офіційну політику “опт-ауту”, Google зберігає технічну можливість використовувати контент видавців для навчання своїх пошукових ШІ-продуктів. Це ставить медіа перед складним вибором: або дозволити індексацію і непряме використання свого контенту в AI-відповідях, або втратити видимість у пошуку повністю. Наразі ситуація залишається невизначеною і може стати ключовою у формуванні політики використання даних у ШІ-епоху.


Телеграм double.newsТелеграм double.news

Схожі Новини
Банківська карта

Відбулася масштабна кібератака на український Абанк

У ніч із 15 на 16 лютого український Абанк, який обслуговує понад 4 мільйони клієнтів, зазнав однієї з наймасштабніших хакерських атак. Унаслідок інциденту частина клієнтів повідомила про неправомірне списання коштів із рахунків.
Детальніше
Пароль

ШІ генерує передбачувані паролі, які можна зламати за години

Великі мовні моделі дедалі частіше використовують для написання коду, текстів і навіть генерації паролів. Однак нове дослідження кібербезпекової компанії Irregular показало, що паролі, створені за допомогою ШІ, виглядають складними лише на перший погляд. Насправді вони мають низьку ентропію та можуть бути зламані за кілька годин.
Детальніше
Вчені створили QR-код менший за бактерію та встановили світовий рекорд

Вчені створили QR-код менший за бактерію та встановили світовий рекорд

Вчені з Віденського технічного університету спільно зі стартапом Cerabyte встановили новий рекорд Гіннеса, створивши та зчитавши найменший у світі QR-код. Розмір одного пікселя становить лише 49 нанометрів, а загальна площа коду — 1,98 квадратного мікрометра. Це менше, ніж середня бактерія.
Детальніше