Дослідження доводить: потужні ШІ-моделі можна створювати без порушення авторських прав

Штучний інтелект

У світлі зростаючих суперечок щодо використання захищених авторським правом матеріалів для навчання штучного інтелекту, нове дослідження демонструє, що можливо створити ефективну мовну модель, використовуючи лише відкриті джерела. Це ставить під сумнів твердження провідних компаній, які стверджують, що без доступу до захищеного контенту розвиток ШІ неможливий.

Етична альтернатива: створення Comma v0.1

Група з понад двох десятків дослідників з Eleuther AI, за участі MIT, CMU та Університету Торонто, зібрала восьмитерабайтний датасет, що складається виключно з відкрито ліцензованих або публічних текстів. На основі цього набору даних вони навчили мовну модель Comma v0.1 з 7 мільярдами параметрів. Результати показали, що її продуктивність порівнянна з Llama 2-7B від Meta, що свідчить про можливість створення конкурентоспроможних моделей без порушення авторських прав. Про це пише Washington Post.

Проте процес виявився трудомістким: через технічні та юридичні складнощі автоматизація була обмеженою, і значна частина роботи вимагала ручної перевірки.

Виклики та обмеження

Дослідники зіткнулися з низкою проблем:

  • Технічні труднощі: Багато текстів не були у форматі, придатному для машинного зчитування.
  • Юридичні аспекти: Визначення ліцензійного статусу контенту вимагало значних зусиль.
  • Обмеження масштабування: Процес не піддається легкому масштабуванню через необхідність ручної роботи.

Незважаючи на ці виклики, команда виявила нові етичні джерела даних, зокрема 130 000 англомовних книг з Бібліотеки Конгресу США, що майже вдвічі перевищує обсяг Project Gutenberg.

Вплив на політику та індустрію

Це дослідження може мати значний вплив на поточні дебати щодо авторських прав у сфері ШІ. У той час як компанії, такі як OpenAI та Anthropic, стверджують, що ліцензування є непрактичним, цей проєкт демонструє альтернативний підхід. Зокрема, у січні 2024 року експертний свідок Anthropic заявив у суді, що створення ринку ліцензій для навчання передових мовних моделей є “непрактичним”.

Крім того, нещодавні події, такі як позов Reddit проти Anthropic за несанкціоноване використання даних користувачів, підкреслюють актуальність цієї теми.

Схожі Новини
Toyota office

Інновації в автосервісі: Toyota спрощує ремонт за допомогою ШІ

У рамках конференції TechCrunch Sessions: AI 2025 компанії Toyota та NLX представили спільний проєкт, спрямований на трансформацію процесів ремонту автомобілів за допомогою штучного інтелекту. Ця ініціатива дозволяє технікам отримувати миттєвий доступ до обширної бази технічної документації, що значно підвищує ефективність обслуговування.
Детальніше
Ілон Маск Twitter

Конфлікт між Ілоном Маском і Дональдом Трампом спричинив сплеск активності в соцмережі X

Публічне протистояння між Ілоном Маском та президентом США Дональдом Трампом не лише сколихнуло політичний ландшафт, а й суттєво вплинуло на цифровий простір. Зокрема, соціальна мережа X (колишній Twitter), що належить Маску, зазнала значного зростання активності користувачів та піднялася в рейтингах App Store.
Детальніше
iOS 26 Beta

iOS 26 Beta: Коли можна буде встановити оновлення на iPhone

Очікуване оновлення iOS 26 офіційно представлять під час конференції Apple WWDC 2025, яка стартує 9 червня. Традицією компанії, вже цього ж дня перша бета-версія стане доступною для зареєстрованих розробників.
Детальніше