Штучний інтелект малює без промптів: OpenAI запускає генератор зображень DALL-E 3 через ChatGPT

Процес генерації зображення у DALL-E 3 за допомогою діалогового вікна ChatGPT

OpenAI презентувала третє покоління свого генератора зображень DALL-E 3. Розробники здійснили справжній прорив: тепер користувачам не потрібно вигадувати довгі технічні описи (промпти). Система працює в парі з чат-ботом ChatGPT, який автоматично допрацьовує будь-який короткий запит до ідеального стану.

Порівняння можливостей генераторів DALL-E 2 та DALL-E 3

Розробники значно покращили розуміння контексту та точність виконання запитів:

Характеристика DALL-E 2 (Попереднє покоління) DALL-E 3 (Нове покоління)
Робота з текстом Часто пропускав або розмивав літери на зображенні. Чітко відтворює слова та фрази всередині картинок.
Створення промптів Користувач мав самостійно підбирати складні технічні теги. ChatGPT автоматично перетворює кілька слів на детальний опис.
Деталізація складних сцен Зображення часто містили артефакти та спотворення пропорцій. Точно передає дрібні об’єкти, тіні, руки та текстури.

Як працює симбіоз ChatGPT та DALL-E 3

Основна фішка оновлення — глибока інтеграція з текстовою моделлю ChatGPT. Раніше людям доводилося вивчати ціле мистецтво складання запитів (prompt engineering). Тепер ви можете написати просте речення на кшталт: «Намалюй рудого кота на підвіконні під час дощу».

Чат-бот самостійно перетворить це на деталізований абзац опису для DALL-E 3, додавши нюанси освітлення, ракурсу та стилю. Якщо фінальний малюнок не задовольнить ваші очікування, ви просто просите ChatGPT внести коригування. Штучний інтелект сам перепише запит і згенерує новий варіант.

Жорсткі правила безпеки та захист художників

OpenAI серйозно переглянула політику безпеки після численних скарг та судових позовів від митців. Нова нейромережа категорично відмовляється копіювати стиль сучасних художників. Тобто ви не зможете замовити малюнок «під Бенксі». Водночас алгоритми без проблем відтворюють класичний стиль Ван Гога чи Едварда Мунка, адже термін дії їхніх авторських прав уже минув.

Окрім цього, розробники навчили систему блокувати небажаний контент:

  • Жодного насильства та еротики: Система миттєво відхиляє запити з агресивним чи непристойним контекстом.
  • Захист публічних осіб: DALL-E 3 не створює зображення відомих політиків, акторів чи спортсменів, щоб шахраї не могли використовувати ШІ для створення переконливих фейків та дезінформації.
Реалістичне макрозображення зеленого листка з краплями води, створене ШІ-генератором DALL-E 3

Коли очікувати на реліз

На першому етапі OpenAI відкрила доступ до DALL-E 3 лише обмеженому колу науковців та тестувальників. Це допомагає виявити вразливості системи та налагодити фільтри безпеки. Проте розробники планують масштабний реліз уже на жовтень 2023 року. Тоді випробувати нові можливості генератора зможуть усі платні користувачі з активною підпискою ChatGPT Plus або корпоративним тарифом Enterprise.

Підсумок

OpenAI презентувала нову модель генератора зображень DALL-E 3, яка працює безпосередньо всередині ChatGPT, полегшуючи створення складних графічних запитів. Розробники суттєво підвищили деталізацію дрібних об’єктів, навчили систему правильно відображати текст на малюнках та впровадили суворі фільтри безпеки. Нейромережа тепер захищає авторські права сучасних художників та блокує створення фейкових портретів відомих людей. Запуск DALL-E 3 для користувачів із платними підписками відбудеться в жовтні 2023 року.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше