Мультимодальний прорив: ChatGPT навчився детально аналізувати зображення без підказок

Інтерфейс ChatGPT для аналізу зображень

Компанія OpenAI суттєво розширила мультимодальні можливості ChatGPT, навчивши модель GPT-4o детально інтерпретувати візуальний контент. Тепер користувачі можуть завантажувати фотографії, графіки, рукописні конспекти чи складні схеми й отримувати їх детальний розбір взагалі без додаткових текстових пояснень. Це оновлення загострює конкуренцію з Google Gemini, який уже вміє аналізувати реальний світ у реальному часі.

Спочатку розробники відкрили новий функціонал лише для передплатників платних тарифів Plus, Pro та Team. Проте вже за кілька днів доступ отримали й користувачі безкоштовної версії. Щоб активувати розширений аналіз візуалу, достатньо скористатися кнопкою Think у полі введення.

Основні сфери застосування візуального аналізу ChatGPT

Тип контенту Можливості розпізнавання моделі Кому це корисно
Схеми та графіки Читання креслень, блок-схем, фінансових графіків та взаємозв’язків між елементами Аналітикам, інженерам, фінансистам
Рукописний текст (OCR) Розпізнавання складного почерку, конспектів лекцій, записів на дошці Студентам, науковцям, офісним працівникам
Фотографії та об’єкти Визначення деталей на фото, пошук аномалій, опис предметів та середовища Дизайнерам, розробникам інтерфейсів, туристам

Ажіотаж довкола ШІ та перевантаження серверів

Запуск візуальних оновлень збігся з шаленою популярністю генератора зображень у стилі Studio Ghibli. Це викликало серйозне перевантаження обчислювальних потужностей OpenAI. Сем Альтман навіть пожартував у соцмережах, що графічні процесори (GPU) компанії буквально «плавляться» від кількості запитів. Через дефіцит ресурсів інженерам довелося тимчасово ввести ліміти на частоту звернень навіть для користувачів із платними підписками, щоб стабілізувати роботу інфраструктури.

ChatGPT розпізнає та аналізує графіки та схеми

Нові інструменти роблять ChatGPT повноцінним мультимодальним асистентом, здатним сприймати світ не лише через текст, а й через складні візуальні образи. Це суттєво спростить виконання багатьох робочих завдань, де потрібен швидкий аналіз графічних даних.


Телеграм double.newsТелеграм double.news

Схожі Новини
Drive and Listen

Drive and Listen: катайтесь вулицями Лондона, Берліна, Токіо та слухайте місцеве радіо

Уявіть, що ви їдете вузькими вуличками Парижа, швидкісними магістралями Лос-Анджелеса чи серед жвавого натовпу Токіо, а з динаміків лунає місцеве радіо. Вам не потрібно бронювати квитки чи збирати валізи – усе це можливо завдяки сервісу Drive and Listen.
Детальніше