У чат-боті Qwen з'явився безкоштовний генератор зображень з точним відтворенням тексту

Сервіс доступний у Росії.

Alibaba представила Qwen-Image – нову модель генерації зображень з відкритим доступом, яка вирізняється особливо високою точністю в роботі з текстом. Вона здатна створювати реалістичні написи на вітринах, плакатах, книгах та інших об'єктах, включаючи дрібний текст, каліграфію та навіть складні багатомовні компонування.

4145e18999312373eb37a009c5ad9e2c — Зображення: Alibaba

Qwen-Image побудована на архітектурі MMDiT з 20 мільярдами параметрів – аналогічною тій, що використовується у Flux.1 і майбутньому Stable Diffusion 3. Модель пройшла мультизадачну підготовку, що дозволило їй досягти високих результатів як у генерації зображень, так і в їхньому редагуванні.

У публічних бенчмарках на кшталт GenEval, OneIG-Bench та ImgEdit вона обійшла існуючі аналоги, а за якістю рендерингу китайського тексту суттєво перевершила найкращі з них. Alibaba окремо підкреслює, що Qwen-Image чудово справляється з тонкими деталями на кшталт ієрогліфів, багаторядкових підписів, заголовків та поєднань шрифтів.

35e678c809d150727027c99be1988e93 — Зображення: Alibaba

Модель може:

акуратно вбудовувати текст у зображення (наприклад, таблички, сувої, обкладинки книг);
комбінувати англійську та китайську в одній сцені (з російською поки що все не дуже добре);
редагувати вже існуюче зображення, зберігаючи стиль, композицію та читання тексту;
змінювати пози персонажів та додавати нові об'єкти в сцену.

Модель вже доступна в Qwen Chat в режимі “Генерація зображень”, але поки що без редагування. Також її виклали на GitHub, Hugging Face та ModelScope. Найближчим часом очікується інтеграція Qwen-Image у майбутні мультимодальні моделі Qwen 4 та Qwen 5.

Раніше Alibaba прокачала лінійку ІІ-моделей Qwen 3 – особливо в математиці та кодингу.

No votes yet.

Please wait...