Kandinsky

Kandinsky
Kandinsky
Тип	нейронная сеть
Разработчики	Sber AI, Институт искусственного интеллекта AIRI
Языки интерфейса	русский
Первый выпуск	2023 год
Последняя версия	3.1 (2024)
Сайт	sberbank.com/promo/kandi…

Kandinsky («Канди́нский») — нейронная сеть для генерации изображений и видео по текстовому описанию, разработанная компанией «Сбер» при поддержке учёных Института искусственного интеллекта AIRI на объединённых наборах данных Sber AI и SberDevices^[1].

История

В ноябре 2021 года были выложены в открытый доступ код и веса базовой модели ruDALL-E XL (1,3 млрд параметров), ставшей прототипом нейросети Kandinsky. На её основе был создан сервис генерации изображений rudalle. В июне 2022 года была представлена первая версия модели Kandinsky с 12 млрд параметров. Она имеет ту же архитектуру, что и ruDALL-E XL, но содержит большее количество слоёв и увеличенный размер скрытого пространства. Модель прошла обучение на 179 млн пар изображений с текстовыми описаниями^[2].

Нейросеть генерирует изображения в три этапа. Сначала модель создаёт заданное число изображений на основе текстового запроса пользователя. Затем алгоритм ruCLIP Large выбирает из набора сгенерированных картинок наиболее соответствующие описанию. На третьем этапе алгоритм апскейлинга увеличивает разрешение выбранного на предыдущем шаге изображения при помощи Real-ESRGAN или диффузионного метода^[3].

23 ноября 2022 года на конференции AI Journey «Сбер» представил новую версию нейросети — Kandinsky 2.0. От предыдущей она отличается мультиязычностью и новой архитектурой. Разработчики использовали модифицированную архитектуру Latent Diffusion, которая предполагает генерацию латентных векторов изображений и работу с ними. Для обеспечения мультиязычности применялись два мультилингвальных энкодера XLMR-clip и mT5-small. Нейросеть понимает запросы на 101 языке. По сравнению с Latent Diffusion, Kandinsky 2.0 также имеет увеличенный блок UNet с 1,2 млрд параметров. Модель обучали на датасете из 1 млрд пар «текст-изображение»^[4].

В начале апреля 2023 года вышла версия Kandinsky 2.1. Эта модель имеет 3,3 млрд параметров и основана на архитектуре Kandinsky 2.0. Вместо двух текстовых энкодеров в нейросети стал использоваться один новый — XLM-Roberta-Large-Vit-L-14. Разработчики также отказались от декодера VQGAN в пользу MoVQ. А в архитектуру добавили image prior модель для маппинга текстов и изображений и энкодер изображений CLIP^[5].

Она была обучена ещё на дополнительных 170 млн пар изображений с текстом. Нейросеть была также усовершенствована за счет новой обученной модели автоэнкодера. Помимо закодированных текстовых описаний, модель использует специальное представление изображения моделью CLIP. Модель может генерировать картинки с разрешением 768x768 пикселей. За четыре дня с момента выхода Kandinsky 2.1 число пользователей нейросети достигло 1 млн человек. Они сгенерировали более 3 млн изображений^[6].

12 июля 2023 года Сбер выпустил версию нейросети Kandinsky 2.2. Сообщается, что теперь сервис умеет создавать фотореалистичные изображения в улучшенном качестве и изменять соотношение сторон при генерации. Разрешение изображений достигло 1024 пикселей по каждой стороне. В отличие от предыдущей версии, где картинки могли быть только квадратными, в Kandinsky 2.2 добавили функцию создания прямоугольных изображений с различной ориентацией. В нейросети появился функционал ControlNet, который позволяет локально изменять сгенерированное изображение, не меняя сцену. Нейросеть дополучили на датасете, содержащем 1,5 млрд пар «текст — изображение»^[7].

В течение суток после выхода Kandinsky 2.2 пользователи сгенерировали 1 млн изображений. Лидерами по популярности стали темы «коты», «море» и «аниме»^[8].

В октябре 2023 года разработчики добавили в функционал Kandinsky 2.2 возможность создавать 4-секундные анимационные видеоролики. Каждая генерация видео частотой 24 кадра в секунду и разрешением 640x640 пикселей занимала примерно 20 секунд^[9].

22 ноября 2023 года в рамках конференции AI Journey «Сбер» представил новую версию нейросети — Kandinsky 3.0. В отличие от двухстадийного процесса генерации, использованного в Kandinsky 2.1 и Kandinsky 2.2, в версии 3.0 изображения создаются непосредственно из закодированных текстовых токенов.

В качестве языковой Encoder/Decoder модели в версии 3.0 разработчики использовали нейросеть FLAN-UL2. Также был изменён алгоритм U-Net. В новой версии он состоит из блоков BigGAN-deep. По сравнению с предыдущими версиями, Kandinsky 3.0 стала лучше понимать запрос пользователя. Она создаёт более фотореалистичные изображения и способна генерировать художественные картины, арты и скетчи. Одной из главных особенностей модели является лучшее знание русской культуры^[10].

22 апреля 2024 года пользователям стала доступна усовершенствованная версия сервиса — Kandinsky 3.1, появившаяся в этом же месяце. В неё была добавлена функция улучшения текстового промпта пользователя при помощи языковой модели Neural-Chat-v3-1^[11].

В новой версии также обновилась функция inpainting/outpainting — дорисовывания частей изображения. За счёт архитектурных изменений разработчики смогли уменьшить количество шагов генерации с 50 до 4 с сохранением качества иллюстрации. Была представлена и модель Kandinsky 3.1 Flash, позволяющая создавать изображения в 10 раз быстрее по сравнению с базовой моделью. В Kandinsky 3.1 впервые появилась возможность генерировать изображения не только по текстовому запросу, но и с использованием другого изображения^[12].

Kandinsky Video

22 ноября 2023 года в рамках конференции AI Journey 2023 представил модель Kandinsky Video для генерации видео по текстовому запросу. Нейросеть способна создавать ролики длиной до 8 секунд с частотой 30 кадров в секунду. Разрешение изображения составляет 512×512 пикселей, а на одну генерацию у алгоритма уходит порядка 3 минут^[13].

Нейросеть состоит из двух основных частей. Первая генерирует опорные кадры для видеоролика, а вторая — интерполяционные кадры. Последние «заполняют пробелы» между опорными кадрами, создавая плавность движения. Для обучения алгоритма разработчики использовали набор данных из более чем 300 тысяч пар «текст-видео»^[14].

В апреле 2024 года «Сбер» анонсировал новую версию Kandinsky Video 1.1. Сообщается, что она может генерировать в два раза более качественные ролики по сравнению с предыдущей моделью благодаря увеличению объёма обучающего датасета пар «текст-видео» и изменениям в архитектуре модели^[15].

В декабре 2024 года была представлена четвёртая версия ИИ-генератора видео — Kandinsky 4.0. Нейросеть стала способна создавать видео в формате HD длиной до 12 секунд^[16].

Функционал

В текущей версии Kandinsky 3.1 доступны:

генерация по текстовому промпту;
микширование изображения и текстового описания дополнения;
редактирование сгенерированного изображения при помощи ControlNet;
микширование двух изображений;
дорисовывание изображения — inpainting/outpainting;
бьютификация (улучшение) текстового запроса пользователя.

См. также

Примечания

↑ «Сбер» представил дообученный генератор изображений Kandinsky 3.1 (неопр.). hightech.plus. Дата обращения: 27 сентября 2024. Архивировано 7 августа 2024 года.
↑ «Сбер» представил нейросеть ruDALL-E. Она создает красивые картинки по описанию на русском языке (неопр.). naked-science.ru. Дата обращения: 27 сентября 2024. Архивировано 13 июля 2024 года.
↑ «Сбер» представил Kandinsky — ИИ-модель для генерации изображений по текстовому описанию на русском языке (неопр.). 3dnews.ru (14 июня 2022). Дата обращения: 11 июля 2023. Архивировано 11 июля 2023 года.
↑ Сбер показал нейросеть Kandinsky 2.0 для генерации изображений по текстам (неопр.). РБК (23 ноября 2022). Дата обращения: 11 июля 2023. Архивировано 11 июля 2023 года.
↑ Сбер представил нейросеть Kandinsky 2.1 (неопр.). Lenta.ru (4 апреля 2023). Дата обращения: 11 июля 2023. Архивировано 11 июля 2023 года.
↑ Сбер подсчитал число созданных нейросетью Kandinsky 2.1 изображений (неопр.). Lenta.ru (4 июля 2023). Дата обращения: 12 июля 2023. Архивировано 12 июля 2023 года.
↑ Сбер представил новую версию своей нейросети Kandinsky (неопр.). Газета.ru (12 июля 2023). Дата обращения: 13 июля 2023. Архивировано 13 июля 2023 года.
↑ За сутки пользователи Kandinsky 2.2 от Сбера создали миллион изображений (рус.). Lenta.ru. — новость. Дата обращения: 14 июля 2023. Архивировано 14 июля 2023 года.
↑ Нейросеть Kandinsky 2.2 научилась создавать анимационные видеоролики (неопр.). Российская газета (12 октября 2023). Дата обращения: 14 октября 2023. Архивировано 13 октября 2023 года.
↑ Сбер представил новую версию нейросети Kandinsky 3.0 (неопр.). ТАСС (22 ноября 2023). Дата обращения: 30 апреля 2024. Архивировано 30 апреля 2024 года.
↑ Изобразительная нейросеть Kandinsky 3.1 стала доступна для всех пользователей (неопр.). 3dnews.ru (22 апреля 2024). Дата обращения: 30 апреля 2024. Архивировано 30 апреля 2024 года.
↑ Быстрее в 10 раз: новая версия нейросети Сбера Kandinsky доступна всем пользователям (неопр.). ixbt.com. Дата обращения: 27 сентября 2024. Архивировано 18 мая 2024 года.
↑ Kandinsky Video и Kandinsky 3.0: что умеют новые нейросети (неопр.). trends.rbc.ru. Дата обращения: 27 сентября 2024. Архивировано 23 июня 2024 года.
↑ В России появилась первая нейросеть, генерирующая видео (неопр.). telecomdaily.ru. Дата обращения: 27 сентября 2024. Архивировано 11 декабря 2024 года.
↑ Сбер открыл доступ к обновленной версии Kandinsky Video (неопр.). Лента.ру (28 мая 2024). Дата обращения: 1 июня 2024. Архивировано 1 июня 2024 года.
↑ Сбер обновил нейросеть Kandinsky для создания видео: еще больше реалистичности (неопр.). Hi-tech Mail.ru (12 декабря 2024). Дата обращения: 14 декабря 2024. Архивировано 14 декабря 2024 года.

Ссылки

Какая нейросеть лучше? Kandinsky 2.1 vs Шедеврум.

[1] «Сбер» представил дообученный генератор изображений Kandinsky 3.1 (неопр.). hightech.plus. Дата обращения: 27 сентября 2024. Архивировано 7 августа 2024 года.

[2] «Сбер» представил нейросеть ruDALL-E. Она создает красивые картинки по описанию на русском языке (неопр.). naked-science.ru. Дата обращения: 27 сентября 2024. Архивировано 13 июля 2024 года.

[3] «Сбер» представил Kandinsky — ИИ-модель для генерации изображений по текстовому описанию на русском языке (неопр.). 3dnews.ru (14 июня 2022). Дата обращения: 11 июля 2023. Архивировано 11 июля 2023 года.

[4] Сбер показал нейросеть Kandinsky 2.0 для генерации изображений по текстам (неопр.). РБК (23 ноября 2022). Дата обращения: 11 июля 2023. Архивировано 11 июля 2023 года.

[5] Сбер представил нейросеть Kandinsky 2.1 (неопр.). Lenta.ru (4 апреля 2023). Дата обращения: 11 июля 2023. Архивировано 11 июля 2023 года.

[6] Сбер подсчитал число созданных нейросетью Kandinsky 2.1 изображений (неопр.). Lenta.ru (4 июля 2023). Дата обращения: 12 июля 2023. Архивировано 12 июля 2023 года.

[7] Сбер представил новую версию своей нейросети Kandinsky (неопр.). Газета.ru (12 июля 2023). Дата обращения: 13 июля 2023. Архивировано 13 июля 2023 года.

[8] За сутки пользователи Kandinsky 2.2 от Сбера создали миллион изображений (рус.). Lenta.ru. — новость. Дата обращения: 14 июля 2023. Архивировано 14 июля 2023 года.

[9] Нейросеть Kandinsky 2.2 научилась создавать анимационные видеоролики (неопр.). Российская газета (12 октября 2023). Дата обращения: 14 октября 2023. Архивировано 13 октября 2023 года.

[10] Сбер представил новую версию нейросети Kandinsky 3.0 (неопр.). ТАСС (22 ноября 2023). Дата обращения: 30 апреля 2024. Архивировано 30 апреля 2024 года.

[11] Изобразительная нейросеть Kandinsky 3.1 стала доступна для всех пользователей (неопр.). 3dnews.ru (22 апреля 2024). Дата обращения: 30 апреля 2024. Архивировано 30 апреля 2024 года.

[12] Быстрее в 10 раз: новая версия нейросети Сбера Kandinsky доступна всем пользователям (неопр.). ixbt.com. Дата обращения: 27 сентября 2024. Архивировано 18 мая 2024 года.

[13] Kandinsky Video и Kandinsky 3.0: что умеют новые нейросети (неопр.). trends.rbc.ru. Дата обращения: 27 сентября 2024. Архивировано 23 июня 2024 года.

[14] В России появилась первая нейросеть, генерирующая видео (неопр.). telecomdaily.ru. Дата обращения: 27 сентября 2024. Архивировано 11 декабря 2024 года.

[15] Сбер открыл доступ к обновленной версии Kandinsky Video (неопр.). Лента.ру (28 мая 2024). Дата обращения: 1 июня 2024. Архивировано 1 июня 2024 года.

[16] Сбер обновил нейросеть Kandinsky для создания видео: еще больше реалистичности (неопр.). Hi-tech Mail.ru (12 декабря 2024). Дата обращения: 14 декабря 2024. Архивировано 14 декабря 2024 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Сбербанк России
Финансы	Драйв Клик Банк SberPay Кредистория Сбербанк России ЮMoney
Еда и товары	Performance Group Мегамаркет Самокат Купер СберЛогистика СберМобайл
Устройства	SberBox SberBox Time SberBox Top SberPortal
Здоровье	Еаптека СберЗдоровье
Вертикальные сервисы	Работа.ру Домклик СберАвто СберУслуги
Транспорт и навигация	2ГИС Ситидрайв
Услуги бизнесу	Bi.Zone r_keeper Объединённое кредитное бюро СберА СберМаркетинг
Rambler&Co	Lenta.ru LiveJournal Rambler News Service Афиша Портал Rambler.ru Рамблер/почта Рамблер/топ-100
Стриминговые сервисы	Okko Звук Бизнес GigaChat Kandinsky

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[англ.] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[англ.] Извлечение коллокаций^[англ.] Стемминг Лемматизация Распознавание именованных сущностей^[англ.] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[англ.] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[англ.] Извлечение информации Идентификация языка Определение регистра^[англ.]
Реферирование	Извлечение предложений^[англ.] Генерация реферата Многодокументное реферирование^[англ.] Упрощение текста^[англ.]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[англ.] На основе правил На основе примеров На основе словаря^[англ.] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[англ.] Конкордансер Предиктивный ввод текста Система проверки грамматики^[англ.] Система проверки правописания Угадывание синтаксиса^[англ.]
Интерфейс на естественном языке^[англ.]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Искусственный интеллект
История	Вычислительные машины и разум Зима искусственного интеллекта Бум искусственного интеллекта Джорджтаунский эксперимент Дартмутский семинар Отчёт Лайтхилла Регламент ЕС Гонка вооружений в области искусственного интеллекта Холодная война за искусственный интеллект
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля
Направления	Агентный подход Адаптивное управление Генеративный ИИ Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Персональный искусственный интеллект Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Рэймонд Курцвейл Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG