Кирилл Сидоров

Текст

«Сбер» представил нейросеть ruDALL-E, которая может генерировать неограниченное количество изображений по описанию на русском языке

ruDALL-E сделана на базе другой нейросети — DALL-E, генерирующей картинки по описанию на английском языке и представленной в январе 2021 года OpenAI. Воспроизведением кода и обучением отечественного аналога занимались команды SberDevices, Sber AI и SberCloud. Для этого разработчики использовали платформу ML Space на базе суперкомпьютера «Кристофари».

В ruDALL-E специалисты заложили три нейросети: первая на основе текста генерирует определенное число изображений, вторая занимается выбором наиболее подходящих, третья воспроизводит и кадрирует их без потери качества.

По данным vc.ru, нейросеть обучается одновременно на картинках и текстах и способна генерировать неограниченное число изображений по заданному описанию. При этом первоначальное обучение заняло 23 тысячи GPU-часов с использованием 120 млн пар текст-изображение.

Использованные источники: