16:23, 10 мая 2026

ИИ-композитор и исполнитель: в России создали нейросеть, которая пишет песни оффлайн

Ключевая особенность решения – полная независимость от зарубежных платформ и возможность работы без выхода в интернет.

Специалисты Новосибирского государственного технического университета (НГТУ) разработали программное обеспечение для генерации аудиоконтента на базе нейросетевых моделей. Система умеет создавать инструментальную музыку, песни с вокалом и звуковые эффекты, работает без привязки к облачным сервисам и рассчитана на обычное потребительское оборудование с видеопамятью менее 6 ГБ.

Полный цикл создания музыки

Музыкальные произведения создаются по текстовым описаниям без привязки к интернету. По словам разработчиков, система обеспечивает полный цикл создания аудиопродукции – от текстового запроса до экспорта в широко используемые форматы WAV, MP3 и FLAC. Решение адаптировано для работы с русскоязычными запросами.

«Технически обработка строится в несколько этапов: языковая модель формирует семантический “каркас” композиции с использованием “цепочки рассуждений”, диффузионный трансформер выполняет акустический синтез в латентном пространстве, а модуль экспорта обеспечивает конвертацию в целевые форматы. Встроенный графический интерфейс позволяет управлять проектами, сохранять и загружать пресеты параметров генерации, прослушивать предварительные результаты и экспортировать треки без привлечения сторонних редакторов», – рассказал разработчик проекта Артур Хусаинов.

Photo - ИИ-композитор и исполнитель: в России создали нейросеть, которая пишет песни оффлайн

Авторы обещают расширение функций: добавление поддержки пространственного аудио для задач виртуальной реальности, интеграцию с MIDI-контроллерами для живого взаимодействия и адаптацию программного обеспечения для промышленных сценариев. В будущем можно будет создавать звуковые ландшафты для видеоигр, автоматически озвучивать фильмы, подкасты и рекламные ролики.

Конкуренция на рынке креативных продуктов

Создание музыки – один из самых популярных и быстрорастущих сегментов генеративного ИИ, где доминируют зарубежные сервисы вроде Suno и Udio. Решение новосибирских авторов может стать элементом технологического суверенитета именно в области креативных ИИ-инструментов.

На рынке уже есть российские решения для генерации музыки, например SymFormer/SymFormerX от Сбера, который создает музыку на основе текстового запроса и использует нейросетевые подходы CLaMP и SymFormer. Отличие разработки НГТУ – в возможности работы в закрытом контуре, малых требованиях к видеопамяти и специализации сразу на трех типах аудио – музыка, вокал, звуковые эффекты.

Если из эксперимента эта программа станет готовым пользовательским продуктом, люди получат удобный инструмент для создания музыки, озвучки видео, музыкального сопровождения игр без услуг профессиональной студии. Для малого бизнеса это может снизить стоимость аудиопродакшена, а значит, снизить общие затраты на проекты и рекламу.

От развлечений к профессиональным инструментам

Для России сегодня особенно важно развитие собственного стека генеративного ИИ в креативных индустриях, которое позволит снизить зависимость от зарубежных облачных платформ. Заявив о локальном, автономном и адаптированном к русской языковой среде решении для генерации аудио, российская команда сделала вклад в технологический суверенитет страны. Импортонезависимое программное обеспечение поможет развитию креативных индустрий.

В свою очередь, рынок музыки, созданной с помощью ИИ, будет двигаться от развлекательного контента к профессиональным инструментам: мультитрековая генерация, MIDI, stem-экспорт, синхронизация с видео, генерация адаптивного саундтрека для игр, легальная работа с голосами артистов и лицензированными каталогами. Важно сразу строить правовую и технологическую архитектуру под этот сценарий.

Ключевая особенность нашего решения – это полная независимость от зарубежных платформ и возможность работы в закрытом контуре. Мы дообучили базовую модель специализированными LoRA-адаптерами под три типа контента: инструментальную музыку, песни с вокалом и звуковые эффекты, что позволяет избежать эффекта смешения характеристик и добиться более точного соответствия запросу

Егор Антонянц

ассистент кафедры Автоматизированных систем управления Новосибирского государственного технического университета, руководитель проекта

Культура, спорт и медиа