bg
Цифровые продукты и платформы
10:10, 27 марта 2026
views
20

Российские исследователи представили новую методологию тестирования ИИ-ассистентов

Российские исследователи придумали новую методологию DRAGOn. С помощью нее можно тестировать RAG-системы (Retrieval-Augmented Generation), которые работают с искусственным интеллектом.

Инновационное решение разработчиков впервые позволяет оценивать точность ИИ-ассистентов на обновляемых корпоративных данных. Новая разработка «закрывает» задачу автоматического обновления информации и проверяет ее достоверность.

Авторами методологии стали ученые из Сбера, MWS AI и ведущих вузов – ИТМО, МИСИС и НИУ ВШЭ. Результат их совместной работы – первая открытая динамическая методология тестирования русскоязычных систем генеративного ИИ с поиском (RAG). RAG-системы объединяют большие языковые модели и корпоративные базы знаний, поэтому при ответе на вопрос пользователя ИИ использует их совместно. Благодаря этому нейросети могут предоставлять актуальную информацию, а риск ошибок снижается.

Система в автоматическом режиме «выуживает» новые факты из новостных лент, создает свою «карту знаний» и заставляет искусственный интеллект сопоставлять несколько источников информации вместо простого копирования фрагментов текста. Ответы виртуального ассистента проверяет нейросеть-судья, которая анализирует фактическую точность и полноту информации.

По словам соавтора исследования, руководителя центра разработки больших языковых моделей MWS AI Валентина Малых, новая методология универсальна и очень легко подстраивается к любым языкам и сценариям – ее можно с одинаковым успехом применять как для анализа научных публикаций, так и для работы с судебными документами.

Во время исследования по разработке новой методологии был запущен первый публичный лидерборд (рейтинг) RAG-систем на русском языке. Выяснилось, что связка из нескольких больших языковых моделей в комбинации с продвинутыми методами поиска дает большую точность. Как отмечают эксперты, DRAGOn предоставляет клиентам не стандартные ответы на вопросы, а многоуровневые выкладки, для составления которых нужно сопоставить информацию из разных источников, а затем еще и проверить ее через нейросеть-судью.

Может помочь каждому

Новая методология может применяться любой компанией, независимо от сферы ее деятельности. Персонал организации может развернуть собственный контур тестирования, испытать систему на практике на внутренних данных предприятия еще до внедрения. Так, можно узнать, насколько точно ИИ-система работает в определённой инфраструктуре, снижает риски ошибок в ответах, а также сравнить эффективность разных моделей по единым критериям.

В исследовании приняли участие специалисты Сбера (команда SberAI), Университета искусственного интеллекта имени Мохаммеда бин Заида (MBZUAI), ИТМО, МИСИС, НИУ ВШЭ, MWS AI, Международного университета информационных технологий (IITU) и Школы анализа данных Яндекса.

Проверка достоверности будет обязательной

Новый ИТ-продукт российских исследователей отвечает тенденциям рынка: сегодня компаниям важно не только пользоваться большими речевыми моделями, но и уметь измерять надежность работы нейросети на внутренних данных организации. Ожидается, что эта инновационная разработка может улучшить потребительский опыт россиян, ведь ИИ-ассистенты сервисов станут реже ошибаться, «глючить».

Сейчас ИИ-ассистенты применяются в самых разных сферах, от банковских и страховых услуг до медицинских и образовательных консультаций. Именно такие инструменты как DRAGOn определяют, будут ли ответы ИИ подробными, построенными на основе достоверных и актуальных данных, или же будут полны фактических ошибок и устаревшей информации.

Разработка российских исследователей значима и в масштабе страны – она может стать источником новых идей и будущих проектов в ИТ-отрасли. Проверка достоверности и точности данных ИИ-ассистентов будет проводиться быстрее и качественнее, а виртуальные помощники будут работать по новым стандартам. В перспективе DRAGOn может стать востребованным продуктом на экспорт, ведь она изначально задумана как методология, которая может работать и с другими языками и доменами.

Главное преимущество ИИ-ассистента в том, что он работает напрямую с данными человека внутри приложения: видит его задачи, запоминает сроки и может анализировать предыдущий опыт планирования. Он не просто генерирует идеи, а помогает структурировать уже существующий хаос. И в среднем снижает рутинную нагрузку человека на 30–50%. Контроль в любом случае всегда остается за человеком, как и принятие решений. Нейросети не заменяют способность думать и не снимают ответственность. Но то, как они уже сейчас могут помочь с рутиной, — это очень хороший уровень
quote

like
heart
fun
wow
sad
angry
Последние новости
Главное
Рекомендуем
previous
next