Нейросеть с акцентом: «ГигаЧат» обучают языкам народов России
Сбер обучает нейросеть «ГигаЧат» татарскому языку при поддержке Академии наук Татарстана. Проект формирует цифровой корпус из литературы и прессы для сохранения культурного наследия народов России.

Сотрудничество ради науки
Первый заместитель председателя правления Сбербанка Александр Ведяхин объявил о старте проекта во время своего визита в Казань. Сбербанк и Академия наук Республики Татарстан заключили соглашение о расширения языкового разнообразия нейросети «ГигаЧат».
Научные сотрудники Академии предоставят компании лингвистическую экспертизу и архивные материалы. Также они проверят качество обучающих материалов и помогут нейросети освоить особенности татарской грамматики. Это позволит ей корректно генерировать тексты на татарском языке, а не просто переводить их с русского.
Литературная основа
Для обучения «ГигаЧата» был сформирован масштабный корпус текстов на татарском языке. В него вошли произведения классической литературы, современная пресса, учебники и научные публикации. Такой подход обеспечил нейросети понимание языка во всём его разнообразии и богатстве – от разговорной речи до стихов, от шуток до официального документооборота.

База текстов постоянно пополняется. Специалисты Сбера и Академии наук отбирают материалы, отражающие живой и актуальный язык. Ведь без достаточного объёма качественных данных нейросеть не сможет генерировать осмысленные ответы на запросы пользователей. Проект решает проблему цифрового дефицита для языков малых народов.
Языковое разнообразие страны
Татарский язык – второй по распространённости в России после русского. Более 5,3 миллиона человек указали его в качестве родного в ходе последней переписи населения. Однако далеко не все цифровые сервисы полностью поддерживают его. «ГигаЧат» станет одним из первых ИИ-ассистентов, способных вести диалоги на этом языке.

Жители Татарстана смогут задавать вопросы чат-боту на родном языке. Это особенно важно для старшего поколения и жителей сельских районов, где татарский остаётся основным языком общения. ИИ становится мостом между традиционной культурой и цифровыми технологиями.
Языки народов России
«ГигаЧат» сейчас осваивает сразу двадцать языков народов России. Кроме татарского, в их числе них удмуртский, алтайский, башкирский, бурятский, вепсский, горномарийский, ингушский, коми и другие. Российская интернет-энциклопедия РУВИКИ передала для обучения нейросети более 1,4 миллиона текстов на этих языках.
Проект охватывает языки народов России от Кавказа до Дальнего Востока. Это беспрецедентная инициатива по цифровизации лингвистического наследия страны. Многие из этих языков находятся под угрозой исчезновения, и искусственный интеллект может стать инструментом их сохранения для будущих поколений.
Технологический суверенитет в области ИИ
Этот проект показывает, что российские разработчики могут самостоятельно развивать и адаптировать нейросетевые инструменты к потребностям российской экосистемы.

Россия будет одной из немногих стран в мире, которые создали собственную нейросеть с поддержкой десятков национальных языков. В импорте данного технологического решения могут быть заинтересованы дружественные России страны с многоязычным населением: Индия, страны Африки и Латинской Америки.









































