bg
Новости
19:49, 14 декабря 2025
views
13

Искусственный интеллект в России научился скорочтению

Разработка позволяет в разы ускорить настройку систем оптического распознавания текста и повысить их точность для работы с реальными документами

Фото: iStock

В России учёные НИТУ МИСИС разработали метод, который позволяет в разы ускорить настройку систем оптического распознавания текста и повысить их точность для работы с реальными документами. Новый инструмент сокращает время обучения OCR-систем с нескольких недель до 72 часов и делает их более пригодными для практического использования в бизнесе и государственном документообороте.

Избежать ошибок

Оптическое распознавание текста применяется при оцифровке договоров, счетов, архивных материалов и других документов. Однако на практике такие системы часто сталкиваются с ошибками из-за печатей, подписей, нестандартных шрифтов или низкого качества сканов. Для повышения точности OCR обычно требуется длительное и затратное обучение. Исследователи МИСИС предложили иной подход, объединив классические методы машинного обучения с современными генеративными нейросетями.

Основным элементом разработки стал замкнутый цикл взаимодействия OCR-движка и языковой модели. Система самостоятельно анализирует результаты распознавания, выявляет типовые ошибки и корректирует их, формируя новые обучающие данные.

В ходе экспериментов это позволило сократить срок подготовки моделей до трёх суток непрерывной работы и добиться точности распознавания русского текста выше 90%. Эта точность соответствует общепринятым стандартам.

В неидеальных условиях

Как отметил магистрант Института компьютерных наук НИТУ МИСИС Кирилл Пронин, использование генеративных моделей позволило снизить затраты на обучение почти на треть и уменьшить объём тестовой выборки. Дополнительным преимуществом стала возможность имитировать «неидеальные» условия: плохое качество печати, сложную вёрстку и размытые изображения. Это повышает качество обучения нейросети.

Доцент НИТУ МИСИС Александр Сулейкин подчеркнул:

«Такой подход приближает OCR-решения к реальным условиям эксплуатации. Разработка открывает путь к более доступным и точным инструментам автоматизации документооборота».

Результаты исследования были представлены на международной конференции ISKE в Китае и лягут в основу новых промышленных и научных разработок.

like
heart
fun
wow
sad
angry
Последние новости
Главное
Рекомендуем
previous
next