Российским исследователям удалось создать «искусственный интеллект», способный понять сложные документы

Группа исследователей из Cognitive Technologies заявила о создании первой в России системы ввода документов из первичной бухгалтерии (товарно-денежные накладные, счет-фактуры и пр.) промышленного качества.

В компании заверяют, что это инновационная система, отличающаяся от традиционных технологий обычного распознания символов.

Владимир Арлазаров, руководитель лаборатории систем массового вода документов говорит, что традиционные OCR-системы на документах могут распознать не более 50% строк из таблиц, из-за чего их нет смысла широко применять в промышленности. При этом качество ввода у таких технологий зависит от процентного соотношения распознания строчек в таблицах, а не отдельно взятых символов и исключительной классификации наименований товаров.

Господин Арлазаровав так же поясняет, что для промышленных систем распознания порог восприятия вводимой информации составляет 75% позиций, а их разработка превышает этот показатель на несколько процентов. В итоге после ввода документов результатом является информация, с точностью разложенная по ячейкам собственной базы программы, наименование товара, наименование поставщика, стоимость товара, данные о плательщике, данные о заказчике и пр., то есть сотни разных позиций. И здесь невозможно допустить ни единой ошибки.

В общем массиве документооборота в бухгалтерии автоматическая обработка сложных видов документов по самым различным данным оценивается в 50%-60% и в этом кроется сложнейшая задача для искусственного интеллекта. Причина такой разной оценки заключается в том, что все современные документы не имеют единой формы, а значит разные ключевые их элементы могут находиться в разных участках документа.

Другими словами-данные например о получателе или банковские реквизиты могут произвольно «плавать» на разных страницах документа (если документ большой) или как минимум находится в любой части одного листка. Да и сам лист может иметь разный формат-от А5 до А4 с книжным вариантом ориентации или альбомным. Кроме того качество напечатанного текста не всегда позволяет хотя бы просто прочесть его.

Получается, что система, распознающая документы должна, как человек анализировать информации о документе, его содержание, ориентацию, тип и т.д. К примеру будет ли являться число в позиции номером отгрузки, или это сумма, или что то еще.

Арлазаров отмечает, что человек распознает документ и символы на нем, основываясь на своих знаниях и опыте, а в системе реализуется примерно этот же принцип: понимание распознаваемого, за счет установления правил соответствия, семантических и смысловых правил.

Задача понимания таким образом заключается в распознании соответствия элементов документа и в знании о том, куда эти данные должны помещаться. Так сложнейшими участками документа становятся участки с сплошным текстом из которого система должна выделить и классифицировать по отдельным признакам требуемую информацию. Порой выделение из сплошного текста необходимой информации даже для человека становится трудной задачей.

Еще одна трудность перед разработчиками заключалась в определении наименований товаров-ведь каждый изготовитель и поставщик применяет свое написание или сокращение одного и того же типа товара. К примеру «Молоко. паст.» или «Паст. Молоко городского молокозавода» и иные наименования позиций, которые только способен выдумать их автор.

С точки зрения математики задача распознания или классификации товарной позиции заключается в поиске ее номера и кода в базе данных клиента, который при этом на документах может и не печататься. В связи с этим применяется смысловой анализ документа. Человек в такой ситуации начинает читать весь документ, сравнивая товарные позиции друг с другом по одному товару. Примерно так же работает и система, научившись оперировать однозначностями, типа 0,7 кг, пинта, 700 грамм и т.п.

Наконец последней из сложных задач распознания в промышленных масштабах документации была идентификация печатей и подписей, а так же их отделение от особых пометок, которые зачастую ничем не отличаются друг от друга.

Так для анализа подписей происходит анализ символов с подобными символами в других частях документа или применяются дополнительные данные, типа фамилии, имени и отчества заказчика, наличие в определенном месте печати и пр. Такое решение наиболее всего ориентировано на крупные торговые розничные сети.

Глава компании Cognitive Technologies Ольга Ускова сообщает, что исследователи затратили на создание распознающей системы промышленных масштабов за минувшие пять лет более 70 миллионов рублей, и разработки при этом не прекращаются по сей день. Их результаты будут актуальны и через десятки лет. Так начало разработок когнитивной системы понимания документов в промышленных масштабах было положено еще в 90-х годах, но спрос на эту технологию появился лишь в наши дни, за счет формирования необходимой современной аппаратной базы и потребителей. На сегодняшний день ведутся разработки в сфере машинного зрения, математических вычислений (модели сообщения информации, в которых идея выступает единицей информации, как ген в структуре ДНК), bigdata. Со временем и эти разработки будут пользоваться спросом, а компания обеспечит себе лидерство на рынке за счет их предложения.