В данной работе предложен метод кластеризации изображений отсканированных документов. Описаны методы обработки изображений с целью извлечения признаков, применение быстрых алгоритмов LSH для кластеризации признаков. Идея алгоритма заключается в подсчёте характеристик изображения, описывающих форму текста, понижении их размерности при помощи хеширования и нахождения похожих изображений. Были сделаны уточнения стандартных алгоритмов. Приведены результаты работы алгоритма на тестовой выборке изображений и описана реализация.
Источник: Санкт-Петербургский государственный университет
Пожалуйста, перезагрузите страницу через некоторое время...
Отзывы:
Авторизуйтесь, чтобы оставить отзыв