УДК 004.8

Анализ методов распознавания рук человека при помощи технологий машинного зрения

А.Я. Аноприенко, В.А. Лупашевский

Донецкий национальный технический университет

vlad@lupashevskyi.com

 

 

Аноприенко А.Я., Лупашевский В.А. Анализ методов распознавания рук человека при помощи технологий машинного зрения. Рассматривается и обобщается опыт проведенных исследований в области технологий машинного зрения в контексте распознавания и отслеживания движений рук человека при помощи камер. Основной акцент делается на применении данных технологий на производстве, а именно в узлах ручной сборки, где важен контроль за действиями работника с целью минимизации неосознанных ошибок. Рассматриваются три метода для определения рук при помощи камер, а именно: метод, основанный на определении цвета кожи; метод, основанный на данных, полученных с камеры глубины, а также метод с применением гистограмм направленных градиентов. Производится анализ вышеупомянутых методов и раскрываются достоинства и недостатки каждого из них.

 


Введение

В настоящее время актуальной проблемой в области информационных технологий и робототехники является проблема взаимодействия человека с компьютером без помощи специальных периферийных устройств, таких как клавиатура, мышь и прочие. Стремление к организации взаимодействия человека и компьютера при помощи таких привычных для людей средств, как речь, жесты и зрение, является одной из основных тенденций в развитии современных компьютерных технологий. Зрение при этом играет ведущую роль, так как известно, что посредством зрения человек получает 80-90% информации об окружающем мире. Одной из наиболее актуальных задач в области машинного зрения является задача распознавания лиц и рук человека.

Технологии компьютерного зрения начали развиваться в 60-е годы прошлого века, а уже в 70-е годы начали появляться первые фундаментальные работы в этой области, в которых компьютерное зрение рассматривалось как неотъемлемая часть систем искусственного интеллекта [1, 2]. В начале нового тысячелетия проблема в целом оставалась нерешенной, но существенный прогресс в этой области нашел свое отражение в целом ряде новых фундаментальных работ [3, 4]. При этом постепенно сформировалось понимание компьютерного зрения как наиболее общих технологий компьютерного восприятия визуальной информации, а машинного зрения (или технического зрения) – как специализированных технологий, ориентированных на использование в конкретных производственных процессах. Например, на производстве в узлах ручной сборки для уменьшения процента выхода бракованных деталей основной задачей стоит контроль за последовательностью сборки детали работником. Исследования показали, что при выполнении монотонных, постоянно повторяющихся последовательностей действий спустя время человек допускает неосознанные ошибки. При использовании системы контроля за процессом сборки и немедленном оповещении об ошибках можно уменьшить процент выпуска бракованных деталей как минимум на 50%. Так как зачастую процесс сборки производится при помощи рук, то система должна определять их положение в реальном времени при помощи камер.

Эта задача по-прежнему относится к категории весьма нетривиальных, так как форма рук может очень сильно варьироваться, руки могут быть частично перекрыты другими объектами, иметь различную артикуляцию пальцев и т.д. Решение данной задачи на базе современных технологий позволит получить полноценный детектор жестов рук, ориентированный преимущественно на использование для контроля последовательности операций при сборке на производстве. При достаточной универсальности такой детектор может быть полезным в распознавании языка жестов для людей с ограниченными возможностями и в других областях.

Надеяться на получение существенно новых результатов в этой области позволяет стремительный прогресс компьютерных технологий [5-8]. Полученные в процессе исследований результаты могут быть использованы в процессе развития концепций суперсенсорного компьютинга [9-10] и расширенной реальности [11], а также – в разного рода тренажерных системах, в том числе разрабатываемых в Донецком национальном техническом университете (ДонНТУ) [12-14]. Следует также отметить, что в ДонНТУ различные исследования в области распознования образов ведутся с 90-х годов прошлого века (см., например, работы [15, 16]).

 При проведении данного исследования были также проанализированы и учтены результаты, полученные А.Н. Алфимцевым и В.В. Девятковым [17-19], Ю.А. Болотовым [20], А. В. Куракиным [21, 22], В.Э. Нагапетяном [23] и другими.

Метод, основанный на определении цвета кожи

Суть данного метода заключается в извлечении фрагментов из исходного изображения, цвет которых лежит в пределах цвета кожи человека [24].

В пространстве HSV значения цвета кожи колеблются в пределах 0.05-0.17 для H, 0.1-0.3 для S и 0.09-0.15 для V [25].

При использовании данного метода на первом этапе исходное изображение конвертируется из RGB в HSV модель, затем ось V проецируется на HS пространство, после чего используется EM-алгоритм для разделения смеси гауссиан. Далее из изображения удаляются все гауссианы, центры которых не совпадают с значениями, характерными для цвета кожи. Полученное изображение фильтруется от шумов и на выходе получаем изображение состоящее только из областей лица и рук человека.

При помощи алгоритма k-means производится кластеризация полученных областей. Предполагается, что область лица существенно превосходит по размерам область рук, что позволяет достаточно просто «отсеивать» области лица для выделения на изображении сегментов рук.

Однако, данный метод при своей относительной простоте обладает большим числом недостатков. Он, в частности, не может быть применим в случаях, когда рука пересекается с лицом, либо же с другой рукой, и при наличии сложного фона, особенно если его тона совпадают или близки по значению с тонами цвета кожи.

Метод, основанный на анализе данных, полученных с камер-глубины

Представителями такого рода камер являются Microsoft Kinect, Leap Motion, Creative Depth Camera. Данные камеры получают данных при помощи инфракрасных сенсоров и возвращают монохромное изображение, каждый пиксель которого представляет собой расстояние от камеры до объекта, от которого отражаются инфракрасные лучи.

Основным условием для данного метода является предположение, что рука будет находится ближе всего к камере. Нетрудно предположить, что для определения контура руки необходимо использовать методы для нахождения пикселей, имеющих самое большое значение, принимая в учет некое пороговое значение. Затем, так как рука имеет уникальные геометрические формы, происходит сопоставление полученного изображения с готовым набором контуров руки. После этого получаем область руки на исходном изображении.

Опыт реализации данного метода был получен в ДонНТУ при разработке ряда тренажерных систем, в том числе предполагающих распознавание жестов рук [26-28].

Очевидным недостатком данного метода является необходимость того, чтобы рука находилась ближе всех остальных объектов к камере.

Метод с применением гистограмм направленных градиентов

Гистограммы направленных градиентов – это дескрипторы особых точек, которые используются в компьютерном зрении и обработке изображений с целью распознавания объектов. Данная техника основана на подсчете количества направлений градиента в локальных областях изображения.

Основной идеей алгоритма является допущение, что внешний вид и форма объекта на участке изображения могут быть описаны распределением градиентов интенсивности или направлением краев. Реализация этих дескрипторов может быть произведена путём разделения изображения на маленькие связные области, именуемые ячейками, и расчетом для каждой ячейки гистограммы направлений градиентов или направлений краев для пикселов, находящихся внутри ячейки. Комбинация этих гистограмм и является дескриптором. Для увеличения точности локальные гистограммы подвергаются нормализации по контрасту. С этой целью вычисляется мера интенсивности на большем фрагменте изображения, который называется блоком, и полученное значение используется для нормализации. Нормализованные дескрипторы обладают лучшей инвариантностью по отношению к освещению.

Основной задачей при использовании данного метода является разработка искусственной нейронной сети, которая будет изучать множество шаблонов рук, которые представляют собой всевозможные случаи того, как рука может выглядеть на изображении.

После обучения нейронная сеть будет готова к распознаванию рук человека на статическом изображении.

Главным недостатком данного метода является его низкая скорость работы, что делает его невозможным для использования в системах, где необходимо получать информацию о положении рук в реальном времени.

Выводы и дальнейшие планы

В ходе работы было исследовано три метода для определения рук человека на изображениях. Каждый из методов имеет свои достоинства и недостатки. В дальнейшем планируется более подробное исследование каждого из методов, а также поиск других способов идентификации жестов рук человека на изображениях. Помимо этого, планируется исследовать и использовать возможности комбинации нескольких методов для компнсации их недостатков и получения оптимальных результатов.

Литература

1. Хант Э. Искусственный интеллект. – М.: Мир, 1978. 558 с

2. Дуда Р., Харт П. Распознавание образов и анализ сцен. – М.: Мир, 1976. 512 с.

3. Форсайт Д., Понс Ж. Компьютерное зрение. Современный подход. – М.: Вильямс, 2004. 928 с.

4. Шапиро Л., Стокман Дж. Компьютерное зрение. – М.: БИНОМ. Лаборатория знаний, 2006. – 752 с.

5. Аноприенко А.Я. Периодическая система развития компьютерных систем и перспективы нанокомпьютеризации // Инновационные перспективы Донбасса: Материалы международной научно-практической конференции. Донецк, 20-22 мая 2015 г. Том 5. Компьютерные науки и технологии. – Донецк: Донецкий национальный технический университет, 2015. С. 5-13.

6. Аноприенко А.Я. Системодинамика ноотехносферы: основные закономерности // «Системный анализ в науках о природе и обществе». – Донецк: ДонНТУ, 2014, №1(6)-2(7). С. 11-29.

7. Аноприенко О.Я., Варзар Р.Л., Иваница С.В.  Закономерности развития аналого-цифровых преобразователей и перспективы использования постбинарного кодирования // Научные труды Донецкого национального технического университета. Серия: «Информатика, ки­бернетика и вычислительная техника» (ИКВТ-2014). Выпуск 1 (19). – Донецк: ДонНТУ, 2014. С. 5-10.

8. Аноприенко А.Я. Модели эволюции компьютерных систем и средств компьютерного моделирования // Материалы пятой международной научно-технической конференции «Моделирование и ком­пьютерная графика» 24-27 сентября 2013 года, Донецк, ДонНТУ, 2013. C. 403-423.

9. Аноприенко А.Я., Варзар Р.Л. Разработка прототипа суперсенсорного компьютера: особенности реализации и визуализации результатов измерений // Материалы пятой международной научно-технической конференции «Моделирование и ком­пьютерная графика» 24-27 сентября 2013 года, Донецк, ДонНТУ, 2013. C. 218-229.

10. Варзар Р.Л., Аноприенко А.Я. Суперсенсорный компьютер для измерения и анализа параметров окружающей среды // Информатика и компьютерные технологии / Сборник трудов VIII международной научно-технической конференции 18-19 сентября 2012 г., Донецк, ДонНТУ. – 2012. В 2-х томах. Т. 2. С. 156-161.

11. Дуденко М.В., Аноприенко А.Я. Расширенная реальность // Материалы III международной научно-технической конференции «Информатика и компьютерные технологии – 2007», 11-13 декабря 2007 года, Донецк, ДонНТУ, 2007. С. С. 106-109.

12. Бабенко Е.В., Аноприенко А.Я.  Организация модульного интерактивного приложения для трехмерного моделирования угольных шахт // Мате­риалы III всеукраинской научно-технической конференции «Информационные управляющие системы и компьютерный мониторинг (ИУС и КМ 2012)» – 17-18 ап­реля 2012 г., Донецк, ДонНТУ, 2012. С. 680-684.

13. Аноприенко А.Я., Забровский С.В., Каневский А.Д. Опыт реинжиниринга системы моделирования сложных технологических процессов // Научные труды Донецкого национального технического университета. Выпуск 20. Серия «Вычислительная техника и автоматизация». – Донецк, ДонГТУ, 2000. С. 139-148.

14. Аноприенко А.Я., Забровский С.В., Потапенко В.А. Современные тенденции развития тренажерных систем и их модельного обеспечения // «Прогрессивные технологии и системы машиностроения»: Международный сборник научных трудов. Вып. 10. – Донецк: ДонГТУ, 2000, с. 3-7.

15. Аноприенко А.Я., Кривошеев С.В., Приходько Т.А. Тетракоды в кодировании и распознавании образов // Сборник научных трудов ДонГТУ. Серия «Информатика, кибернетика и вычислительная техника». Выпуск 1 (ИКВТ-97). – Донецк: ДонГТУ. – 1997. С. 99-104.

16. Федяев О.И., Бондаренко И.Ю. Нечёткое сопоставление образов с оптимальным временным выравниванием для однодикторного и многодикторного распознавания изолированных слов // Научные труды Донецкого национального технического университета, серия «Информатика, кибернетика и вычислительная техника», вып. 8 (120), Донецк, ДонНТУ, 2007. – С.273-281.

17. Алфимцев А.Н. Современные тенденции принятия управляющих решений на основе распознавания жестов // Информационные технологии и системы: Сб. трудов Всерос. конф.- М., 2007. – С. 152- 157.

18. Девятков В.В., Алфимцев А.Н. Распознавание динамических жестов // Применение теории динамических систем в приоритетных направлениях науки и техники: Сб. трудов Всерос. конф.- Ижевск, 2007. – С. 15-23.

19. Девятков В.В., Алфимцев А.Н. Распознавание манипулятивных жестов // Вестник МГТУ им. Н.Э.Баумана. Сер. Приборостроение. – 2007. Т. 68, № 3. - С.56-75.

20. Болотова Ю.А., Федотова Л.C., Спицын В.Г. Алгоритм детектирования областей лиц и рук на изображении на основе метода Виолы-Джонса и алгоритма цветовой сегментации // Фундаментальные исследования. – 2014. – № 11-10. – С. 2130-2134.

21. Куракин А. В. Распознавание жестов ладони в реальном времени на основе плоских и пространственных скелетных моделей // Информатика и ее применения. 2012. Т. 6, № 1. С. 114-121.

22. Kurakin A., Zhang Z., Liu Z. A Real Time System for Dynamic Hand Gesture Recognition with a Depth Sensor // EUSIPCO-2012: Proceedings of the 20th European Signal Processing Conference. 2012. P. 1975-1979.

23. Нагапетян В.Э. Обнаружение пальцев руки в дальностных изображениях // Искусственный интеллект и принятие решений, №1, 2012. — С. 90-95.

24. Нюнькин К.М. Использование цвета при распознавании жестов // «Искусственный интеллект», 2002, №4. С. 503-511.

25. Хомяков М.Ю. Классификация цвета кожи человека на цветных изображениях // Компьютерная оптика, 2011, том 35, №3. С.373-379.

26. Глушко Ю.Э., Бабков В.С. Оценка возможности применения платформы Microsoft Kinect в составе виртуальных тренажеров // Информационные управляющие системы и компьютерный мониторинг. - Донецк: ДонНТУ, 2012. - С. 368 - 372

27. Бабков В.С., Соболев Е.Г. Разработка подсистемы интерактивного взаимодействия в составе тренажерной системы с использованием платформы Microsoft Kinect // Информационные управляющие системы и компьютерный мониторинг. - Донецк: ДонНТУ, 2012. - С. 353 - 357.

28. Пеньков А.С., Бабков В.С. Анализ методов распознавания жестов руки с использованием камеры глубины // Информационные управляющие системы и компьютерный мониторинг. – Донецк: ДонНТУ, 2013. - С. 334 - 337.