Лупашевский Владислав Александрович

Немецкий технический факультет
Кафедра компьютерной инженерии
Специальность «Компьютерные системы и сети»

Идентификация жестов рук человека на базе методов сегментации

Научный руководитель: к.т.н., проф. Аноприенко Александр Яковлевич

Реферат

Содержание

  1. Введение
  2. Цели и задачи исследования, планируемые результаты
  3. Обзор исследований и разработок по теме
  4. Метод, основанный на определении цвета кожи
  5. Метод, основанный на анализе данных, полученных с камер-глубины
  6. Метод с применением гистограмм направленных градиентов
  7. Заключение
  8. Список литературы

Введение

В настоящее время актуальной проблемой в области информационных технологий и робототехники является проблема взаимодействия человека с компьютером без помощи специальных периферийных устройств, таких как клавиатура, мышь и прочие. Стремление к организации взаимодействия человека и компьютера при помощи таких привычных для людей средств, как речь, жесты и зрение, является одной из основных тенденций в развитии современных компьютерных технологий. Зрение при этом играет ведущую роль, так как известно, что посредством зрения человек получает 80-90% информации об окружающем мире. Одной из наиболее актуальных задач в области машинного зрения является задача распознавания лиц и рук человека.
Технологии компьютерного зрения начали развиваться в 60-е годы прошлого века, а уже в 70-е годы начали появляться первые фундаментальные работы в этой области, в которых компьютерное зрение рассматривалось как неотъемлемая часть систем искусственного интеллекта [1, 2]. В начале нового тысячелетия проблема в целом оставалась нерешенной, но существенный прогресс в этой области нашел свое отражение в целом ряде новых фундаментальных работ [3, 4]. При этом постепенно сформировалось понимание компьютерного зрения как наиболее общих технологий компьютерного восприятия визуальной информации, а машинного зрения (или технического зрения) – как специализированных технологий, ориентированных на использование в конкретных производственных процессах. Например, на производстве в узлах ручной сборки для уменьшения процента выхода бракованных деталей основной задачей стоит контроль за последовательностью сборки детали работником. Исследования показали, что при выполнении монотонных, постоянно повторяющихся последовательностей действий спустя время человек допускает неосознанные ошибки. При использовании системы контроля за процессом сборки и немедленном оповещении об ошибках можно уменьшить процент выпуска бракованных деталей как минимум на 50%. Так как зачастую процесс сборки производится при помощи рук, то система должна определять их положение в реальном времени при помощи камер.
Эта задача по-прежнему относится к категории весьма нетривиальных, так как форма рук может очень сильно варьироваться, руки могут быть частично перекрыты другими объектами, иметь различную артикуляцию пальцев и т.д. Решение данной задачи на базе современных технологий позволит получить полноценный детектор жестов рук, ориентированный преимущественно на использование для контроля последовательности операций при сборке на производстве. При достаточной универсальности такой детектор может быть полезным в распознавании языка жестов для людей с ограниченными возможностями и в других областях.
Надеяться на получение существенно новых результатов в этой области позволяет стремительный прогресс компьютерных технологий [5-8]. Полученные в процессе исследований результаты могут быть использованы в процессе развития концепций суперсенсорного компьютинга [9-10] и расширенной реальности [11], а также – в разного рода тренажерных системах, в том числе разрабатываемых в Донецком национальном техническом университете (ДонНТУ) [12-14]. Следует также отметить, что в ДонНТУ различные исследования в области распознования образов ведутся с 90-х годов прошлого века (см., например, работы [15, 16]).

Цели и задачи исследования, планируемые результаты

Основной целью магистерской работы является разработка программного обеспечения, способного идентифицировать руки человека на изображении в режиме реального времени и предоставлять информацию о положении центра ладони. Так же, хочется отметить, что основным условием является получение как можно более стабильных координат положения центра ладони. Помимо этого, при наличии времени, предполагается определение положения пальцев и предоставление данной информации вместе с информацией о положении центра ладони.
Также предполагается вынесение всех функций для идентификации в отдельный модуль. Таким образом на вход модуля будет подаваться изображение, а на выходе будет предоставляться информация о положении рук человека на исходном изображении. Данная методика позволит применять данные функции в любом приложении независимо от его архитектуры и сложности.
Таким образом для реализации поставленных целей необходимо, во первых, изучить существующие алгоритмы идентификации рук человека на изображении, а также алгоритмы позволяющие отслеживать передвижение объектов. Далее необходимо протестировать каждый из этих алгоритмов и выделить его преимущества и недостатки, затем, по возможности, попробовать комбинацию нескольких алгоритмов для компенсации недостатков друг друга. Помимо этого, необходимо протестировать каждый алгоритм на быстродействие и стабильность при работе в режиме реального времени.
Затем необходимо разработать программное обеспечение, представляющее собой набор функций в отдельной библиотеке. Также, для демонстрации результата требуется разработать программное обеспечение, которое будет раскрывать полный функционал разработанного алгоритма.

Обзор исследований и разработок по теме

В настоящее время проводится большое количество исследований в области распознавания объектов при помощи технологий машинного зрения. Наиболее большое количество информации по данным исследованиям можно найти на зарубежных ресурсах интернета.
Была исследована статья «Real-Time Hand Gesture Recognition Using Finger Segmentation» [31] в которой представляется новейший метод для определения жестов рук человека в реальном времени. В данной статье извлечения региона руки из заднего плана применяется метод вычитания заднего плана (background subtraction method). Затем происходит сегментация ладони и пальцев для того, чтобы обнаружить и распознать пальцы. Заключительным этапом является применение классификатора для предугадывания заранее известных жестов. В ходе данной работы были проведены эксперименты на более чем 1300 фрагментах изображений. Результаты проведения данных исследований показывают, что данный метод прекрасно работает и имеет высокую эффективность. На рисунке 1 показан пример идентификации руки, а также определение жеста.
Рисунок 1. Пример идентификации руки на основе метода background subtraction method [31]

В статье «Robust Hand Gesture Recognition Based on Finger-Earth Mover’s Distance with a Commodity Depth Camera» [30] было проведено построение системы определения жестов руки человека при помощи использования камеры Microsoft Kinect. Для решения проблем с зашумленными данными, полученными от камеры, авторы данной статьи предлагают собственную разработку, измеряющую показатель несхождения руки. Алгоритм назван - Finger-Earth Mover’s Distance (FEMD). Данный алгоритм сопоставляет только пальцы руки, а не полностью всю область руки. Именно поэтому данная методика способна лучше различать жесты, которые очень похожи друг с другом. Рисунок 2 отображает основную суть работы алгоритма.
Рисунок 2. Работа FEMD алгоритма [30]

Была исследована статья «A New Framework for Sign Language Recognition based on 3D Handshape Identification and Linguistic Modeling» [29], в которой подход к идентификации жестов руки кардинально отличается от вышеупомянутых методов. Авторы используют 3D – модель скелета руки. Данная методика позволят получить эффективные результаты, которые менее зависят от заднего плана, а также перекрывания другими объектами, помимо этого увеличивается эффективность слежения за рукой, а также 3D – модель предоставляет информацию, которая может быть применена, например, для распознавания языка жестов. Результат работы показан на рисунке 3. Точность данного алгоритма лежит в пределах 80-85%.
Рисунок 3. Идентификация руки на изображении и получение ее 3D - модели [29]

При проведении данного исследования были также проанализированы и учтены результаты, полученные А.Н. Алфимцевым и В.В. Девятковым [17-19], Ю.А. Болотовым [20], А. В. Куракиным [21, 22], В.Э. Нагапетяном [23] и другими.

Ниже представлены три исследованных метода распознавания рук при помощи технолоий машинного зрения.

Метод, основанный на определении цвета кожи

Суть данного метода заключается в извлечении фрагментов из исходного изображения, цвет которых лежит в пределах цвета кожи человека [24]. В пространстве HSV значения цвета кожи колеблются в пределах 0.05-0.17 для H, 0.1-0.3 для S и 0.09-0.15 для V [25].
При использовании данного метода на первом этапе исходное изображение конвертируется из RGB в HSV модель, затем ось V проецируется на HS пространство, после чего используется EM-алгоритм для разделения смеси гауссиан. Далее из изображения удаляются все гауссианы, центры которых не совпадают с значениями, характерными для цвета кожи. Полученное изображение фильтруется от шумов и на выходе получаем изображение состоящее только из областей лица и рук человека.
При помощи алгоритма k-means производится кластеризация полученных областей. Предполагается, что область лица существенно превосходит по размерам область рук, что позволяет достаточно просто «отсеивать» области лица для выделения на изображении сегментов рук.
Однако, данный метод при своей относительной простоте обладает большим числом недостатков. Он, в частности, не может быть применим в случаях, когда рука пересекается с лицом, либо же с другой рукой, и при наличии сложного фона, особенно если его тона совпадают или близки по значению с тонами цвета кожи.

Метод, основанный на анализе данных, полученных с камер-глубины

Представителями такого рода камер являются Microsoft Kinect, Leap Motion, Creative Depth Camera. Данные камеры получают данных при помощи инфракрасных сенсоров и возвращают монохромное изображение, каждый пиксель которого представляет собой расстояние от камеры до объекта, от которого отражаются инфракрасные лучи.
Основным условием для данного метода является предположение, что рука будет находится ближе всего к камере. Нетрудно предположить, что для определения контура руки необходимо использовать методы для нахождения пикселей, имеющих самое большое значение, принимая в учет некое пороговое значение. Затем, так как рука имеет уникальные геометрические формы, происходит сопоставление полученного изображения с готовым набором контуров руки. После этого получаем область руки на исходном изображении.
Опыт реализации данного метода был получен в ДонНТУ при разработке ряда тренажерных систем, в том числе предполагающих распознавание жестов рук [26-28].
Очевидным недостатком данного метода является необходимость того, чтобы рука находилась ближе всех остальных объектов к камере.

Метод с применением гистограмм направленных градиентов

Гистограммы направленных градиентов – это дескрипторы особых точек, которые используются в компьютерном зрении и обработке изображений с целью распознавания объектов. Данная техника основана на подсчете количества направлений градиента в локальных областях изображения.
Основной идеей алгоритма является допущение, что внешний вид и форма объекта на участке изображения могут быть описаны распределением градиентов интенсивности или направлением краев. Реализация этих дескрипторов может быть произведена путём разделения изображения на маленькие связные области, именуемые ячейками, и расчетом для каждой ячейки гистограммы направлений градиентов или направлений краев для пикселов, находящихся внутри ячейки. Комбинация этих гистограмм и является дескриптором. Для увеличения точности локальные гистограммы подвергаются нормализации по контрасту. С этой целью вычисляется мера интенсивности на большем фрагменте изображения, который называется блоком, и полученное значение используется для нормализации. Нормализованные дескрипторы обладают лучшей инвариантностью по отношению к освещению.
Основной задачей при использовании данного метода является разработка искусственной нейронной сети, которая будет изучать множество шаблонов рук, которые представляют собой всевозможные случаи того, как рука может выглядеть на изображении.
После обучения нейронная сеть будет готова к распознаванию рук человека на статическом изображении.
Главным недостатком данного метода является его низкая скорость работы, что делает его невозможным для использования в системах, где необходимо получать информацию о положении рук в реальном времени.

Заключение

Были поставлены цели и задачи для выполнения данной работы. Помимо этого было изучены множество работ, связанных с темой работы, а также исследовано три метода для определения рук человека на изображениях. Каждый из методов имеет свои достоинства и недостатки. В дальнейшем планируется более подробное исследование каждого из методов, а также поиск других способов идентификации жестов рук человека на изображениях. Помимо этого, планируется исследовать и использовать возможности комбинации нескольких методов для компнсации их недостатков и получения оптимальных результатов.

Список литературы

1. Хант Э. Искусственный интеллект. – М.: Мир, 1978. 558 с
2. Дуда Р., Харт П. Распознавание образов и анализ сцен. – М.: Мир, 1976. 512 с.
3. Форсайт Д., Понс Ж. Компьютерное зрение. Современный подход. – М.: Вильямс, 2004. 928 с.
4. Шапиро Л., Стокман Дж. Компьютерное зрение. – М.: БИНОМ. Лаборатория знаний, 2006. – 752 с.
5. Аноприенко А.Я. Периодическая система развития компьютерных систем и перспективы нанокомпьютеризации // Инновационные перспективы Донбасса: Материалы международной научно-практической конференции. Донецк, 20-22 мая 2015 г. Том 5. Компьютерные науки и технологии. – Донецк: Донецкий национальный технический университет, 2015. С. 5-13.
6. Аноприенко А.Я. Системодинамика ноотехносферы: основные закономерности // «Системный анализ в науках о природе и обществе». – Донецк: ДонНТУ, 2014, №1(6)-2(7). С. 11-29.
7. Аноприенко О.Я., Варзар Р.Л., Иваница С.В. Закономерности развития аналого-цифровых преобразователей и перспективы использования постбинарного кодирования // Научные труды Донецкого национального технического университета. Серия: «Информатика, ки¬бернетика и вычислительная техника» (ИКВТ-2014). Выпуск 1 (19). – Донецк: ДонНТУ, 2014. С. 5-10.
8. Аноприенко А.Я. Модели эволюции компьютерных систем и средств компьютерного моделирования // Материалы пятой международной научно-технической конференции «Моделирование и ком¬пьютерная графика» 24-27 сентября 2013 года, Донецк, ДонНТУ, 2013. C. 403-423.
9. Аноприенко А.Я., Варзар Р.Л. Разработка прототипа суперсенсорного компьютера: особенности реализации и визуализации результатов измерений // Материалы пятой международной научно-технической конференции «Моделирование и ком¬пьютерная графика» 24-27 сентября 2013 года, Донецк, ДонНТУ, 2013. C. 218-229.
10. Варзар Р.Л., Аноприенко А.Я. Суперсенсорный компьютер для измерения и анализа параметров окружающей среды // Информатика и компьютерные технологии / Сборник трудов VIII международной научно-технической конференции 18-19 сентября 2012 г., Донецк, ДонНТУ. – 2012. В 2-х томах. Т. 2. С. 156-161.
11. Дуденко М.В., Аноприенко А.Я. Расширенная реальность // Материалы III международной научно-технической конференции «Информатика и компьютерные технологии – 2007», 11-13 декабря 2007 года, Донецк, ДонНТУ, 2007. С. С. 106-109.
12. Бабенко Е.В., Аноприенко А.Я. Организация модульного интерактивного приложения для трехмерного моделирования угольных шахт // Мате¬риалы III всеукраинской научно-технической конференции «Информационные управляющие системы и компьютерный мониторинг (ИУС и КМ 2012)» – 17-18 ап¬реля 2012 г., Донецк, ДонНТУ, 2012. С. 680-684.
13. Аноприенко А.Я., Забровский С.В., Каневский А.Д. Опыт реинжиниринга системы моделирования сложных технологических процессов // Научные труды Донецкого национального технического университета. Выпуск 20. Серия «Вычислительная техника и автоматизация». – Донецк, ДонГТУ, 2000. С. 139-148.
14. Аноприенко А.Я., Забровский С.В., Потапенко В.А. Современные тенденции развития тренажерных систем и их модельного обеспечения // «Прогрессивные технологии и системы машиностроения»: Международный сборник научных трудов. Вып. 10. – Донецк: ДонГТУ, 2000, с. 3-7.
15. Аноприенко А.Я., Кривошеев С.В., Приходько Т.А. Тетракоды в кодировании и распознавании образов // Сборник научных трудов ДонГТУ. Серия «Информатика, кибернетика и вычислительная техника». Выпуск 1 (ИКВТ-97). – Донецк: ДонГТУ. – 1997. С. 99-104.
16. Федяев О.И., Бондаренко И.Ю. Нечёткое сопоставление образов с оптимальным временным выравниванием для однодикторного и многодикторного распознавания изолированных слов // Научные труды Донецкого национального технического университета, серия «Информатика, кибернетика и вычислительная техника», вып. 8 (120), Донецк, ДонНТУ, 2007. – С.273-281.
17. Алфимцев А.Н. Современные тенденции принятия управляющих решений на основе распознавания жестов // Информационные технологии и системы: Сб. трудов Всерос. конф.- М., 2007. – С. 152- 157.
18. Девятков В.В., Алфимцев А.Н. Распознавание динамических жестов // Применение теории динамических систем в приоритетных направлениях науки и техники: Сб. трудов Всерос. конф.- Ижевск, 2007. – С. 15-23.
19. Девятков В.В., Алфимцев А.Н. Распознавание манипулятивных жестов // Вестник МГТУ им. Н.Э.Баумана. Сер. Приборостроение. – 2007. Т. 68, № 3. - С.56-75.
20. Болотова Ю.А., Федотова Л.C., Спицын В.Г. Алгоритм детектирования областей лиц и рук на изображении на основе метода Виолы-Джонса и алгоритма цветовой сегментации // Фундаментальные исследования. – 2014. – № 11-10. – С. 2130-2134.
21. Куракин А. В. Распознавание жестов ладони в реальном времени на основе плоских и пространственных скелетных моделей // Информатика и ее применения. 2012. Т. 6, № 1. С. 114-121.
22. Kurakin A., Zhang Z., Liu Z. A Real Time System for Dynamic Hand Gesture Recognition with a Depth Sensor // EUSIPCO-2012: Proceedings of the 20th European Signal Processing Conference. 2012. P. 1975-1979.
23. Нагапетян В.Э. Обнаружение пальцев руки в дальностных изображениях // Искусственный интеллект и принятие решений, №1, 2012. — С. 90-95.
24. Нюнькин К.М. Использование цвета при распознавании жестов // «Искусственный интеллект», 2002, №4. С. 503-511.
25. Хомяков М.Ю. Классификация цвета кожи человека на цветных изображениях // Компьютерная оптика, 2011, том 35, №3. С.373-379.
26. Глушко Ю.Э., Бабков В.С. Оценка возможности применения платформы Microsoft Kinect в составе виртуальных тренажеров // Информационные управляющие системы и компьютерный мониторинг. - Донецк: ДонНТУ, 2012. - С. 368 - 372
27. Бабков В.С., Соболев Е.Г. Разработка подсистемы интерактивного взаимодействия в составе тренажерной системы с использованием платформы Microsoft Kinect // Информационные управляющие системы и компьютерный мониторинг. - Донецк: ДонНТУ, 2012. - С. 353 - 357.
28. Пеньков А.С., Бабков В.С. Анализ методов распознавания жестов руки с использованием камеры глубины // Информационные управляющие системы и компьютерный мониторинг. – Донецк: ДонНТУ, 2013. - С. 334 - 337.
Copyright © 2016 Lupashevskyi Vladyslav
All rights are reserved