Лупашевський Владислав Олександрович

Німецький технічний факультет
Кафедра комп'ютерної інженерії
Спеціальність "Комп'ютерні системи та мережі"

Ідентифікація жестів рук людини на базі методів сегментації

Науковий керівник: к.т.н., проф. Анопрієнко Олександр Якович

Реферат

Содержание

  1. Вступ
  2. Цілі і завдання дослідження, плановані результати
  3. Огляд досліджень і розробок по темі
  4. Метод, заснований на визначенні кольору шкіри
  5. Метод, заснований на аналізі даних, отриманих з камер-глибини
  6. Метод із застосуванням гістограм спрямованих градієнтів
  7. Висновок
  8. Список літератури

Вступ

В даний час актуальною проблемою в області інформаційних технологій і робототехніки є проблема взаємодії людини з комп'ютером без допомоги спеціальних периферійних пристроїв, таких як клавіатура, миша та інші. Прагнення до організації взаємодії людини і комп'ютера за допомогою таких звичних для людей засобів, як мова, жести і зір, є однією з основних тенденцій у розвитку сучасних комп'ютерних технологій. Зір при цьому відіграє провідну роль, так як відомо, що за допомогою зору людина отримує 80-90% інформації про навколишній світ. Однією з найбільш актуальних завдань в області машинного зору є задача розпізнавання облич і рук людини.
Технології комп'ютерного зору почали розвиватися в 60-і роки минулого століття, а вже в 70-і роки почали з'являтися перші фундаментальні роботи в цій області, в яких комп'ютерний зір розглядалося як невід'ємна частина систем штучного інтелекту[1, 2]. На початку нового тисячоліття проблема в цілому залишалася невирішеною, але істотний прогрес в цій області знайшов своє відображення в цілому ряді нових фундаментальних робіт [3, 4]. При цьому поступово сформувалося розуміння комп'ютерного зору як найбільш загальних технологій комп'ютерного сприйняття візуальної інформації, а машинного зору (або технічного зору) - як спеціалізованих технологій, орієнтованих на використання в конкретних виробничих процесах. Наприклад, на виробництві в вузлах ручної збірки для зменшення відсотка виходу бракованих деталей основним завданням стоїть контроль за послідовністю збірки деталі працівником. Дослідження показали, що при виконанні монотонних, постійно повторюваних послідовностей дій через деякий час людина допускає неусвідомлені помилки. При використанні системи контролю за процесом складання та негайне сповіщення про помилки можна зменшити відсоток випуску бракованих деталей як мінімум на 50%. Так як часто процес збирання проводиться за допомогою рук, то система повинна визначати їх положення в реальному часі за допомогою камер.
Це завдання, як і раніше належить до категорії дуже нетривіальних, так як форма рук може дуже сильно варіюватися, руки можуть бути частково перекриті іншими об'єктами, мати різну артикуляцію пальців і т.д. Рішення даного завдання на базі сучасних технологій дозволить отримати повноцінний детектор жестів рук, орієнтований переважно на використання для контролю послідовності операцій при складанні на виробництві. При достатній універсальності такої детектор може бути корисним в розпізнаванні мови жестів для людей з обмеженими можливостями і в інших областях.
Сподіватися на отримання істотно нових результатів в цій області дозволяє стрімкий прогрес комп'ютерних технологій [5-8]. Отримані в процесі досліджень результати можуть бути використані в процесі розвитку концепцій суперсенсорного комп'ютингу [9-10] і розширеної реальності [11], а також - в різного роду тренажерних системах, в тому числі в стані розробки в Донецькому національному технічному університеті (ДонНТУ) [12-14]. Слід також зазначити, що в ДонНТУ різні дослідження в області розпізнання образів ведуться з 90-х років минулого століття (див., наприклад, роботи [15, 16]).

Цілі і завдання дослідження, плановані результати

Основною метою магістерської роботи є розробка програмного забезпечення, здатного ідентифікувати руки людини на зображенні в режимі реального часу і надавати інформацію про становище центру долоні. Так само, хочеться відзначити, що основною умовою є отримання якомога більш стабільних координат положення центру долоні. Крім цього, при наявності часу, передбачається визначення положення пальців і надання цієї інформації разом з інформацією про становище центру долоні.
Також передбачається винесення всіх функцій для ідентифікації в окремий модуль. Таким чином на вхід модуля буде подаватися оригінал, а на виході буде надаватися інформація про становище рук людини на оригінальному документі. Дана методика дозволить застосовувати ці функції в будь-якому додатку незалежно від його архітектури і складності.
Таким чином для реалізації поставлених цілей необхідно, по-перше, вивчити існуючі алгоритми ідентифікації рук людини на зображенні, а також алгоритми дозволяють відслідковувати пересування об'єктів. Далі необхідно протестувати кожен з цих алгоритмів і виділити його переваги і недоліки, потім, по можливості, спробувати комбінацію декількох алгоритмів для компенсації недоліків один одного. Крім цього, необхідно протестувати кожен алгоритм на швидкодію і стабільність при роботі в режимі реального часу.
Потім необхідно розробити програмне забезпечення, що представляє собою набір функцій в окремій бібліотеці. Також, для демонстрації результату потрібно розробити програмне забезпечення, яке буде розкривати повний функціонал розробленого алгоритму.

Огляд досліджень і розробок по темі

В даний час проводиться велика кількість досліджень в області розпізнавання об'єктів за допомогою технологій машинного зору. Найбільш велика кількість інформації за даними досліджень можна знайти на зарубіжних ресурсах інтернету.
Була досліджена стаття «Real-Time Hand Gesture Recognition Using Finger Segmentation» [31] в якій представляється новітній метод для визначення жестів рук людини в реальному часі. У даній статті вилучення регіону руки з заднього плану застосовується метод вирахування заднього плану (background subtraction method). Потім відбувається сегментація долоні і пальців для того, щоб виявити і розпізнати пальці. Заключним етапом є застосування класифікатора для передбачення заздалегідь відомих жестів. В ході даної роботи були проведені експерименти на більш ніж 1300 фрагментах зображень. Результати проведення даних досліджень показують, що даний метод прекрасно працює і має високу ефективність. На рисунку 1 показаний приклад ідентифікації руки, а також визначення жесту.
Рисунок 1. Приклад ідентифікації руки на основі методу background subtraction method [31]

У статтi «Robust Hand Gesture Recognition Based on Finger-Earth Mover’s Distance with a Commodity Depth Camera» [30] було проведено побудова системи визначення жестів руки людини за допомогою використання камери Microsoft Kinect. Для вирішення проблем з зашумленими даними, отриманими від камери, автори даної статті пропонують власну розробку, що вимірює показник несхожденія руки. Алгоритм названий - Finger-Earth Mover's Distance (FEMD). Даний алгоритм зіставляє тільки пальці руки, а не повністю всю область руки. Саме тому дана методика здатна краще розрізняти жести, які дуже схожі один з одним. Рисунок 2 відображає основну суть роботи алгоритму.
Рисунок 2. Робота FEMD алгоритму [30]

Була досліджена стаття «A New Framework for Sign Language Recognition based on 3D Handshape Identification and Linguistic Modeling» [29], в якій підхід до ідентифікації жестів руки кардинально відрізняється від вищезазначених методів. Автори використовують 3D - модель скелета руки. Дана методика дозволять отримати ефективні результати, які менш залежать від заднього плану, а також перекривання іншими об'єктами, крім цього збільшується ефективність стеження за рукою, а також 3D - модель надає інформацію, яка може бути застосована, наприклад, для розпізнавання мови жестів. Результат роботи показаний на рисунку 3. Точність даного алгоритму лежить в межах 80-85%.
Рисунок 3. Ідентифікація руки на зображенні і отримання її 3D - моделі [29]

При проведенні даного дослідження були також проаналізовані та враховані результати, отримані А.Н. Алфімцевим і В.В. Девяткова [17-19], Ю.А. Болотовим [20], А. В. Куракiним [21, 22], В.Э. Нагапетяном [23] та іншими.

Нижче представлені три досліджених методу розпізнавання рук за допомогою технологій машинного зору.

Метод, заснований на визначенні кольору шкіри

Суть даного методу полягає в добуванні фрагментів з вихідного зображення, колір яких лежить в межах кольору шкіри людини [24]. У просторі HSV значення кольору шкіри коливаються в межах 0.05-0.17 для H, 0.1-0.3 для S і 0.09-0.15 для V[25].
При використанні даного методу на першому етапі вихідне зображення конвертується з RGB в HSV модель, потім вісь V проектується на HS простір, після чого використовується EM-алгоритм для розділення суміші Гауссіан. Далі з зображення видаляються всі Гауссіана, центри яких не збігаються з значеннями, характерними для кольору шкіри. Отримане зображення фільтрується від шумів і на виході отримуємо зображення складається тільки з областей особи і рук людини.
За допомогою алгоритму k-means проводиться кластеризація отриманих областей. Передбачається, що область особи істотно перевершує за розмірами область рук, що дозволяє досить просто «відсівати» області особи для виділення на зображенні сегментів рук.
Однак, даний метод при своїй відносній простоті володіє великим числом недоліків. Він, зокрема, не може бути застосовний в випадках, коли рука перетинається з особою, або ж з іншою рукою, і при наявності складного фону, особливо якщо його тону збігаються або близькі за значенням з тонами кольору шкіри.

Метод, заснований на аналізі даних, отриманих з камер-глибини

Представниками такого роду камер є Microsoft Kinect, Leap Motion, Creative Depth Camera. Дані камери отримують даних за допомогою інфрачервоних сенсорів і повертають монохромне зображення, кожен піксель якого представляє собою відстань від камери до об'єкта, від якого відображаються інфрачервоні промені.
Основною умовою для даного методу є припущення, що рука буде знаходиться ближче всього до камери. Неважко припустити, що для визначення контуру руки необхідно використовувати методи для знаходження пікселів, що мають найбільше значення, беручи до уваги якесь порогове значення. Потім, так як рука має унікальні геометричні форми, відбувається зіставлення отриманого зображення з готовим набором контурів руки. Після цього отримуємо область руки на оригінальному документі.
Досвід реалізації даного методу була отримана в ДонНТУ при розробці ряду тренажерних систем, в тому числі передбачають розпізнавання жестів рук [26-28].
Очевидним недоліком даного методу є необхідність того, щоб рука знаходилася ближче всіх інших об'єктів до камери.

Метод із застосуванням гістограм спрямованих градієнтів

Гістограми спрямованих градієнтів - це дескриптори особливих точок, які використовуються в комп'ютерному зорі і обробці зображень з метою розпізнавання об'єктів. Дана техніка заснована на підрахунку кількості напрямків градієнта в локальних областях зображення.
Основною ідеєю алгоритму є припущення, що зовнішній вигляд і форма об'єкта на ділянці зображення можуть бути описані розподілом градієнтів інтенсивності або напрямком країв. Реалізація цих дескрипторів може бути проведена шляхом поділу зображення на маленькі зв'язкові області, іменовані осередками, і розрахунком для кожного осередку гістограми напрямків градієнтів або напрямків країв для пікселів, що знаходяться всередині осередку. Комбінація цих гістограм і є дескриптором. Для збільшення точності локальні гістограми піддаються нормалізації по контрасту. З цією метою обчислюється міра інтенсивності на більшій фрагменті зображення, який називається блоком, і отримане значення використовується для нормалізації. Нормалізовані дескриптори мають кращу инвариантностью по відношенню до висвітлення.
Основним завданням при використанні даного методу є розробка штучної нейронної мережі, яка буде вивчати безліч шаблонів рук, які представляють собою всілякі випадки того, як рука може виглядати на зображенні.
Після навчання нейронна мережа буде готова до розпізнавання рук людини на статичному зображенні.
Головним недоліком даного методу є його низька швидкість роботи, що робить його неможливим для використання в системах, де необхідно отримувати інформацію про становище рук в реальному часі.

Висновок

Були поставлені цілі і завдання для виконання даної роботи. Крім цього було вивчено безліч робіт, пов'язаних з темою роботи, а також досліджено три методи для визначення рук людини на зображеннях. Кожен з методів має свої переваги і недоліки. Надалі планується більш докладне дослідження кожного з методів, а також пошук інших способів ідентифікації жестів рук людини на зображеннях. Крім цього, планується досліджувати і використовувати можливості комбінації декількох методів для компнсаціі їх недоліків і досягнення оптимального результату.

Список літератури

1. Хант Э. Искусственный интеллект. – М.: Мир, 1978. 558 с
2. Дуда Р., Харт П. Распознавание образов и анализ сцен. – М.: Мир, 1976. 512 с.
3. Форсайт Д., Понс Ж. Компьютерное зрение. Современный подход. – М.: Вильямс, 2004. 928 с.
4. Шапиро Л., Стокман Дж. Компьютерное зрение. – М.: БИНОМ. Лаборатория знаний, 2006. – 752 с.
5. Аноприенко А.Я. Периодическая система развития компьютерных систем и перспективы нанокомпьютеризации // Инновационные перспективы Донбасса: Материалы международной научно-практической конференции. Донецк, 20-22 мая 2015 г. Том 5. Компьютерные науки и технологии. – Донецк: Донецкий национальный технический университет, 2015. С. 5-13.
6. Аноприенко А.Я. Системодинамика ноотехносферы: основные закономерности // «Системный анализ в науках о природе и обществе». – Донецк: ДонНТУ, 2014, №1(6)-2(7). С. 11-29.
7. Аноприенко О.Я., Варзар Р.Л., Иваница С.В. Закономерности развития аналого-цифровых преобразователей и перспективы использования постбинарного кодирования // Научные труды Донецкого национального технического университета. Серия: «Информатика, ки¬бернетика и вычислительная техника» (ИКВТ-2014). Выпуск 1 (19). – Донецк: ДонНТУ, 2014. С. 5-10.
8. Аноприенко А.Я. Модели эволюции компьютерных систем и средств компьютерного моделирования // Материалы пятой международной научно-технической конференции «Моделирование и ком¬пьютерная графика» 24-27 сентября 2013 года, Донецк, ДонНТУ, 2013. C. 403-423.
9. Аноприенко А.Я., Варзар Р.Л. Разработка прототипа суперсенсорного компьютера: особенности реализации и визуализации результатов измерений // Материалы пятой международной научно-технической конференции «Моделирование и ком¬пьютерная графика» 24-27 сентября 2013 года, Донецк, ДонНТУ, 2013. C. 218-229.
10. Варзар Р.Л., Аноприенко А.Я. Суперсенсорный компьютер для измерения и анализа параметров окружающей среды // Информатика и компьютерные технологии / Сборник трудов VIII международной научно-технической конференции 18-19 сентября 2012 г., Донецк, ДонНТУ. – 2012. В 2-х томах. Т. 2. С. 156-161.
11. Дуденко М.В., Аноприенко А.Я. Расширенная реальность // Материалы III международной научно-технической конференции «Информатика и компьютерные технологии – 2007», 11-13 декабря 2007 года, Донецк, ДонНТУ, 2007. С. С. 106-109.
12. Бабенко Е.В., Аноприенко А.Я. Организация модульного интерактивного приложения для трехмерного моделирования угольных шахт // Мате¬риалы III всеукраинской научно-технической конференции «Информационные управляющие системы и компьютерный мониторинг (ИУС и КМ 2012)» – 17-18 ап¬реля 2012 г., Донецк, ДонНТУ, 2012. С. 680-684.
13. Аноприенко А.Я., Забровский С.В., Каневский А.Д. Опыт реинжиниринга системы моделирования сложных технологических процессов // Научные труды Донецкого национального технического университета. Выпуск 20. Серия «Вычислительная техника и автоматизация». – Донецк, ДонГТУ, 2000. С. 139-148.
14. Аноприенко А.Я., Забровский С.В., Потапенко В.А. Современные тенденции развития тренажерных систем и их модельного обеспечения // «Прогрессивные технологии и системы машиностроения»: Международный сборник научных трудов. Вып. 10. – Донецк: ДонГТУ, 2000, с. 3-7.
15. Аноприенко А.Я., Кривошеев С.В., Приходько Т.А. Тетракоды в кодировании и распознавании образов // Сборник научных трудов ДонГТУ. Серия «Информатика, кибернетика и вычислительная техника». Выпуск 1 (ИКВТ-97). – Донецк: ДонГТУ. – 1997. С. 99-104.
16. Федяев О.И., Бондаренко И.Ю. Нечёткое сопоставление образов с оптимальным временным выравниванием для однодикторного и многодикторного распознавания изолированных слов // Научные труды Донецкого национального технического университета, серия «Информатика, кибернетика и вычислительная техника», вып. 8 (120), Донецк, ДонНТУ, 2007. – С.273-281.
17. Алфимцев А.Н. Современные тенденции принятия управляющих решений на основе распознавания жестов // Информационные технологии и системы: Сб. трудов Всерос. конф.- М., 2007. – С. 152- 157.
18. Девятков В.В., Алфимцев А.Н. Распознавание динамических жестов // Применение теории динамических систем в приоритетных направлениях науки и техники: Сб. трудов Всерос. конф.- Ижевск, 2007. – С. 15-23.
19. Девятков В.В., Алфимцев А.Н. Распознавание манипулятивных жестов // Вестник МГТУ им. Н.Э.Баумана. Сер. Приборостроение. – 2007. Т. 68, № 3. - С.56-75.
20. Болотова Ю.А., Федотова Л.C., Спицын В.Г. Алгоритм детектирования областей лиц и рук на изображении на основе метода Виолы-Джонса и алгоритма цветовой сегментации // Фундаментальные исследования. – 2014. – № 11-10. – С. 2130-2134.
21. Куракин А. В. Распознавание жестов ладони в реальном времени на основе плоских и пространственных скелетных моделей // Информатика и ее применения. 2012. Т. 6, № 1. С. 114-121.
22. Kurakin A., Zhang Z., Liu Z. A Real Time System for Dynamic Hand Gesture Recognition with a Depth Sensor // EUSIPCO-2012: Proceedings of the 20th European Signal Processing Conference. 2012. P. 1975-1979.
23. Нагапетян В.Э. Обнаружение пальцев руки в дальностных изображениях // Искусственный интеллект и принятие решений, №1, 2012. — С. 90-95.
24. Нюнькин К.М. Использование цвета при распознавании жестов // «Искусственный интеллект», 2002, №4. С. 503-511.
25. Хомяков М.Ю. Классификация цвета кожи человека на цветных изображениях // Компьютерная оптика, 2011, том 35, №3. С.373-379.
26. Глушко Ю.Э., Бабков В.С. Оценка возможности применения платформы Microsoft Kinect в составе виртуальных тренажеров // Информационные управляющие системы и компьютерный мониторинг. - Донецк: ДонНТУ, 2012. - С. 368 - 372
27. Бабков В.С., Соболев Е.Г. Разработка подсистемы интерактивного взаимодействия в составе тренажерной системы с использованием платформы Microsoft Kinect // Информационные управляющие системы и компьютерный мониторинг. - Донецк: ДонНТУ, 2012. - С. 353 - 357.
28. Пеньков А.С., Бабков В.С. Анализ методов распознавания жестов руки с использованием камеры глубины // Информационные управляющие системы и компьютерный мониторинг. – Донецк: ДонНТУ, 2013. - С. 334 - 337.
Copyright © 2016 Lupashevskyi Vladyslav
All rights are reserved