Publikation

Echtzeiterkennung von Gesten zur Interaktion mittels Consumer-Hardware

Torsten Bierz; Achim Ebert; Jörg Meyer (Hrsg.)

Paderborner Workshop Augmented & Virtual Reality in der Produktentstehung, 6. June 14-15, Paderborn, Germany, HNI Verlagsschriftenreihe, 2007.

Zusammenfassung

Seit den letzten Jahren rückt die virtuelle Realität und die damit verbundenen virtuellen Welten immer mehr in das Blickfeld der Öffentlichkeit und der wissenschaftlichen Arbeiten. Die inzwischen mannigfaltigen immersiven Visualisierungssysteme und deren Interaktionsmöglichkeiten stellen sowohl für ungeübte Benutzer als auch für erfahrene Anwender eine große Hürde dar. Gerade die Mensch-Maschine Interaktion (HCI) erfordert einfache, intuitive und leicht zu erlernende Eingabe- und Interaktionsroutinen. Eine Lösung dieses Problems bilden so genannte „Tracking Systeme“, die dem Benutzer eine möglichst intuitive und freie Navigation oder Interaktion ermöglichen. Unglücklicherweise sind gerade solche Systeme meist sehr teuer und erfordern häufig zusätzliche Hilfsmittel wie Marker oder Datenhandschuhe. Diese zusätzlichen Geräte müssen meist erst vor deren Verwendung kalibriert werden. Des Weiteren können sie die persönliche Freiheit des Benutzers beeinträchtigen. Um diese Problematik zu vermeiden und dem Anwender eine einfache, intuitive und robuste Möglichkeit zur Interaktion zu bieten, greifen immer mehr Forscher und Industrieunternehmen auf teure optische Tracking Systeme zurück. Zu Präsentationszwecken oder zur Mitnahme auf Konferenzen sind diese Systeme allerdings leider meist nur bedingt portabel. Daher besteht eine Bestrebung darin, möglichst günstige und universell kompatible Hardware zu diesem Zweck zu verwenden. Hierzu bieten sich meist schon einfache Consumer Hardware wie Webcams oder digitale Kameras an, die bedingt durch die ihre Schnittstellen (FireWire oder USB) universell einsetzbar sind und zudem, da sie für den Heimbedarf produziert werden auch kostengünstig sind. Für die Interaktion selbst sollten wie bereits erwähnt keine aufwendigen und unnötigen Hilfsmittel verwendet werden, um den Benutzer nicht von vorne herein zu verunsichern oder zu verwirren. Gerade dafür eignet sich die Gestenerkennung mittels optischen Erkennungssystemen. Diese Systeme liefern eine bestimmte Anzahl Bilder pro Sekunde; bei low-cost oder Konsumerkameras sind dies zwischen 25 und 30 Bilder pro Sekunde. Für die meisten Interaktionen ist diese Anzahl der Bilder vollkommen ausreichend. Um allerdings eine effiziente und somit echtzeitfähige Interaktion zu ermöglichen, muss die Zeit zwischen aufgenommenem Bild und resultierender Geste oder Pose so gering wie möglich gehalten werden. Um dies zu gewährleisten, können heutzutage viele Berechnungen, die mit jedem einzelnen Bild oder Bildpunkt erfolgen müssen, parallelisiert werden. Dazu werden die Berechnungsschritte auf dem Prozessor der Grafikkarte anstelle des herkömmlichen Prozessors verlagert, um durch deren Parallelisierungsmechanismen eine schnelle und effiziente Berechnung der Ergebnisse zu ermöglichen. Aufgrund dieser Erkenntnisse wurde ein System entwickelt, welches die oben aufgeführten Punkte aufgreift, und in ein echtzeitfähiges System zur Interaktion mittels markerlosem Tracking vereint. Um die Echtzeitfähigkeit zu gewährleisten, werden hierzu die Berechnungsmethoden auf der Grafikkarte implementiert.