Publikation
Echtzeiterkennung von Gesten zur Interaktion mittels Consumer-Hardware
Torsten Bierz; Achim Ebert; Jörg Meyer (Hrsg.)
Paderborner Workshop Augmented & Virtual Reality in der Produktentstehung, 6. June 14-15, Paderborn, Germany, HNI Verlagsschriftenreihe, 2007.
Zusammenfassung
Seit den letzten Jahren rückt die virtuelle Realität und die damit verbundenen virtuellen
Welten immer mehr in das Blickfeld der Öffentlichkeit und der wissenschaftlichen
Arbeiten. Die inzwischen mannigfaltigen immersiven Visualisierungssysteme
und deren Interaktionsmöglichkeiten stellen sowohl für ungeübte
Benutzer als auch für erfahrene Anwender eine große Hürde dar. Gerade die
Mensch-Maschine Interaktion (HCI) erfordert einfache, intuitive und leicht zu erlernende
Eingabe- und Interaktionsroutinen.
Eine Lösung dieses Problems bilden so genannte „Tracking Systeme“, die dem
Benutzer eine möglichst intuitive und freie Navigation oder Interaktion ermöglichen.
Unglücklicherweise sind gerade solche Systeme meist sehr teuer und erfordern
häufig zusätzliche Hilfsmittel wie Marker oder Datenhandschuhe. Diese zusätzlichen
Geräte müssen meist erst vor deren Verwendung kalibriert werden. Des
Weiteren können sie die persönliche Freiheit des Benutzers beeinträchtigen. Um
diese Problematik zu vermeiden und dem Anwender eine einfache, intuitive und
robuste Möglichkeit zur Interaktion zu bieten, greifen immer mehr Forscher und
Industrieunternehmen auf teure optische Tracking Systeme zurück. Zu Präsentationszwecken
oder zur Mitnahme auf Konferenzen sind diese Systeme allerdings
leider meist nur bedingt portabel. Daher besteht eine Bestrebung darin, möglichst
günstige und universell kompatible Hardware zu diesem Zweck zu verwenden.
Hierzu bieten sich meist schon einfache Consumer Hardware wie Webcams oder
digitale Kameras an, die bedingt durch die ihre Schnittstellen (FireWire oder
USB) universell einsetzbar sind und zudem, da sie für den Heimbedarf produziert
werden auch kostengünstig sind.
Für die Interaktion selbst sollten wie bereits erwähnt keine aufwendigen und unnötigen
Hilfsmittel verwendet werden, um den Benutzer nicht von vorne herein zu
verunsichern oder zu verwirren. Gerade dafür eignet sich die Gestenerkennung
mittels optischen Erkennungssystemen. Diese Systeme liefern eine bestimmte
Anzahl Bilder pro Sekunde; bei low-cost oder Konsumerkameras sind dies zwischen
25 und 30 Bilder pro Sekunde. Für die meisten Interaktionen ist diese Anzahl
der Bilder vollkommen ausreichend.
Um allerdings eine effiziente und somit echtzeitfähige Interaktion zu ermöglichen,
muss die Zeit zwischen aufgenommenem Bild und resultierender Geste oder Pose
so gering wie möglich gehalten werden. Um dies zu gewährleisten, können heutzutage
viele Berechnungen, die mit jedem einzelnen Bild oder Bildpunkt erfolgen
müssen, parallelisiert werden. Dazu werden die Berechnungsschritte auf dem Prozessor
der Grafikkarte anstelle des herkömmlichen Prozessors verlagert, um durch
deren Parallelisierungsmechanismen eine schnelle und effiziente Berechnung der
Ergebnisse zu ermöglichen.
Aufgrund dieser Erkenntnisse wurde ein System entwickelt, welches die oben
aufgeführten Punkte aufgreift, und in ein echtzeitfähiges System zur Interaktion
mittels markerlosem Tracking vereint. Um die Echtzeitfähigkeit zu gewährleisten,
werden hierzu die Berechnungsmethoden auf der Grafikkarte implementiert.