Die automatische Detektion visueller Konzepte wie Objekte, Orte und Tätigkeiten in Video gewinnt angesichts rasant wachsender digitaler Videobestände zunehmend an Bedeutung. Solche Tagging-Systeme werden üblicher Weise auf einem Bestand manuell annotierter Videos trainert. Die Akquise solcher Trainingsdaten ist ein zeitraubender Vorgang, und momentane Standarddatensätze sind hochqualitativ, aber zu klein.
Im Gegensatz dazu lernt der Mensch aus einer Fülle visueller Information, und Teile davon sind in großen Video-Archiven (wie z.B. youtube) digitalisiert und frei erhältlich. Die Zielsetzung des MOONVID-Projektes ist das visuelle Lernen von solchen Web-Videoportalen. Hierbei werden speziell drei entscheidende wissenschaftliche Fragestellungen behandelt:
- Wie wählt und kombiniert man Merkmale für die semantische Beschreibung von Videoinhalten?
- Wie kann man visuelle Lernverfahren robust machen gegen irrelevante Inhalte und schwache Annotationen?
- Kann eine Bewegungssegmentierung, die Objekte von ihrem Hintergrund trennt, zu einer verbesserten Erkennung von Objekten beitragen?