Skip to main content Skip to main navigation

Online-Suche 2.0: KI macht komplexe Seiteninhalte für die Web-Suche zugänglich

| Wissen & Business Intelligence | Data Management & Analysis | IT Security | Lernende Systeme | Sprache & Textverstehen | Speech and Language Technology | Berlin

Ein Team von Forschenden am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) hat es sich zur Aufgabe gemacht, die Welt der Online-Recherche auf ein neues Level zu heben. Gemeinsam mit Google arbeitet Sven Schmeier vom Bereich Speech and Language Technology am DFKI aktuell daran, die individuellen Strukturen und Informationsnetze von Unternehmens-Webseiten für Suchmaschinen erschließbar zu machen. Große Sprachmodelle (LLMs) sollen dafür eine robuste textuelle Repräsentation der Websites erstellen – welche die Antwort auf nahezu jede erdenkliche Frage liefern kann.

Forscher sitzt an einem Schreibtisch mit mehreren Monitoren.© DFKI
Im Projekt “Sovereign Cloud: Secure integration of business expert knowledge into large language models” sollen Websites künftig besser nach komplexen Informationen durchforstet werden können.

“Sovereign Cloud: Secure integration of business expert knowledge into large language models”, heißt das ambitionierte Projekt der Forschenden um Sven Schmeier. „Das Ziel ist zu erforschen, inwieweit es möglich ist, Webseiten so zu erschließen und in ein RAG (Retrieval Augmented Generation) System einzubetten, dass es möglich ist, komplexe Fragen über diese Webseiten zu stellen“, erklärt der Experte für KI-Sprachtechnologien.

KI ermittelt Seiteninhalt und bereitet Informationen auf

Mittels RAG soll ein Sprachmodell so optimiert werden, dass es auf Informationen außerhalb der eigenen Trainingsdaten referieren, und diese in eine Beantwortung mit einfließen lassen kann. Im Fall des Projekts sollen dafür die entsprechenden Webseiten als Wissensquellen fungieren.

Wenn das Projekt den Vorstellungen entsprechend gelingt, sind Antworten auf Fragen wie „Aus welchen Ländern kommen die MA, die Computerlinguistik studiert haben und an Speech Recognition arbeiten?“ nur noch eine Fingerübung für die DFKI-Technologie. Sie eröffnet also unter anderem die Möglichkeiten auf Basis der website-spezifischen RAGs Dinge zu erfahren, die ansonsten kaum ersichtlich oder kombinierbar sind.

Ein weiterer Vorteil: „Die Websites werden so automatisch barrierefrei, denn sie können in sehr vielen Sprachen, per Text, Sprache, Bild etc. und in vereinfachter Sprache präsentiert werden“, meint Schmeier. Gleichzeitig würde die Pflege von Webseiten um ein Vielfaches unkomplizierter werden.

Echte Antworten

Herkömmliche Suchmaschinen geben Dokumente als Ergebnisse an die suchende Person zurück. RAGs wiederum geben wirkliche Antworten – allerdings sind viele Probleme, die bei RAGs aus Websites auftauchen, bislang ungelöst.

Der Lösungsansatz der Forschenden am DFKI: „Durch die Art der Indizierung, also die Verwandlung der Website-Inhalte in die Inhalte des RAGs, können wir allgemeine Lösungen für die RAGs finden, die sich auch auf andere Quellen anwenden lassen“, erklärt Schmeier. Ermöglicht würde dies beispielsweise durch die explizite Berücksichtigung von Verweisen innerhalb von Dokumenten auf andere Dokumente.

Schwierigkeiten innerhalb des Projekts

Alle Informationen für entsprechende Suchanfragen erschließbar zu machen, scheint eine Mammutaufgabe, die so manche Hürden mit sich bringt. Selbst wenn seitens der AI-Anwendung alles glattläuft, so liegt die Schwierigkeit in der Individualität der Websites.

„Beim Parsen der Websites, um eine robuste textuelle Repräsentation der Websites zu erstellen, gab es bisher anwendungsspezifische Herausforderungen“, berichten die Forschenden. Während der Arbeit im Projekt muss sich das Team um Sven Schmeier mit immer neuen Ausnahmen im Design und Layout von Websites auseinandersetzen.

Auf dem Weg zur Lösung

Geforscht wird aktuell an zwei Fronten. Einerseits an der Erstellung eines Benchmark-Datensatzes für Multi-Hop-Informationen Retrieval über Webinhalte – das heißt Rohwebsites. Andererseits werden Reasoning-Fähigkeiten der Open-Source LLMs zur Navigation von Webinhalten unter Verwendung eigener textueller Webrepräsentationen erprobt.

Die aktuellen Zero-Shot-Tests zeigen jedoch, dass die genutzten Sprach-Modelle nicht die optimalen Aktionen basierend auf der Fragestellung/Webinhalt wählen. Darüber hinaus haben die Forschenden bereits wesentliche Unterschiede zwischen den Open-Source-LLMs Llama2 70b und GPT4 festgestellt.

Die Suche nach einem passenden Sprachmodell geht also weiter. In einer nächsten Testreihe soll Gemini ultra 1.5 getestet werden – in der Hoffnung eine noch bessere, Performanz zu erreichen. Das von den Forschenden eigens erstellte Datenset sowie die verbesserten Reasoning-Fähigkeiten der Gemini-Modelle sollen im Tandem zu diesem Effekt beitragen.

Kontakt:

Dr. Sven Schmeier

Researcher at Speech and Language Technology Department, DFKI

Pressekontakt:

Jeremy Gob

Communications & Media KL/DA, DFKI