Was ist RAG und was hat es mit KI zu tun?

Retrieval-Augmented Generation (RAG) hört sich kompliziert an, ist es aber nicht!

Warum braucht man das?

Wir alle kennen die KI-Chats wie ChatGPT oder Claude Sonnet, bei denen wir allgemeine Probleme und Fragen diskutieren können und relevante Antworten von der KI erhalten. Doch Firmen und Organisationen stehen vor der Herausforderung, ihr eigenes Wissen oder spezialisierte Daten effizient und genau für Benutzer bereitzustellen. Heutige KI-Modelle können Anfragen verstehen und sehr gut antworten, brauchen als Grundlage aber die entsprechenden Informationen. Die Integration von Spezialwissen in KI-Modelle ist entscheidend, um präzise und relevante Antworten für den jeweiligen Use-Case zu liefern. Des Weiteren besteht das Problem, dass KI-Modelle Antworten liefern können, die es so gar nicht gibt, die sogenannten Halluzinationen. Um diesem Problem zu begegnen, ist einer der Ansätze Retrieval-Augmented Generation (RAG), um die Genauigkeit und Zuverlässigkeit von KI-Anwendungen zu verbessern. Einfach gesagt, werden der KI bei einer Anfrage alle relevanten Informationen übergeben. Wir gehen hier nun auf die Details ein.

Die Grundlagen von RAG

Retrieval-Augmented Generation (RAG) kombiniert die Stärken von Informationsabruf und Generierung, um präzisere und fundiertere Antworten zu liefern. Es besteht aus zwei Hauptkomponenten: dem Abruf relevanter Informationen (Retrieval) aus einer großen Datenbank oder einem Dokumentenspeicher und der Nutzung dieser Informationen zur Generierung kontextbezogener Texte (Augmented Generation).

Komponenten: RAG setzt sich aus vortrainierten Modellen und einer robusten Suchmaschine zusammen, die relevante Dokumente oder Datenpunkte abruft. Diese Daten werden dann verwendet, um detaillierte und genaue Antworten zu generieren.

Wie oben schon angedeutet geht es einfach nur darum, dass man auf einen Datenpool zurückgreift und bevor man eine Anfrage an eine KI stellt, die relevanten Informationen mitliefert. Man benötigt somit Zugriff auf die entsprechenen Datenbanken und Dokumente und mann dann auf Basis einer Anfrage die richtigen Dokumente finden. Hierbei unterscheiden sich die RAG Ansätze signifikant und passen sich täglich neuen Erkenntnissen an.

RAG im Vergleich zu traditionellen KI-Methoden

Finetuning vs. RAG: Ein Vergleich der beiden Ansätze zeigt, dass Finetuning einmalig höhere Kosten verursacht, während RAG laufende Kosten pro Anfrage generiert. Finetuning erfordert umfangreiche Rechenressourcen, ist aber auf lange Sicht kosteneffizienter, wenn wiederholte Anfragen mit denselben Daten gestellt werden. RAG hingegen bietet Flexibilität und Genauigkeit, indem es dynamisch auf aktuelle und variable Daten zugreift.

Praktische Anwendungsbeispiele: RAG eignet sich besonders für Anwendungen, bei denen aktuelle und spezifische Informationen benötigt werden, wie in der Gesundheitsbranche oder im Kundenservice.

Vermeidung von Halluzinationen in KI-Modellen

Was sind Halluzinationen?: Halluzinationen sind ungenaue oder erfundene Informationen, die von KI-Modellen generiert werden. Sie können das Vertrauen in die KI untergraben und zu Fehlentscheidungen führen.

RAG als Lösung: RAG minimiert Halluzinationen, indem es verifizierte Informationen aus externen Quellen einbezieht, bevor eine Antwort generiert wird. Dies erhöht die Zuverlässigkeit und Genauigkeit der generierten Inhalte.

Anwendungen von RAG in der Praxis

Branchenbeispiele: RAG wird in verschiedenen Branchen eingesetzt, darunter Gesundheitswesen, Recht, Finanzen und Kundenservice. Es hilft dabei, spezifische Anfragen schnell und genau zu beantworten.

Finetuning im Vergleich zu RAG inkl. Kosten

Beim Vergleich von Finetuning und Retrieval-Augmented Generation (RAG) stehen insbesondere die Kosten und die Effizienz im Fokus. Finetuning bezieht sich auf die Anpassung eines vortrainierten Modells an spezifische Daten und Aufgaben, wodurch das Modell für wiederholte Anfragen optimiert wird. Dies erfordert jedoch erhebliche anfängliche Investitionen.

Gedankenexperiment mit OpenAI Finetuning:

Initiale Kosten: Finetuning eines Modells wie GPT-3.5 Turbo kostet etwa $8,00 pro 1 Million Trainingstokens und $3,00 pro 1 Million Input-Tokens. Für eine Datenbank mit 3000 DIN A4 Seiten (ca. 1 Million Tokens) bedeutet dies einmalige Kosten von $8,00.
Langfristige Effizienz: Nach der Anpassung des Modells sind die laufenden Kosten pro Anfrage gering, da das Modell bereits optimiert ist und keine großen Datenmengen mehr verarbeiten muss.

RAG:

Laufende Kosten: Bei RAG werden relevante Informationen bei jeder Anfrage abgerufen und verarbeitet. Für eine Datenbank mit 3000 DIN A4 Seiten entstehen Kosten von $3,00 pro 1 Million Tokens pro Anfrage. Das bedeutet, dass jede Anfrage $3,00 kostet, wenn die gesamte Datenbank verarbeitet wird.
Flexibilität und Aktualität: Obwohl RAG höhere laufende Kosten pro Anfrage verursacht, bietet es den Vorteil, dass es dynamisch auf aktuelle und variable Daten zugreifen kann, was besonders bei häufig wechselnden Informationen nützlich ist.

Fazit

RAG bietet eine vielversprechende Lösung für die Herausforderungen, die mit der Integration von Spezialwissen und der Vermeidung von Halluzinationen in KI-Modellen verbunden sind. Durch die Kombination von Retrieval und Generierung können Unternehmen präzisere und zuverlässigere Antworten liefern und so die Effizienz ihrer KI-Anwendungen erheblich verbessern. Entdecken Sie die Möglichkeiten von RAG mit Composable AI und gestalten Sie die Zukunft Ihrer digitalen Strategie.