Self-RAG (Asai et al., 2023): Wenn das Modell selbst entscheidet, wann es nachschlagen muss
Self-RAG (Asai, Wu, Wang, Sil & Hajishirzi, 2023) [1] adressiert ein zentrales Defizit klassischer RAG-Systeme: Sie retrieven für jede Frage — auch wenn keine externen Belege nötig sind, und ohne die Qualität der retrieveten Passagen zu prüfen. Self-RAG ersetzt diese starre Sequenz durch ein selbstreflexives Modell, das auf Token-Ebene entscheidet, wann es nachschlägt und wie gut die Belege sind.
1. Das Problem klassischer RAG-Pipelines
Naive und selbst Advanced RAG (vgl. Gao et al., 2023 [2]) leiden an drei Schwächen:
- Übermäßiges Retrieval: Auch bei Fragen, die das Modell aus Parametern beantworten kann, werden Passagen geholt — oft mit irrelevantem Kontext.
- Fehlende Belegprüfung: Das LLM generiert auf Basis der Passagen, ohne zu prüfen, ob diese die Aussage tatsächlich stützen.
- Statische Strategie: Eine Pipeline pro Frage, kein Anpassen während der Generation.
2. Wie Self-RAG das löst
Asai et al. (2023) [1] trainieren ein LLM, das vier Klassen spezieller Reflection-Tokens ausgibt:
- Retrieve: Entscheidet pro Segment, ob jetzt retrievet werden soll.
- IsRel: Bewertet, ob ein retrieveter Passage relevant ist.
- IsSup: Bewertet, ob die generierte Aussage durch die Passage gestützt wird.
- IsUse: Bewertet die Gesamtnützlichkeit der Antwort.
Das Modell wird auf einem Datensatz mit annotierten Reflection-Tokens trainiert (Generator-Modell + Critic-Modell). In Inferenz produziert es Antwort-Segmente und parallel die Self-Reflection — und kann Pfade per Tree-Decoding nach Score auswählen.
3. Empirische Befunde
Self-RAG übertrifft laut Asai et al. (2023) [1] starke Baselines (ChatGPT, Llama2-chat, Standard-RAG) auf mehreren Benchmarks (PopQA, TriviaQA, PubHealth, ASQA, FactScore). Besonders deutlich: die Faktentreue (Citation Precision/Recall) verbessert sich gegenüber Standard-RAG signifikant — konsistent mit den allgemeinen Halluzinationsbefunden aus Shuster et al. (2021) [3] und Trivedi et al. (2023) [4].
4. Warum wir bei BusFactor kein Self-RAG-Fine-Tuning machen
Self-RAG verlangt:
- Annotierte Trainingsdaten mit Reflection-Tokens (im Paper über GPT-4 destilliert),
- Custom-Fine-Tuning des Generators,
- Inferenz-Tooling, das Reflection-Tokens parst und Tree-Decoding implementiert.
Für mittelständische Mandanten widerspricht das unseren Prinzipien aus der Methodik: Auditierbarkeit, Mandantenfähigkeit, Modellaustauschbarkeit. Wir nutzen daher das konzeptionelle Muster ohne Custom-Training.
5. Wie BusFactor das Pattern adaptiert
Konkret implementieren wir drei der vier Self-RAG-Ideen via Prompting + Routing:
- Adaptive Retrieval (Retrieve-Token-Äquivalent): Ein leichtgewichtiger Router entscheidet pro Frage, ob Snippets, Dokumente, Rollenwissen oder mehrere Quellen kombiniert werden — oder ob das Modell aus generischem Wissen antwortet.
- Relevanz-Filter (IsRel-Äquivalent): Cross-Encoder-Rerank entfernt irrelevante Passagen vor der Generation (vgl. Advanced RAG).
- Self-Critique (IsSup-Äquivalent): Bei hochsensiblen Antworten validiert ein zweiter Pass die Aussagen gegen die Quellen-Chunks und markiert nicht-gestützte Behauptungen.
Damit erreichen wir einen großen Teil der Self-RAG-Vorteile, ohne uns an ein spezifisches Modell zu binden.
6. Grenzen — und warum das ehrlich gesagt sein muss
Self-RAG ist kein Wundermittel:
- Tree-Decoding erhöht Latenz und Token-Kosten erheblich.
- Reflection-Tokens sind selbst fehleranfällig — Self-Critique kann systematische Bias übernehmen.
- Auf KMU-Wissensbasen mit weniger Trainingsdaten ist Custom-Self-RAG selten lohnend.
Fazit
Self-RAG (Asai et al., 2023) [1] verschiebt RAG von einer starren Pipeline zu einer adaptiven Strategie. Auch ohne Custom-Training ist das Pattern wertvoll — als Inspiration für Routing, Rerank und Self-Critique in produktiven RAG-Systemen. Genau dort verankern wir die Self-RAG-Logik in der BusFactor-Architektur.
Quellen
- [1]Asai, A., Wu, Z., Wang, Y., Sil, A., & Hajishirzi, H. (2023). SELF-RAG: Learning to retrieve, generate, and critique through self-reflection. Preprint. https://selfrag.github.io/
- [2]Gao, Y., et al. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv:2312.10997. https://arxiv.org/abs/2312.10997
- [3]Shuster, K., Poff, S., Chen, M., Kiela, D., & Weston, J. (2021). Retrieval augmentation reduces hallucination in conversation. Findings of EMNLP 2021, 3784–3803.
- [4]Trivedi, H., Balasubramanian, N., Khot, T., & Sabharwal, A. (2023). Interleaving retrieval with chain-of-thought reasoning for knowledge-intensive multi-step questions. ACL 2023, 10014–10037.
Weiterlesen
Wie steht es um Ihren Bus-Faktor?
Lassen Sie uns die kritischen Rollen in Ihrem Unternehmen gemeinsam identifizieren — strukturiert, rollenbezogen und ohne Mitarbeiterüberwachung.
Kostenlose Risikoanalyse anfragen