Forschungssynthese10 Min.21. Mai 20261520 Wörter

Naive, Advanced, Modular RAG: Die Architektur-Taxonomie nach Gao et al. (2023)

Die Survey von Gao, Xiong, Gao, Jia, Pan, Bi, Dai, Sun & Wang (2023) [1] ist die wohl meistzitierte Übersichtsarbeit zu Retrieval-Augmented Generation. Sie ordnet das Feld in drei Reifestufen — Naive, Advanced und Modular RAG — und liefert damit ein präzises Vokabular, das wir in der [Methodik-Bibliothek](/methodik) konsequent verwenden.

1. Warum Naive RAG nicht ausreicht

Gao et al. (2023) ^[1] beschreiben Naive RAG als simple Sequenz aus Indexierung, Retrieval (typischerweise Dense Passage Retrieval nach Karpukhin et al., 2020 ^[2]) und Generation. Das ist die Architektur jeder Demo — und scheitert in Produktion an drei Punkten:

Recall-Probleme: Eine einzige Query trifft selten alle relevanten Chunks.
Precision-Probleme: Top-k enthält oft irrelevante oder veraltete Passagen.
Generation-Bias: Das LLM ignoriert Quellen, wenn diese widersprüchlich oder fragmentarisch sind (vgl. Shuster et al., 2021 ^[3]).

2. Advanced RAG — Pre- und Post-Retrieval-Optimierung

Advanced RAG fügt zwei Schichten ein:

Pre-Retrieval: Query-Rewrite, Query-Expansion, hypothetische Antwortdokumente (HyDE), Routing nach Frage-Typ.
Post-Retrieval: Rerank (Cross-Encoder), Kontext-Kompression, Deduplikation, Quellen-Scoring.

Beide Schichten sind empirisch validiert: Trivedi et al. (2023) ^[4] zeigen mit IRCoT, dass iteratives Retrieval die Antwortqualität bei mehrstufigen Fragen substantiell hebt. Advanced RAG ist heute der Industriestandard für Enterprise-Wissensanwendungen.

3. Modular RAG — Pipeline als Baukasten

Modular RAG (Gao et al., 2023 ^[1]) ersetzt die fixe Sequenz durch austauschbare Bausteine: Search-Module, Memory-Module, Fusion-Module, Routing-Module, Predict-Module. Praktische Pattern:

Rewrite-Retrieve-Read: Query wird vor Retrieval umformuliert.
Generate-Read: Hypothetische Antwort erzeugen, dann gegen Belege validieren.
Iterative Retrieval: Mehrere Retrieval-Runden, gesteuert durch Zwischenantworten.
Adaptive Retrieval: Modell entscheidet pro Frage, ob retrievet werden soll (vgl. Self-RAG, Asai et al., 2023 ^[5]).

Modular RAG ist die Voraussetzung für Auditierbarkeit: Jeder Baustein lässt sich isoliert testen, loggen und ersetzen — eine Grundbedingung für betriebsrätlich genehmigte KM-Systeme.

4. Was BusFactor aus der Taxonomie übernimmt

Unsere produktive RAG-Pipeline implementiert:

Pre-Retrieval: Query-Rewriting auf Rollen-Kontext, Routing zwischen Snippets, Dokumenten und Rollenwissen.
Hybrid Retrieval: Dense (Embeddings) + Sparse (BM25) mit Reciprocal Rank Fusion.
Post-Retrieval: Cross-Encoder-Rerank, Quellen-Filter nach Berechtigung, Kontext-Kompression.
Generation: Antworten mit Inline-Citations auf die zugrunde liegenden Chunks (vgl. RAG-Grundlagen).
Iterative Retrieval: Bei mehrstufigen Fragen folgen wir dem IRCoT-Pattern (Trivedi et al., 2023 ^[4]).

5. Was wir bewusst (noch) nicht modular machen

Gao et al. (2023) ^[1] beschreiben weitere Bausteine — z.B. Generator-Fine-Tuning, Retriever-Fine-Tuning, End-to-End-Optimierung. Wir setzen diese bewusst nicht ein, weil sie:

die Auditierbarkeit reduzieren (Fine-Tuning verschleift Belege im Modell),
die Übertragbarkeit zwischen Mandanten schwächen,
in mittelständischen Kontexten selten den Aufwand rechtfertigen.

Fazit

Die Taxonomie von Gao et al. (2023) ^[1] gibt uns ein gemeinsames Vokabular: Wenn wir von »Rerank«, »HyDE« oder »Iterative Retrieval« sprechen, beziehen wir uns auf empirisch validierte Bausteine — nicht auf Marketing-Begriffe. BusFactor ist Advanced RAG mit ausgewählten Modular-Pattern; das ist 2026 der Sweet Spot zwischen Qualität, Auditierbarkeit und Betriebskosten.

Quellen

[1]
Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J., & Wang, H. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv:2312.10997. https://arxiv.org/abs/2312.10997
[2]
Karpukhin, V., Oğuz, B., Min, S., Lewis, P., Wu, L., Edunov, S., Chen, D., & Yih, W.-t. (2020). Dense passage retrieval for open-domain question answering. EMNLP 2020. https://doi.org/10.18653/v1/2020.emnlp-main.550
[3]
Shuster, K., Poff, S., Chen, M., Kiela, D., & Weston, J. (2021). Retrieval augmentation reduces hallucination in conversation. Findings of EMNLP 2021, 3784–3803.
[4]
Trivedi, H., Balasubramanian, N., Khot, T., & Sabharwal, A. (2023). Interleaving retrieval with chain-of-thought reasoning for knowledge-intensive multi-step questions. ACL 2023, 10014–10037.
[5]
Asai, A., Wu, Z., Wang, Y., Sil, A., & Hajishirzi, H. (2023). SELF-RAG: Learning to retrieve, generate, and critique through self-reflection. arXiv preprint. https://selfrag.github.io/

Weiterlesen

Forschung & Methodik

Die wissenschaftlichen Grundlagen der BusFactor-Methode: Was peer-reviewte Forschung zu Tacit Knowledge und KI-gestütztem Wissenstransfer belegt

Methodensynthese

RAG-Foundations: Warum Retrieval-Augmented Generation der wissenschaftliche Standard für vertrauenswürdige KI-Antworten ist

Forschungssynthese

Halluzinationen reduzieren: Empirische Evidenz, dass Retrieval-Augmentierung KI-Antworten verlässlicher macht

Forschungssynthese

Self-RAG (Asai et al., 2023): Wenn das Modell selbst entscheidet, wann es nachschlagen muss

Wie steht es um Ihren Bus-Faktor?

Lassen Sie uns die kritischen Rollen in Ihrem Unternehmen gemeinsam identifizieren — strukturiert, rollenbezogen und ohne Mitarbeiterüberwachung.

Kostenlose Risikoanalyse anfragen