Architektur, Training und Funktionsweise
DeepSeek-R1 basiert auf einer Mixture-of-Experts (MoE)-Architektur. Das bedeutet, dass bei jeder Anfrage nur 37 Milliarden der insgesamt 671 Milliarden Parameter aktiv sind. Statt das gesamte Modell zu nutzen, werden gezielt spezialisierte “Experten” für bestimmte Aufgaben aktiviert. Dadurch kombiniert es die Vorteile großer, leistungsstarker Modelle mit der Effizienz kleinerer Modelle.
Das R1-Modell wurde in vier Phasen trainiert, basierend auf dem im Dezember veröffentlichten V3-Modell. Dabei kam eine Mischung aus Fine-Tuning und Reinforcement Learning (RL) zum Einsatz. Diese Methoden halfen dem Modell, logisches Denken und Schlussfolgerungen zu lernen. Besonders in Mathematik und Programmierung erzielt es dadurch herausragende Ergebnisse.
Eine zentrale Technik ist Chain-of-Thought (CoT). Hierbei zerlegt das Modell komplexe Probleme in kleine, logische Schritte. Es denkt also strukturiert bis zur Lösung, anstatt direkt eine Antwort zu raten. Dieser Prozess geschieht automatisch, ohne dass er explizit vorgegeben werden muss. Das macht DeepSeek-R1 besonders präzise bei Aufgaben, die eine klare, nachvollziehbare Herleitung erfordern.





)
)
)
)