1 | Präambel – digitale Souveränität statt Boulevard‑Abhängigkeit
Während US‑Konzerne und staatlich gelenkte chinesische Labore das Rennen um immer größere Sprachmodelle dominieren, wirkt Europa bislang wie ein höflicher Statist. Doch wer Informationsfilter und Wissensgeneratoren ausschließlich fremden Interessen überlässt, lädt zum Machtmissbrauch ein – mit absehbaren Folgen für Demokratie, Datenschutz und Meinungsvielfalt. Genau deshalb setzt die hiesige Forschung nun zum lange überfälligen Befreiungsschlag an.
2 | DeepSeek, GPT‑4 & Co.: das globale Kräftemessen
- USA (OpenAI, Anthropic, Google): Proprietäre Modelle, unklare Trainingsdaten, Marketing‑Budget jenseits der 100‑Millionen‑Dollar‑Grenze.
- China (DeepSeek, Zhipu): Kosteneffiziente Trainingstricks, aber politisch zensiert.
- Europa: Fachkompetenz vorhanden, doch bislang Fragmentierung, Finanzierungsdefizite und Datenknappheit.
Fazit: Know‑how ist kein Engpass – Kapital, Rechenzeit und koordinierte Datenpools jedoch sehr wohl.
3 | Projekt LLäMmlein – der deutschsprachige Proof of Concept
| Merkmal | LLäMmlein „Small“ | LLäMmlein „Large“ | GPT‑4 (Referenz) |
|---|---|---|---|
| Parameter | 120 Mio. | 1 Mrd. | > 1 Bio. |
| Trainings‑GPU‑Stunden | ≈ 5 000 | ≈ 45 000 | 100 000 + |
| Sprache | 100 % Deutsch | 100 % Deutsch | mehrsprachig (Schwerpunkt EN) |
| Lizenz | Open Source (MIT) | Open Source (MIT) | Proprietär |
Key‑Takeaways
- 50 TB Roh‑Webdaten → 6 TB kuratiertes Korpus (Head & Middle‑Qualität laut RedPajama V2)
- Eigens trainierter Tokenizer für deutsche Morphologie
- Kostenpunkt: rund 100 000 € – ein Tausendstel der GPT‑4‑Budgets
(s. Grafik „Trainingsdaten für LLäMmlein“, Quelle: CAIDAS)
4 | Teuken 7B – EU‑Perspektive in 24 Amtssprachen
Das multilinguale Open‑Source‑Modell Teuken 7B Instruct (Fraunhofer IAIS, OpenGPT‑X):
- 7 Mrd. Parameter, trainiert mit 800 000 GPU‑Stunden auf JUWELS (FZ Jülich)
- 24 EU‑Sprachen, davon nur 40 % Englisch
- Bereits produktiv bei der Deutschen Telekom im Einsatz
- Fokus: kulturelle Repräsentanz & Wertepluralität anstelle US‑zentrierter Perspektiven
5 | Drei strukturelle Hausaufgaben für Deutschland & EU
- Recheninfrastruktur entflechten
- Jupiter‑Exascale‑Cluster gezielt für KI‑Training reservieren
- Public‑Private‑Partnerships, um GPU‑Flatrates für Forschung & Start‑ups anzubieten
- Daten‑Marktplätze ausbauen
- European Language Data Space als rechtssicheres Clearing‑House für Verlage, Rundfunk & Archive
- Vergütungsmodelle nach Urheber‑ und Datenschutzrecht, nachhaltig finanziert
- Koordinierte Finanzierung
- Europäischer KI‑Souveränitätsfonds (≥ 1 Mrd. € p. a.) nach Vorbild IPCEI‑Halbleiter
- Fiskalische Anreize für Cloud‑ und Energie‑Effizienz (CO₂‑Preis‑Gutschrift für klimaneutrale Rechenzentren)
6 | Juristischer Blickwinkel: Transparenzpflicht & Grundrechte
- Art. 8 EU‑AI‑Act (Entwurf): Offenlegung wesentlicher Trainingsdaten und ‑methoden → LLäMmlein & Teuken erfüllen dies bereits.
- DSGVO Art. 5 ff.: Rechtmäßigkeit, Zweckbindung, Datenminimierung – ein Vorteil europäischer Modelle, die sich dem hiesigen Datenschutz stellen.
- Verfassungsdogmatik (Art. 1 & 5 GG): Schutz vor manipulativer Informationsmacht ‑ ein Imperativ gegen jede Form autoritärer Indoktrination, gleich ob aus Silicon Valley, Peking oder parteipolitischen Rändern.
7 | Klartext an Populisten: Warum „KI‑Abwehr“ kein Konzept ist
Wer – wie die AfD – reflexhaft gegen Forschungsetats hetzt und „deutsches Steuergeld“ lieber in fossile Nostalgie pumpt, verkennt: ohne eigene Modelle bleibt Europa Datenkolonie. Digitale Souveränität ist keine Spielwiese, sondern staatliche Daseinsvorsorge – vergleichbar mit Grundgesetz‑geschützter Presse‑ und Rundfunkfreiheit.
8 | Ausblick – vom Zwergenaufstand zum europäischen Leuchtturm
Der Erfolg von DeepSeek zeigt: Mit Fokus, Talent und < 100 Mio. $ Invest lassen sich High‑End‑Modelle bauen. Europa kann, wenn es will:
- 2025 → LLäMmlein 10B (rein DE, RLHF, 10 Mrd. Parameter)
- 2026 → Teuken 70B (EU‑Cloud‑native, Green Computing)
- 2027 → Open‑EU‑GPT‑X (> 250 Brd. Parameter, Exascale‑Training auf „Jupiter“)
Voraussetzung: politische Weichenstellung jetzt statt morgen.
TL;DR
Deutschland und die EU besitzen das Fachwissen, aber zu wenig GPU‑Power, Datenmarktplätze und Kapital. Projekte wie LLäMmlein und Teuken 7B beweisen das Potenzial. Wer digitale Souveränität will, investiert – und überlässt Propaganda‑Albträume weder Silicon Valley noch Peking.
