8 min. reading time

Was passiert, wenn man einer KI das Steuer überlässt, während man selbst sich nur um die Rahmenbedingungen kümmert? Das war meine Idee hinter hippo-llm-memory (so heißt auch das Projektrepository): einem praktischen Experiment, um herauszufinden, ob aktuelle große Sprachmodelle (LLMs) es schaffen etwas zu bauen, das meine eigenen intellektuellen Möglichkeiten übersteigt. Ich wollte wissen: ist KI in der Lage die initiale Recherche zu einem Projekt zu übernehmen, eine adäquate Architektur zu entwickeln und schlussendlich einen funktionierenden Prototyp zu implementieren - während ich lediglich die Richtung vorgebe.

Spoiler: Es hat häufig funktioniert, jedoch nicht immer, und vor allem nicht ohne ein paar echte Lessons Learned für mich.

Eingesetzte Tools

Bevor ich in die Geschichte eintauche, hier ein kurzer Überblick über die von mir verwendeten Tools und ihre Rolle:

  • ChatGPT (DeepResearch-Modus): für tiefgreifende Untersuchungen in den Neurowissenschaften und LLM-Architekturen und für das Querlesen beider Bereiche zur Ableitung von hippocampusinspirierten Algorithmen.
  • ChatGPT (Denkmodus): für die Planung, die Aufteilung der Arbeit in Meilensteine, die Erstellung von Codex-Aufgaben und das Durchführen von Reviews anhand von Forschungsergebnissen und Projektplänen.
  • Codex: Für die Implementierung des Prototypen, Coding; Zu vorgegebenen Aufgaben produzierte Codex Quelltextvorschläge, welche ich überprüfte und auswählte-
  • Git & GitHub: Versionskontrolle und Kollaboration. Alle erzeugten Artefakte, von Forschungsnotizen bis hin zu Code und Bewertungsberichten, wurden hier aufbewahrt. GitHub-Aktionen wurden für die kontinuierliche Integration (Continuous Integration, CI) verwendet, wobei Tests und Linter-checks automatisch ausgeführt wurden-

Diese Kombination definierte den Entwicklungskreislauf: Forschung mit ChatGPT, Implementierung durch Codex, Überwachung durch Git und CI und minimale, aber entscheidende menschliche Anleitung dazwischen.

Schritt eins: Lass die KI denken

Das Projekt begann mit einer einfachen Frage: Kann ich ein Gedächtnissystem für LLMs bauen, das vom menschlichen Hippocampus inspiriert ist? Ich selbst habe keine neurowissenschaftlichen Kenntnisse und auch nicht vor, sie zu erwerben. Also delegierte ich diese Recherche. Ich erstellte einen spezifischen DeepResearch-Prompt für ChatGPT mit dem Ziel das Gedächtnis des Hippocampus auf einer tiefen neurobiologischen Ebene zu untersuchen. Die Antwort: detaillierte Notizen über schnelle Kodierung, Sparsamkeit, Mustervervollständigung, Wiederholungskonsolidierung, Schemaeffekte und mehr. Habe ich alles gelesen? Nein. Aber das war nicht für mich - es war Input für den nächsten Schritt. Parallel dazu nutzte ich einen anderen DeepResearch-Prompt, um LLM-Interna zu erforschen: Aufmerksamkeit, Positionskodierungen, Strategien für lange Kontexte, Tricks zur Speichererweiterung und neuere Architekturvarianten. Auch dies war dazu gedacht, in ChatGPT selbst eingespeist zu werden.

Dann kam der interessante Teil. Ich wies ChatGPT an - mittels eines Metaprompts, den es mitgestaltet hatte -, beide Dokumente querzulesen und mögliche Algorithmen abzuleiten, die Hippocampus-Mechanismen mit praktischen Speichermodulen für LLMs verbinden. Das Ergebnis? Drei vielversprechende Konzepte:

  • HEI-NW - Episodisches Gedächtnis mit neuromoduliertem Schreiben
  • SGC-RSS - Schema-gesteuerte Konsolidierung in einen semantischen Speicher
  • SMPD - Räumliche Karten mit prozeduraler Destillation

All dies - von der Recherche bis zum bereichsübergreifenden Mapping - wurde an einem Tag durchgeführt. Nicht von mir, sondern von einem gut strukturierten, prompt geführten LLM.

Schritt zwei: Lass die KI bauen

Auch in der nachfolgenden Implementierungsphase stand die KI im Mittelpunkt des Prozesses. Das gestaltete sich zu Beginn etwas chaotisch. Zunächst vernachlässigte ich die strukturierte Planung (Fehler!). Ich bat ChatGPT einfach, eine Liste von Codex-Tasks zu erstellen, die auf den Algorithmen aus den quergelesenen Forschungsdokumenten basierten, und gab diese Tasks direkt an Codex. Nach Umsetzung nahm ich eine kurze Sichtprüfung vor, akzeptierte den Code und fuhr fort. Dann bat ich ChatGPT, die resultierende Implementierung anhand der "Ground Truth" - dem ursprünglichen forschungsbasierten Design - zu überprüfen und Codex-Nachfolgeaufgaben zu erstellen, um die Lücken zu schließen. Dieser Prozess erzeugte die Illusion eines schnellen Fortschritts. Immer wieder tauchte neuer Code auf. Bewertungsberichte tauchten auf. Die Kritiken wurden immer positiver.

Dennoch begann ich mich unwohl zu fühlen. Ich hatte kein klares Gefühl dafür, wo wir uns im gesamten Entwicklungszyklus befanden. Waren wir fast fertig? Auf halbem Weg? War der Code wertvoll oder nur langatmig? Was genau war implementiert worden, und was existierte nur noch im Plan oder in meinem Kopf?

An diesem Punkt wurde mir klar, dass etwas Entscheidendes fehlte: eine Projektstruktur. Also hielt ich inne und schaltete einen Gang zurück. Mit Hilfe von ChatGPT erstellte ich einen Projektplan als Leitplanke. Statt ChatGPT zu bitten, isolierte Aufgaben zu erstellen, arbeitete ich nun meilensteinbasiert. Für jede Aufgabe teilte ChatGPT die Arbeit in kleinere Pakete auf, generierte Codex-Prompts für jedes Paket und überprüfte den fertigen Code anhand des Plans - nicht nur anhand der ursprünglichen Recherche. Der Kreislauf aus Aufgabenerstellung, Implementierung und Überprüfung blieb zwar derselbe, aber er hatte jetzt einen klaren Verlauf. Ich konnte verfolgen, was getan worden war, was noch fehlte und ob jeder Teil seine Meilensteinkriterien erfüllte.

Kurzum: Der Fortschritt wurde messbar. Dieser Wechsel - von der reaktiven Generierung zur planorientierten Entwicklung - markierte einen Wendepunkt. Er löste nicht alle Probleme (wie in späteren Abschnitten beschrieben), aber er gab dem Projekt ein Gerüst.

Die "Magie" lässt nach...

Nach einigen Meilensteinen wurden Probleme deutlich. Erstens gab es endlose Wiederholungen der Arbeitsabläufe (Endlosschleifen). Es bildete sich ein typisches Muster heraus:

  • Check erkennt "Problem X".
  • Codex löst "Problem X".
  • erneuter Check erkennt erneut "Problem X" ODER einen engen Verwandten.
  • Codex löst "Problem X" oder den Verwandten
  • erneuter Check erkennt erneut "Problem X"... 
  • u.s.w.

Nachdem ich mehrere Tage lang dieselbe Feedbackschleife durchlaufen hatte, musste ich manuell eingreifen. Nur durch die (Rootcause) Analyse des zugrundeliegenden Designfehlers und die Umgestaltung des Eingabeplans konnte ich den Kreislauf durchbrechen. Das zweite Problem war die Code-Entropie. Da ich ChatGPT die Definition von Codex-Aufgaben überließ und nur selten kritische Nachfragen stellte, wurde die Implementierung schnell komplex:

  • Einige Dateien hatten mehr als 1500 Zeilen.
  • Die Funktionen waren tief verschachtelt, schlecht strukturiert und unmöglich zu verstehen.
  • Refactoring-Versuche schlugen fehl oder waren zumindest zu kostspielig.
  • Der Code war zu eng gekoppelt und zu wenig spezifiziert.

Kurzum, ich war in eine Situation geraten, die man als " Vibe Coding" bezeichnen könnte: Die Dinge fühlten sich produktiv an, aber es fehlte an Struktur.

Lessons Learned

Aus dieser ersten Iteration ergaben sich mehrere wichtige Erkenntnisse:

1. Design und Architektur müssen von Menschen verstanden werden.

Die KI kann das Verständnis zwar unterstützen, stellt aber oft nicht die richtigen Fragen oder hinterfragt ihre eigenen Annahmen. Das bedeutet, dass ich in der Lage sein muss, die richtigen Fragen zu stellen, um Schwachstellen aufzudecken. Wenn niemand die Architektur versteht, kann niemand sie reparieren, wenn sie kaputt geht.

2. KI weiß zwar, wie man funktionalen Code schreibt, hat aber kein Gespür für Wartbarkeit.

Ohne Einschränkungen erstellt sie munter riesige Funktionen, fügt Schicht um Schicht von if-Anweisungen hinzu und steigert die Komplexität exponentiell. Ohne menschliches Eingreifen entsteht etwas, das einmal funktioniert, aber nicht weiterentwickelt werden kann.

3. Code muss immer visuell überprüft werden.

Selbst wenn die Logik korrekt zu sein scheint, sind Warnzeichen wie Funktionslänge, Verschachtelungstiefe und Benennungschaos Anzeichen für kommende Probleme. Große Funktionen müssen sofort umstrukturiert werden, sonst wird die KI dich in der Komplexität begraben - bis selbst sie nur noch verwirrt ist.

4. Tests, Namenskonventionen, Dateigrenzen und Aufforderungen zur Überprüfung sollten keine nachträglichen Überlegungen sein.

Sie sind die Leitplanken, die verhindern, dass KI-generierter Code unter seinem eigenen Gewicht zusammenbricht.

Was kommt als Nächstes?

Das Projekt ist noch nicht zu Ende. Aber es beginnt von vorne - mit einer stärkeren Grundlage:

1. Zweite Iteration, dieselbe Forschung

Der neue Zyklus basiert auf denselben tiefgreifenden Forschungsergebnissen, aber alles andere wird neu überdacht. Design, Architektur und Planung werden mit einem kritischeren und strukturierteren Blick angegangen.

2. Frühzeitig mehr menschliche Beteiligung

Die Planungsartefakte werden detaillierter entwickelt, bevor der Code geschrieben wird. Ich akzeptiere die Algorithmusvorschläge nicht einfach, weil sie "zu komplex sind, um sie zu hinterfragen" - stattdessen bitte ich ChatGPT, sie klar zu erklären, die Struktur zu hinterfragen und die Designentscheidungen zu verteidigen. Wenn es das nicht kann, überarbeiten wir.

3. Versionskontrollierte Dokumentation

Alle Designnotizen, Forschungszusammenfassungen, Architekturentscheidungen und Planungsartefakte werden im Repo aufbewahrt. Dies sorgt für Kontinuität, nicht nur für mich, sondern auch für die nachfolgenden KI-Tools. LLMs haben kein Gedächtnis - also müssen wir ihnen eines geben.

4. Verbesserte Engineering-Praktiken

Der Arbeitsablauf umfasst jetzt von Anfang an:

  • einen Projektplan, den ein Mensch verstehen kann
  • kleinere, testbare Aufgaben
  • Metriken zur Codeabdeckung
  • Klare Vorgaben bzgl. des Programmierstils und Komplexitätsprüfungen
  • Automatisierung für Meilenstein-Audits
  • klare Trennung von Prototypen und Produktionspfaden

Das Ziel ist immer noch dasselbe: die Entwicklung von Hippocampus-inspirierten Speichermodulen für kleine LLMs. Aber die größere Aufgabe zeichnet sich ab: einen nachhaltigen, überprüfbaren Prozess der Zusammenarbeit zwischen Mensch und KI zu entwickeln, der in der Praxis tatsächlich funktioniert. Es wird noch mehr kommen: wie man professionelle Praktiken in einem KI-Workflow abbildet, tiefere Einblicke in jeden Speicheralgorithmus (nach erfolgreicher Implementierung und Validierung), Tricks zur Reproduzierbarkeit, Prompt-Templates und mehr.

Das Repo ist hier: https://github.com/ArneDeutsch/hippo-llm-memory

Interesse geweckt? Hast du ähnliche Ideen - oder Kritik? Ich freue mich auf einen Austausch. Ich denke: Die nächste Generation von Software wird mit KI gebaut werden. Lasst uns sicherstellen, dass sie nachhaltig und wartbar wird.

# hippo-llm-memory

Comments