Einblicke

Wo man das Modell nicht aufruft

Mit einem echten Budget ist die wirkungsvollste Entscheidung in einem KI-System oft, das Modell gar nicht aufzurufen. Die Kosten folgen der Arbeit, die man ihm zuleitet — also leiten Sie nur das zu, was es wirklich braucht.

Der günstigste Aufruf ist der, den man nie macht

Das meiste, was über KI-Kosten geschrieben wird, dreht sich darum, ein günstigeres Modell zu wählen oder Tokens zu kürzen. In den Systemen, die ich gebaut habe, kam die größere Ersparnis von woanders: vor jedem Aufruf zu entscheiden, ob das Modell überhaupt laufen muss. Die Kosten skalieren mit der Arbeit, die man dem Modell zuleitet, also ist die wirkungsvollste Komponente oft ein günstiges, deterministisches Gate, das den Großteil der Arbeit von ihm fernhält.

Das ist keine verfrühte Optimierung. Es ist der Unterschied zwischen einem Hobby-Skript und etwas, das jeden Tag laufen kann, ohne dass die Rechnung der Grund wird, es abzuschalten.

Zwei Gates aus echten Systemen

Pixel-Diff vor Vision-OCR. In einer Handschrift-Pipeline müssen annotierte Tablet-Seiten von einem Vision-Modell zurückgelesen werden — der teure Schritt. Aber an einem bestimmten Tag sind nur ein oder zwei Seiten eines zwölfseitigen Dokuments tatsächlich beschrieben. Bevor also etwas das Modell erreicht, pixel-difft das System die saubere und die annotierte PDF und schickt nur die geänderten Seiten, typischerweise eine bis drei von zwölf. Die Kosten folgen den Änderungen, nicht der Dokumentgröße.

Ein kostenbewusster Stufen-Router. In einer Dokumenten-Extraktions-Pipeline verarbeitet ein kostenloser lokaler Parser (pdfplumber) jedes text-lesbare PDF; nur die Scans, an denen er scheitert, werden zu einem bezahlten, dokumenten-nativen Modell eskaliert; eine dritte Stufe hält einmalig migrierte Legacy-Daten. Jedes Dokument wird an das günstigste Werkzeug geleitet, das es tatsächlich lesen kann — und das bezahlte Modell sieht immer nur die Dokumente, die es wirklich brauchen.

Der größte Teil von KI-Engineering mit Budget ist zu wissen, wo man das Modell nicht aufruft.

Der Haken: Das Gate muss günstig und richtig sein

Ein Router ist nur dann eine Ersparnis, wenn das Gate selbst günstig und verlässlich ist. Ist der Test für „kann der günstige Pfad das bewältigen?" falsch, hat man es auf eine von zwei Arten schlimmer gemacht: Man gibt zu viel aus, indem man Dokumente eskaliert, die es nicht nötig hatten, oder man schickt dem Modell Müll, den der günstige Pfad hätte abweisen sollen. Beide obigen Gates funktionieren genau deshalb, weil sie günstig und deterministisch sind — ein Pixel-Vergleich und eine Text-Lesbarkeits-Prüfung, kein weiteres Modell, das beurteilt, ob das erste Modell aufgerufen werden soll.

Die ehrliche Grenze: Diese Schwellen sind auf die Dokumente abgestimmt, mit denen ich zu tun hatte, nicht auf irgendetwas Universelles. Das Prinzip überträgt sich sauber — finde das günstige, verlässliche Signal, das sagt „der teure Pfad ist hier unnötig" —, aber das konkrete Gate muss für jedes Problem neu gebaut werden. Dieser Neubau ist meist ein Nachmittag Arbeit, der sich im ersten Betriebsmonat amortisiert.

Das praktische Beispiel

BooxPlanner Dokumenten-Pipeline

← Alle Einblicke