‘Less is more’ in large language models: from a clever aside to an austerity calculus

🦋🤖 Robo-Spun by IBF 🦋🤖

📺🫥📡 Medium Other 📺🫥📡

(Turkish)

The slogan ‘less is more’ entered the LLM conversation as a counter-rhythm to the post-2018 belief that scale would smooth away most wrinkles. To understand how it traveled, it helps to start with what the phrase does in discourse before tallying what it did in labs. On the page, ‘less is more’ is permission, not proof: a compact way to halt option-sprawl and turn a constraint—money, memory, latency, label budgets—into a method. Žižekian Analysis reads the field’s title templates as master-signifiers that stabilize attention under pressure, and its discussion of ‘X is all you need’ makes the move legible: declare sufficiency, and you buy time to work despite chaos (🔗). In the LLM era, ‘less is more’ became the sibling gesture that doesn’t claim finality; it asserts that a careful cut—fewer labels, fewer tuned weights, fewer active parameters, fewer bits, fewer examples—can yield more capability per unit of budget, if the cut is made at the right seam. (Žižekian Analysis)

The first widely shared statement of this in LLM alignment was LIMA, which deliberately fine-tuned a 65B-parameter model on just one thousand hand-curated prompt–response pairs and no reinforcement learning. The paper’s core claim is not that tiny data magically conjures knowledge, but that pretraining already holds it; the small, clean set teaches form, voice, and refusal. The measured outcome—human raters preferring LIMA’s responses surprisingly often against much more expensive baselines—made ‘less is more’ feel operational, not romantic (🔗; PDF: 🔗). What traveled from LIMA was a stance: scale for pretraining, then practice austerity in alignment. (arXiv)

Once that stance existed, other teams gave it different levers. Microsoft’s Phi line did not shrink labels; it shrank chaos. ‘Textbooks Are All You Need’ argued that small models trained on ‘textbook-quality’ sources—plus synthetic textbook exercises—can punch far above their size on coding tasks, because curated clarity raises the signal-to-noise ratio that scale alone cannot guarantee. The point is concrete: swap more data for better data, and the curve lifts, within the limits set by domain and model size (🔗; explainer: 🔗). Here, ‘less’ names fewer messy tokens, not fewer tokens full stop. (arXiv)

Another branch treated ‘less’ as runtime minimalism rather than dataset minimalism. Sparse activation made the idea literal: a Switch Transformer routes each token to one or two experts, keeping per-token FLOPs nearly constant while total capacity grows. This is less model used per example for more total headroom, and it reframed parameter counts in public conversation: a trillion parameters can be an efficiency play if they’re mostly asleep (🔗; journal version: 🔗). The slogan traveled here as a systems promise—less active compute for more capability—rather than a data promise. (arXiv)

Compression pushed the travel further and closer to deployment. SparseGPT showed, for the first time at GPT scale, that you can prune half or more of a model’s weights in a single shot with minimal perplexity loss, and do it within hours for 100B-class models. Later frameworks made similar arguments for bits: SqueezeLLM pushed post-training quantization down to three bits while preserving quality surprisingly well on common benchmarks. In both cases, ‘less’ became a knob for memory and latency that product teams could feel—shorter time-to-first-token, narrower VRAM envelopes, denser multi-tenancy—while model behavior remained recognizably intact (🔗; OpenReview PDF: 🔗; SqueezeLLM paper: 🔗; repo: 🔗). The path of the slogan through compression anchored it to dashboards and bills, not just leaderboards. (arXiv)

A striking, later stop on the journey reframed ‘less’ around reasoning. The LIMO work synthesized a tiny, surgical set of supervised examples—hundreds, not hundreds of thousands—crafted as ‘cognitive templates’ to teach process rather than recite answers, then reported large jumps on hard math benchmarks and unusual out-of-distribution generalization. Whether every number survives future scrutiny, the conceptual export is clear: if pretraining already encodes the domain, a small, well-aimed set of exemplars can flip the switch that teaches the model how to use what it knows (🔗). That is ‘less is more’ as pedagogy rather than austerity: fewer lessons, more transfer. (arXiv)

Data selection matured this pedagogy into a routine. Surveys now consolidate techniques for picking the right sliver of instructions instead of the whole haystack, and concrete methods show that one to twelve percent of a dataset, chosen for diversity, difficulty, dependability, or expected influence, can outperform full-set tuning. The Princeton LESS blog sketched this intuition early for transfer settings; ICLR and NeurIPS papers have since operationalized coverage-aware or nearest-neighbor-aware selection, sometimes beating full-data baselines at one percent. The most explicit ‘less is more’ banner here is an ICLR-25 study that formalizes adaptive coverage sampling for synthetic data and reports better classifiers than training on the entire synthetic pool. The story the slogan tells at this stop is not asceticism; it is measurement: you buy ‘more’ by measuring redundancy, filtering noise, and balancing capability surfaces. The relevant links open these developments and their programmatic surveys (🔗; survey v2: 🔗; JAIR version: 🔗; NAACL-24 self-guided selection: 🔗; NeurIPS-24 TSDS: 🔗; ICLR-25 coverage paper page: 🔗; arXiv mirror: 🔗). (Princeton CS Department)

As the slogan spread into deployment stacks, the field also learned to add a question mark. ‘Less’ can shift who benefits. ACL and AAAI studies on fairness and compression find that pruning and some quantization strategies can change demographic bias in ways that aren’t predicted by average accuracy; other work suggests some forms of compression can regularize bias downward, while still others show inconsistent, model-dependent swings. NAACL-25 details how inference-acceleration choices alter bias and even response length. The practical implication of this cautionary leg of the journey is to treat ‘less’ as a system-wide intervention whose social effects you must measure, rather than a magic synonym for elegance. The emerging genre of ‘fair quantization’ papers makes the same point by design, baking group-fairness constraints into the rounding objective. This is the slogan growing up: ‘more’ must include more equity, not just more tokens per second (🔗; AAAI-24 version: 🔗; NAACL-25: 🔗; arXiv preprint on bias-aware quantization: 🔗; related EMNLP-23 compression analysis: 🔗). (ACL Anthology)

Tying these episodes together, a throughline emerges that is easy to grasp even if you are new to the jargon. In each case, ‘less’ is not less work; it is a more accurate cut. Curating one thousand examples is harder than scraping one million; designing a router that keeps experts balanced is harder than stacking dense layers; achieving robust three-bit quantization is harder than leaving everything in float. The slogan survives because it tells engineers where to spend effort when external limits bite. If you read it through Žižekian Analysis, it functions like a minimal prohibition that makes action possible: by forbidding certain kinds of ‘more’—more noisy tokens, more dense compute, more rater hours—it frees a path to move, and it does so without pretending to close the field (🔗). (Žižekian Analysis)

That reading also explains why the slogan keeps changing its object. At first it applied to labels and instruction-tuning stacks, because that was where costs and fashion collided. When inference budgets dominated, it traveled to pruning and quantization and then to activation sparsity. When reasoning benchmarks became a status language, it moved again to exquisitely small, process-teaching datasets. And when synthetic data flooded repos, it moved to coverage and selection. None of these travels contradict one another; they are phases of a single austerity calculus whose rule is simple: replace bulk with structure. In practice, that can mean textbook-quality data standing in for generic web dumps, sparse activation standing in for monolithic dense compute, coverage-aware sampling standing in for hoarding, or a few high-leverage demonstrations standing in for a carpet of labels (🔗; 🔗; 🔗; 🔗; 🔗). (Microsoft)

Because it is a calculus and not a creed, the slogan comes with conditions that a newcomer can check. It works best when pretraining already encodes the domain you care about, so a small number of examples can teach form or process rather than content; it works when you can measurably raise the signal-to-noise ratio by curation, routing, or discretization; it works when your real bottleneck is not benchmark points but budgets, delays, or governance. When those conditions are absent, ‘less’ collapses into a look; it becomes minimalism as style. The literature is explicit about these edges, and the bias/robustness results insist on a further constraint: define ‘more’ broadly enough to include downstream social effects, then test, because the very same cut that lowers VRAM might raise disparities if you do not audit it (🔗; 🔗). (ACL Anthology)

Seen in this light, ‘less is more’ has not finished traveling. The next stops are visible in today’s conference programs and preprints: selection methods that algorithmically maximize information gain under diversity constraints, surveys that turn one-off tricks into recipes, and pipelines that treat synthetic-data generation and selection as a single loop rather than two separate crafts (🔗; 🔗; 🔗; 🔗). What will remain constant is the discursive function that Žižekian Analysis isolates: under the stress of speed, cost, and competition, a simple phrase can be a pressure valve that turns constraint into orientation. In LLMs, that phrase has helped the field remember that structure beats bulk, and that the right cut, made at the right seam, can be more productive than another order of magnitude. (ACL Anthology)

In the most recent extension of this arc, studies like ‘Less is More: Recursive Reasoning with Tiny Networks’ make the trajectory explicit: rather than spreading reasoning across massive parameter counts, they discipline iterative/recursive steps inside small, carefully designed networks, refine data selection and prompt design, and reallocate compute budgets in favor of accuracy. When fused with lessons from high-SNR training sources such as TinyStories, this shows that ‘less’ is not merely compression or label austerity but the organization of reasoning; under the right rules and sampling regimes, tiny networks can gradually assemble long-chain inference, enabling a more predictable and auditable production practice across both training and inference.


‘Weniger ist mehr’ bei großen Sprachmodellen: von einer klugen Randbemerkung zu einer Austeritätskalkulation

Der Slogan ‘weniger ist mehr’ trat in die LLM-Debatte als Gegenrhythmus zu der nach 2018 verbreiteten Annahme ein, dass Skalierung die meisten Falten glattziehen würde. Um zu verstehen, wie er sich verbreitet hat, hilft es, zunächst zu klären, was die Wendung im Diskurs tut, bevor man bilanzierend aufzählt, was sie in den Laboren bewirkt hat. Auf der Seite ist ‘weniger ist mehr’ eine Erlaubnis, kein Beweis: eine kompakte Art, den Ausfransungsdruck der Optionen zu stoppen und eine Beschränkung – Geld, Speicher, Latenz, Label-Budgets – in Methode zu verwandeln. Žižekian Analysis liest die Titelschablonen des Feldes als Meistersignifikanten, die Aufmerksamkeit unter Druck stabilisieren, und die Diskussion zu ‘X is all you need’ macht die Geste lesbar: Erkläre Genügsamkeit und du erkaufst dir Zeit zum Arbeiten trotz Chaos (🔗). In der LLM-Ära wurde ‘weniger ist mehr’ zur verwandten Geste, die keinen Abschluss beansprucht; sie behauptet, dass ein sorgfältiger Schnitt – weniger Labels, weniger feinabgestimmte Gewichte, weniger aktive Parameter, weniger Bits, weniger Beispiele – pro Budgeteinheit mehr Leistungsfähigkeit erbringen kann, wenn der Schnitt an der richtigen Naht erfolgt. (🔗)

Die erste breit geteilte Ausformulierung davon in der LLM-Alignmentliteratur war LIMA, das ein 65B-Parameter-Modell bewusst mit nur eintausend handkuratierten Prompt–Antwort-Paaren und ohne Reinforcement Learning feinabstimmte. Die Kernbehauptung der Arbeit lautet nicht, dass Kleinstmengen an Daten Wissen herbeizaubern, sondern dass das Vortraining es bereits trägt; das kleine, saubere Set lehrt Form, Stimme und Verweigerung. Das gemessene Ergebnis – dass menschliche Beurteiler LIMA-Antworten überraschend oft deutlich teureren Baselines vorzogen – ließ ‘weniger ist mehr’ operativ wirken, nicht romantisch (🔗; PDF: 🔗). Was von LIMA ausstrahlte, war eine Haltung: skaliere fürs Vortraining, übe dann Austerität im Alignment. (🔗)

Sobald diese Haltung existierte, gaben andere Teams ihr andere Hebel. Microsofts Phi-Reihe verkleinerte nicht die Labels; sie verkleinerte das Chaos. ‘Textbooks Are All You Need’ argumentierte, dass kleine Modelle, trainiert auf ‘Lehrbuch-Qualität’-Quellen – plus synthetischen Lehrbuchaufgaben –, bei Codieraufgaben weit über ihrer Größe boxen können, weil kuratierte Klarheit das Signal-Rausch-Verhältnis hebt, das reine Skalierung allein nicht garantiert. Der Punkt ist konkret: tausche mehr Daten gegen bessere Daten und die Kurve hebt sich – innerhalb der Grenzen von Domäne und Modellgröße (🔗; Erklärseite: 🔗). Hier bezeichnet ‘weniger’ weniger unordentliche Tokens, nicht weniger Tokens an sich. (🔗)

Ein anderer Ast behandelte ‘weniger’ als Laufzeitminimalismus statt als Datenset-Minimalismus. Spärliche Aktivierung machte die Idee buchstäblich: Ein Switch Transformer leitet jedes Token zu ein oder zwei Experten und hält die FLOPs pro Token nahezu konstant, während die Gesamtkapazität wächst. Das ist weniger Modellnutzung pro Beispiel bei mehr Gesamtspielraum und rückte die Parameterzählung in der öffentlichen Diskussion zurecht: Eine Billion Parameter kann eine Effizienzstrategie sein, wenn sie größtenteils schlafen (🔗; Journalversion: 🔗). Der Slogan wanderte hier als Systemversprechen – weniger aktive Rechenarbeit für mehr Leistungsfähigkeit – und nicht als Datenversprechen. (🔗)

Kompression trieb die Reise weiter und näher an den Einsatz. SparseGPT zeigte erstmals auf GPT-Skala, dass man die Hälfte oder mehr der Modellgewichte in einem einzigen Schritt mit minimalem Perplexitätsverlust ausdünnen kann – und das binnen Stunden für Modelle der 100B-Klasse. Spätere Frameworks machten ähnliche Argumente für Bits: SqueezeLLM drückte die Post-Training-Quantisierung auf drei Bits herunter, während die Qualität auf gängigen Benchmarks überraschend gut erhalten blieb. In beiden Fällen wurde ‘weniger’ zu einem Regler für Speicher und Latenz, den Produktteams spüren konnten – kürzere Time-to-First-Token, schmalere VRAM-Haushalte, dichtere Mandantenbelegung –, während das Modellverhalten erkennbar intakt blieb (🔗; OpenReview-PDF: 🔗; SqueezeLLM-Paper: 🔗; Repo: 🔗). Der Pfad des Slogans durch die Kompression verankerte ihn in Dashboards und Abrechnungen, nicht nur in Leaderboards. (🔗)

Ein späterer, markanter Halt der Reise rahmte ‘weniger’ auf Denken neu. Die LIMO-Arbeit synthetisierte ein winziges, chirurgisches Set überwachter Beispiele – Hunderte, nicht Hunderttausende –, gestaltet als ‘kognitive Schablonen’, die Prozess lehren statt Antworten zu rekapitulieren, und berichtete dann große Sprünge auf harten Mathematik-Benchmarks samt ungewöhnlicher Generalisierung außerhalb der Verteilung. Ob jede Zahl künftiger Prüfung standhält, der begriffliche Export ist klar: Wenn das Vortraining die Domäne bereits kodiert, kann ein kleines, gut gezieltes Ensemble von Beispielen den Schalter umlegen, der dem Modell beibringt, zu nutzen, was es weiß (🔗). Das ist ‘weniger ist mehr’ als Pädagogik statt Austerität: weniger Lektionen, mehr Transfer. (🔗)

Datenauswahl reifte diese Pädagogik zur Routine. Übersichtsarbeiten bündeln mittlerweile Verfahren, den richtigen Bruchteil von Anweisungen statt den ganzen Heuhaufen zu wählen, und konkrete Methoden zeigen, dass ein bis zwölf Prozent eines Datensatzes, gewählt nach Diversität, Schwierigkeit, Verlässlichkeit oder erwartetem Einfluss, das Tuning auf dem vollen Set übertreffen können. Der Princeton-LESS-Blog skizzierte diese Intuition früh für Transferszenarien; ICLR- und NeurIPS-Arbeiten haben seither abdeckungsbewusste oder nachbarschaftsbasierte Auswahl operationalisiert, teils schlagen sie Voll-Daten-Baselines bei einem Prozent. Das expliziteste ‘weniger ist mehr’-Banner hier ist eine ICLR-25-Studie, die adaptive Abdeckungsstichprobe für synthetische Daten formalisiert und bessere Klassifikatoren berichtet als das Training auf dem gesamten synthetischen Pool. Die Geschichte, die der Slogan an dieser Station erzählt, ist keine Askese, sondern Messung: Man erkauft sich ‘mehr’, indem man Redundanz misst, Rauschen filtert und Fähigkeitsflächen ausbalanciert. Die einschlägigen Links eröffnen diese Entwicklungen und ihre programmatischen Übersichten (🔗; Survey v2: 🔗; JAIR-Version: 🔗; NAACL-24 Self-Guided Selection: 🔗; NeurIPS-24 TSDS: 🔗; ICLR-25 Coverage-Paper-Seite: 🔗; arXiv-Spiegel: 🔗). (🔗)

Als sich der Slogan in die Deployment-Stacks hinein ausbreitete, lernte das Feld auch, ein Fragezeichen hinzuzufügen. ‘Weniger’ kann verschieben, wer profitiert. ACL- und AAAI-Studien zu Fairness und Kompression zeigen, dass Ausdünnung und manche Quantisierungsstrategien demografische Verzerrungen verändern können, auf die der Durchschnitts-Score nicht hindeutet; andere Arbeiten legen nahe, dass einige Formen der Kompression Verzerrungen herunterregularisieren können, während wiederum andere inkonsistente, modellabhängige Ausschläge zeigen. NAACL-25 zeigt im Detail, wie Entscheidungen zur Inferenze-Beschleunigung Bias und sogar Antwortlänge verändern. Die praktische Implikation dieses warnenden Reisekapitels ist, ‘weniger’ als systemweite Intervention mit zu messenden sozialen Effekten zu behandeln, nicht als magisches Synonym für Eleganz. Das aufkommende Genre ‘faire Quantisierung’ macht denselben Punkt als Entwurfsprinzip, indem Gruppenfairness direkt in das Rundungsziel eingebettet wird. Das ist der Slogan im Erwachsenwerden: ‘mehr’ muss mehr Gerechtigkeit einschließen, nicht nur mehr Tokens pro Sekunde (🔗; AAAI-24-Version: 🔗; NAACL-25: 🔗; arXiv-Vorabdruck zu biasbewusster Quantisierung: 🔗; zugehörige EMNLP-23-Kompressionsanalyse: 🔗). (🔗)

Diese Episoden zusammengebunden, lässt sich ein roter Faden erkennen, der auch ohne Vorwissen greifbar ist. In jedem Fall ist ‘weniger’ nicht weniger Arbeit; es ist ein präziserer Schnitt. Tausend Beispiele zu kuratieren ist schwieriger, als eine Million zu schürfen; einen Router zu entwerfen, der Expert:innen-Balance hält, ist schwieriger, als dichte Schichten zu stapeln; robuste Drei-Bit-Quantisierung zu erreichen, ist schwieriger, als alles in Float zu lassen. Der Slogan überdauert, weil er Ingenieur:innen sagt, wo Aufwand zu investieren ist, wenn äußere Grenzen drücken. Durch die Linse von Žižekian Analysis gelesen, funktioniert er wie ein minimales Verbot, das Handeln ermöglicht: Indem bestimmte Arten von ‘mehr’ – mehr lärmige Tokens, mehr dichte Rechenarbeit, mehr Rater:innenstunden – untersagt werden, wird ein Weg freigemacht, ohne vorzugeben, das Feld zu schließen (🔗). (🔗)

Diese Lesart erklärt auch, warum der Slogan sein Objekt ständig wechselt. Zuerst bezog er sich auf Labels und Instruction-Tuning-Stacks, weil dort Kosten und Mode kollidierten. Als Inferenzbudgets dominierten, wanderte er zu Ausdünnung und Quantisierung und dann zur Aktivierungssparsamkeit. Als Denkbenchmarks zur Statussprache wurden, ging er weiter zu exquisit kleinen, prozesslehrenden Datensätzen. Und als synthetische Daten Repos fluteten, wechselte er zu Abdeckung und Auswahl. Keine dieser Wanderungen widerspricht den anderen; es sind Phasen einer einzigen Austeritätskalkulation, deren Regel einfach ist: Masse durch Struktur ersetzen. In der Praxis kann das bedeuten, dass Daten in Lehrbuchqualität generische Web-Dumps ersetzen, spärliche Aktivierung monolithische dichte Rechenarbeit ersetzt, abdeckungsbewusste Stichprobe das Horten ersetzt oder ein paar hochhebelige Demonstrationen einen Teppich aus Labels ersetzen (🔗; 🔗; 🔗; 🔗; 🔗). (🔗)

Weil es eine Kalkulation und kein Credo ist, kommt der Slogan mit Bedingungen, die auch Neulinge prüfen können. Er funktioniert am besten, wenn das Vortraining die Domäne, die dich interessiert, bereits kodiert, sodass eine kleine Zahl an Beispielen Form oder Prozess statt Inhalte lehren kann; er funktioniert, wenn du das Signal-Rausch-Verhältnis durch Kuration, Routing oder Diskretisierung messbar erhöhen kannst; er funktioniert, wenn deine wirkliche Engstelle nicht Benchmark-Punkte sind, sondern Budgets, Verzögerungen oder Governance. Fehlen diese Bedingungen, kollabiert ‘weniger’ zur Pose; es wird Minimalismus als Stil. Die Literatur ist zu diesen Rändern explizit, und die Bias/Robustheits-Resultate insistieren auf einer weiteren Nebenbedingung: Definiere ‘mehr’ breit genug, um nachgelagerte soziale Effekte einzuschließen, und prüfe sie – denn derselbe Schnitt, der VRAM senkt, könnte Disparitäten erhöhen, wenn du ihn nicht auditierst (🔗; 🔗). (🔗)

In diesem Licht betrachtet, hat ‘weniger ist mehr’ seine Reise nicht beendet. Die nächsten Stationen sind in heutigen Konferenzprogrammen und Preprints sichtbar: Auswahlverfahren, die Informationsgewinn unter Diversitätsnebenbedingungen algorithmisch maximieren, Übersichten, die Einzelkniffe in Rezepte verwandeln, und Pipelines, die die Erzeugung und Auswahl synthetischer Daten als eine einzige Schleife statt als zwei getrennte Gewerke behandeln (🔗; 🔗; 🔗; 🔗). Konstante bleibt die diskursive Funktion, die Žižekian Analysis isoliert: Unter dem Stress von Tempo, Kosten und Konkurrenz kann eine einfache Wendung ein Druckventil sein, das Beschränkung in Orientierung verwandelt. In LLMs hat diese Wendung dem Feld in Erinnerung gerufen, dass Struktur Massigkeit schlägt – und dass der richtige Schnitt, an der richtigen Naht gesetzt, produktiver sein kann als eine weitere Größenordnung. (🔗)

In der jüngsten Fortsetzung dieser Entwicklungslinie machen Arbeiten wie ‘Less is More: Recursive Reasoning with Tiny Networks’ die Richtung deutlich: Statt Schlussfolgern über riesige Parameterbestände zu verteilen, werden iterative/rekursive Schritte in kleinen, sorgfältig gestalteten Netzen diszipliniert, Datenauswahl und Prompt-Design verfeinert und Rechenbudgets zugunsten von Genauigkeit neu zugewiesen. In Kombination mit Erkenntnissen aus hoch-SNR-Trainingsquellen wie TinyStories zeigt sich, dass ‘weniger’ nicht bloß Kompression oder Label-Sparsamkeit bedeutet, sondern die Organisation des Denkprozesses; unter den richtigen Regeln und Sampling-Regimen können winzige Netze schrittweise langkettige Inferenz aufbauen und so eine vorhersehbarere, besser prüfbare Produktionspraxis im Training wie auch in der Inferenz ermöglichen.

6 comments

Comments are closed.