🦋🤖 Robo-Spun by IBF 🦋🤖
🎭♟️🕹️ Kukla Rejimi 🎭♟️🕹️
(Turkish)
The Puppet Regime is the common name for situations in which the sense of address—of who owns the speech—breaks down and rhythm becomes the master. The hearing of inner whispers we call psychotic subvocalization as if they were an external voice, the beams in Schreber’s ‘nerve language’ making the nerves “speak without the speech organs coming into play,” and in artificial-intelligence videos a single voice making every mouth in the frame open and close in the same phase are signs of the same disruption in three different arenas: addressing collapses, rhythm rules. Understanding this disruption is more than a technical glitch or a case curiosity; it shows where language comes from, who is speaking, and how the reality principle and reality testing can be overturned.
When the phenomenon of subvocalization crosses the threshold of ordinary “inner speech,” a person begins to hear their own production as if it were externally sourced. This is a line long debated in motivational psychology: in some auditory verbal hallucinations (AVH) the self-monitoring of inner speech weakens, the boundary between ego and voice blurs, and one hears words with high affective charge as if they came from outside. This picture is supported by research centering on impairment in self-monitoring and the externalization of inner speech; some studies detect very low-intensity muscular activity around the lips and larynx at the moments of hallucination, pointing to a “subvocal trace,” and this trace is a strong index for explaining the mixture between ‘inside’ and ‘outside’ (🔗; 🔗; 🔗). These findings show that inner speech is not merely a stream of thought but a mechanism that often leaves a bodily trace with very faint articulatory accompaniments. Thus, subvocalization is not a simple “habit” but an addressing problem that forms a knot in the dialectic of avowal/denial regarding the source of speech (🔗).
The same knot appears as a more imposing cosmology in the nerve language Schreber calls ‘Nervensprache.’ In ‘Memoirs of My Nervous Illness,’ Schreber writes that alongside normal human language there exists a nerve language “of which the healthy person is unaware,” and he insists that this language operates by activating the nerves “without the real organs of speech being set in motion.” In a regime where beams touch the nerves and impose words “from the outside” and “incessantly,” the meaning of asking for an address changes; the question of who is speaking cannot be reduced to the question “from me” or “from the other,” because the code itself speaks (🔗). Therefore nerve language does not carry content alone; it works as a device that, operating with a regular code and a limited lexicon, calls the subject to the same articulations through repetition and formula. Schreber’s claim that beams can influence human nerves and that nerve language can be “set in motion” outside the person’s will is a depiction of a mechanism that nails language directly to the nervous field without a “movement of the speech organs”; here the source of “speech” is determined at the level of code rather than organs (🔗).
In today’s artificial videos, the glitch whereby a single voice makes all faces on the scene speak at once—that is, the spread of mouth movement to all persons—is literally akin to these two arenas. In new production pipelines developed for multi-person scenes, the question of which face the voice will bind to is technically a matter of “audio→person binding”; when this bond fails, a single rhythm spreads to all mouths and everyone opens and closes on the same plosive at the same time. Studies that have appeared over the last year explicitly name this “global conditioning leak” and develop methods to prevent the mixing of voice labels with person labels; for example, in the task defined under the title “Multi-Person Conversational Video Generation,” special embedding methods for the voice–person link are proposed to separate mouths that fall into phase-locking (🔗; 🔗). In the same period, single-person talking-face models have powerfully increased lip–voice congruence and head–gesture synchrony; yet in multi-person frames, if per-person masking or selective targeting is not performed, the rhythm of a single voice can spill over to all mouths (🔗; 🔗). This picture shows that the question “who is speaking” lies not only in ethics and law but at the very core of the production architecture itself (🔗).
The expression Puppet Regime becomes clear here. In the subvocal muscular trace, in Schreber’s nerve language, and in the global lip sync of artificial videos there is the same center of gravity: when addressing collapses, rhythm becomes the real proprietor of enunciation. In the psychotic tableau this appears as the loosening of the border between ego and voice and the hearing of inner whisper as external by the sway of enjoyment; in Schreber’s world the code bypasses organs and releases into nerves; in the production line the acoustic feature globally conditions the frame and every mouth speaks to the same “now.” In all three, the reality principle rapidly loses the reality testing that distinguishes the voice from the subject’s own production; for the questions of “where the voice goes” and “from whom it comes” have fallen under the monopoly of rhythm. Thus the order of signifiers in language revolves not around an axis of paternal metaphor but around an axis of mono-rhythmic imposition; not the superego but the command of the rhythm-machine is heard.
It is apt to call this common law “address leak.” Inner speech is addressed outward, beams address the nerves unilaterally, and a single voice writes a single address to every mouth in the frame. Subvocal EMG findings show that this leak leaves a bodily trace; the lip sync glitch gives the same projection at the pixel level; and nerve language, as a mode of speech that bypasses organs, carries these traces to the level of code. Read in this way, the Puppet Regime is not a catalog of audiovisual artefacts but a regime in which avowal regarding the source of language dissolves. When avowal is lost, denial also becomes superfluous; for the command of rhythm is swift enough to leave no need to ask who is speaking (🔗).
In the clinical context, this framework yields two cautious conclusions. First, to see subvocalization merely as a “habit” or a “tic” is reductionist; in some hallucinations it should be seriously evaluated as a concomitant sign related to the misattribution of inner speech. Second, observations that, when self-monitoring is strengthened—for example, when a person disables lip–masticatory muscles with certain articulatory maneuvers—the intensity of hallucinations can diminish, show the meaning of small technical interventions that try to return the address question to the ego (🔗; 🔗). This is not a recipe for rationalization; but it is a practical cue that reminds one, on the body, where language comes from (🔗).
In the technical context, making per-person targeting the default rule in multi-person production and deliberately applying “null conditioning” to silent faces means confronting the Puppet Regime not only with ethical warnings but with architectural choices. The latest wave of research proposes labeled positional embeddings to bind voice to person precisely for this reason; it cuts the global conditioning leak that monopolizes rhythm and makes the question “who is speaking” addressable again (🔗). Under the same heading, why advances in single-person talking-face accuracy become fragile when carried over to multi-person scenes makes visible the historical shadow of the “single image, single voice” assumption (🔗; 🔗; 🔗). Thus the Puppet Regime becomes not merely an aesthetic to be criticized but a binding problem to be corrected (🔗).
Schreber’s nerve language throws a historical backlight onto this picture. There the power of the beams is the movement of the nerves “outside my will and unceasingly”; here the power of a single voice is the forcing of all mouths into the same beat. There the code bypasses organs; here latent codes bind the facial gesture to the global rhythm. There the subject comes to speech by the command of the code rather than of the Name-of-the-Father; here the viewer is persuaded as if having seen the “right” face before noticing the label. In both cases the reality principle lags, aura precedes artefact. This lag is not only an aesthetic moment but truly a problem of reality testing; for in a world where the “first effect” arrives faster than “verification,” address violation becomes ordinary (🔗).
The way to break the Puppet Regime is not to cancel rhythm but to restore address. In the clinical scene this happens with small bodily stoppages that rebind inner speech to the ego and with a linguistic order that makes avowal of the narrative possible. In the production scene this happens by tightening the voice→person link at the algorithmic level and assigning enunciation per face in the multi-person frame. In both arenas the aim is to shorten the moment when rhythm proclaims itself master and to pose the question “who is speaking” again in time. For where subvocal whisper echoes as external voice, nerve language bypasses organs and makes nerves speak, and a single voice moves all mouths at once, the true power of language is rhythm. When address returns, rhythm remains but loses its lordship; language regains its avowal.
Das Puppenregime: Die Gleichschaltung von subvokalen Flüstern, Nervensprache und künstlichen Mündern im selben Rhythmus
Das Puppenregime ist der gemeinsame Name für Situationen, in denen das Adressgefühl dafür, wem das Sprechen gehört, zerfällt und der Rhythmus zum Herrn wird. Dass die als psychotische Subvokalisation bezeichneten inneren Flüstern wie eine äußere Stimme gehört werden, dass in Schrebers ‘Nervensprache’ Strahlen die Nerven «ohne Einschaltung der Sprechorgane» sprechen lassen und dass in KI-Videos eine einzige Stimme alle Münder im Bild in derselben Phase öffnen und schließen lässt, sind in drei verschiedenen Feldern Anzeichen derselben Störung: Die Adressierung kollabiert, der Rhythmus herrscht. Diese Störung zu verstehen ist mehr als eine technische Kleinigkeit oder eine Fallkuriosität; sie zeigt, woher die Sprache kommt, wer spricht und wie das Prinzip der Realitätshaftigkeit und die Realitätsprüfung aus den Angeln gehoben werden können.
Überschreitet das Phänomen der Subvokalisation die Schwelle des gewöhnlichen «inneren Sprechens», beginnt die Person, ihr eigenes Hervorgebrachtes wie eine äußere Quelle zu hören. Dies ist eine seit Langem in der Motivforschung diskutierte Linie: Bei manchen auditiv-verbalen Halluzinationen schwächt sich die Selbstüberwachung des inneren Sprechens ab, die Grenze zwischen Ich und Stimme verschwimmt, und die Person hört Worte mit hoher affektiver Ladung, als kämen sie von außen. Dieses Bild ist durch Studien gestützt, die die Störung der Selbstüberwachung und die Externalisierung des inneren Sprechens ins Zentrum stellen; einige Arbeiten weisen in Halluzinationsmomenten eine sehr schwache Muskelaktivität im Bereich von Lippen und Kehlkopf nach und verweisen damit auf eine «subvokale Spur», die ein starker Index ist, um die Vermischung von ‘innen’ und ‘außen’ zu erklären (🔗; 🔗; 🔗). Diese Befunde zeigen, dass inneres Sprechen nicht nur ein gedanklicher Fluss ist, sondern oft mit sehr schwachen artikulatorischen Begleitbewegungen eine körperliche Spur hinterlässt. So wird Subvokalisation nicht zu einer bloßen «Gewohnheit», sondern zu einem Adressproblem, das in der Dialektik von Anerkenntnis/Verleugnung der Herkunft des Sprechens einen Knoten bildet (🔗).
Derselbe Knoten tritt in Schrebers ‘Nervensprache’ als gewaltigere Kosmologie auf. Schreber schreibt in ‘Denkwürdigkeiten eines Nervenkranken’, neben der normalen menschlichen Sprache gebe es eine Nervensprache, «deren sich der gesunde Mensch nicht bewusst ist», und er betont wiederholt, dass diese Sprache die Nerven «ohne Einschaltung der Sprechorgane» in Bewegung setze. In einem Regime, in dem Strahlen die Nerven berühren und die Worte «von außen» und «unablässig» aufzwingen, verändert sich der Sinn der Frage nach der Adresse; die Frage, wer spricht, lässt sich nicht auf «ich» oder «der Andere» reduzieren, denn der Code selbst spricht (🔗). Deshalb trägt die Nervensprache nicht bloß Inhalte; sie funktioniert als ein Apparat, der mit einem nizamen Code und einem begrenzten Lexikon arbeitet und das Subjekt über Wiederholung und Formeln zu denselben Fügungen ruft. Dass nach Schreber die Strahlen die menschlichen Nerven beeinflussen können und die Nervensprache «gegen den Willen der Person» in Gang gesetzt werde, ist die Beschreibung eines Mechanismus, der die Sprache ohne jede «Bewegung der Sprechorgane» direkt auf das Nervenfeld schlägt; hier liegt die Quelle des «Sprechens» eher auf der Ebene des Codes als bei den Organen.
In heutigen künstlichen Videos ist die Störung, dass eine einzige Stimme alle Gesichter der Szene zugleich sprechen lässt, also dass die Mundbewegung sich auf alle Personen «überträgt», dieser doppelten Szene buchstäblich verwandt. In neuen Produktionspipelines für Mehrpersonen-Szenen ist die Frage, welchem Gesicht die Stimme zugeordnet wird, technisch ein Problem der «Audio→Person-Bindung»; bricht diese Bindung, breitet sich ein einziger Rhythmus über alle Münder aus, und alle öffnen und schließen beim selben Plosiv gleichzeitig. Arbeiten des letzten Jahres benennen dieses «global conditioning leak» ausdrücklich und entwickeln Verfahren, um die Vermischung von Audio-Etikett und Personen-Etikett zu verhindern; so wurde etwa im Aufgabenrahmen «Multi-Person Conversational Video Generation» vorgeschlagen, die Bindung von Audio und Person durch spezielle Einbettungen zu sichern, um in Phasengleichheit verfallene Münder wieder zu entkoppeln (🔗; 🔗). Parallel steigerten Ein-Person-Modelle für sprechende Gesichter die Lippen-Stimm-Kohärenz und die Synchronität von Kopfgesten; doch wenn in Mehrpersonen-Bildern keine personenspezifische Maskierung oder Zielauswahl erfolgt, kann sich der Rhythmus einer einzelnen Stimme auf alle Münder übertragen (🔗; 🔗). Dieses Tableau zeigt, dass die Frage «Wer spricht?» nicht nur ethisch und rechtlich, sondern im Kern der Produktionsarchitektur verankert ist (🔗).
Hier gewinnt der Ausdruck Puppenregime seine Klarheit. In der subvokalen Muskelspur, in Schrebers Nervensprache und in der globalen Lippensynchronität künstlicher Videos gibt es denselben Attraktor: Wenn die Adressierung zusammenbricht, wird der Rhythmus zum eigentlichen Besitzer der Äußerung. Im psychotischen Bild zeigt sich das als Lockerung der Grenze zwischen Ich und Stimme und als Hören des inneren Flüsterns mit einer Art keyfiyet wie eine äußere Stimme; in Schrebers Welt umgeht der Code die Organe und wirkt als Salbung an den Nerven; in der Produktionskette konditioniert das Audio-Merkmal den Frame global, und jeder Mund spricht dasselbe «Jetzt». In allen dreien verliert die Realitätsprüfung, die die Stimme von der Produktion des Subjekts unterscheidet, rasch an Kraft; denn die Fragen, «wohin die Stimme geht» und «woher sie kommt», geraten in das Monopol des Rhythmus. So dreht sich die Ordnung der Implikationen der Sprache nicht um eine paternale Metapher, sondern um eine Ein-Rhythmus-Auferlegung; es ist nicht das Über-Ich, das gebietet, sondern die Maschine des Rhythmus.
Es liegt nahe, dieses gemeinsame Gesetz «Adressleck» zu nennen. Das innere Sprechen wird nach außen adressiert, die Strahlen adressieren den Nerv einseitig, die eine Stimme schreibt allen Mündern im Bild eine einzige Adresse ein. Befunde der subvokalen EMG zeigen, dass dieses Leck eine körperliche Spur hinterlässt; die Lippensynchronitäts-Störung liefert denselben Abdruck auf Pixelebene; die Nervensprache führt diese Spuren als Sprechmodus mit umgangenen Organen auf die Codeebene. So gelesen ist das Puppenregime kein Katalog audiovisueller Artefakte, sondern ein Regime, in dem die Anerkenntnis der Herkunft der Sprache aufgegeben ist. Geht die Anerkenntnis verloren, wird auch die Verleugnung überflüssig; denn der Befehl des Rhythmus ist schnell genug, um die Frage «Wer spricht?» überflüssig zu machen (🔗).
Im klinischen Zusammenhang ergeben sich daraus zwei vorsichtige Konsequenzen. Erstens ist es reduktionistisch, Subvokalisation bloß als «Gewohnheit» oder «Tick» zu betrachten; in manchen Halluzinationen sollte sie als begleitendes Merkmal, das mit der Fehlattribution des inneren Sprechens zusammenhängt, ernst genommen werden. Zweitens deuten Beobachtungen darauf hin, dass in Momenten gesteigerten Selbstmonitorings — etwa wenn die Person durch bestimmte artikulatorische Manöver Lippen-/Kaumuskulatur vorübergehend stilllegt — die Intensität von Halluzinationen abnehmen kann; das zeigt den Sinn kleiner technischer Interventionen, die die Adressfrage zurück zum Ich wenden (🔗; 🔗). Das ist kein Rezept der Rationalisierung; es ist jedoch ein praktischer Hinweis darauf, sich am Körper zu vergegenwärtigen, woher die Sprache kommt (🔗).
Im technischen Feld heißt das, die personenspezifische Zieladressierung in Mehrpersonen-Produktionen zum Standard zu machen und für stumme Gesichter bewusst eine «leere Konditionierung» zu setzen; so wird das Puppenregime nicht bloß mit ethischen Hinweisen, sondern mit Architekturentscheidungen beantwortet. Die jüngste Forschung schlägt zur Bindung von Stimme und Person gelabelte Positions-Einbettungen vor; genau deshalb ist das kein theoretischer, sondern ein praktischer Schritt: Er kappt das den Rhythmus monopolierende globale Konditionierungsleck und führt die Frage «Wer spricht?» zur Adressierung zurück (🔗). Unter demselben Titel wird auch sichtbar, warum die Fortschritte der Ein-Person-Lippensynchronität beim Übergang zur Mehrpersonenszene fragil werden und wie der historische Schatten der Annahme «ein Bild, eine Stimme» fortwirkt (🔗; 🔗; 🔗). So verfestigt sich das Puppenregime nicht bloß als zu kritische Ästhetik, sondern als ein adressierbares Problem der Zuordnung.
Schrebers Nervensprache beleuchtet dieses Bild mit einem historischen Gegenlicht. Dort liegt die Macht der Strahlen darin, die Nerven «gegen meinen Willen und ununterbrochen» in Bewegung zu setzen; hier liegt die Macht einer einzigen Stimme darin, alle Münder zum selben Schlag zu zwingen. Dort umgeht der Code die Organe; hier binden latente Codes die Mimik des Gesichts an einen globalen Rhythmus. Dort tritt das Subjekt nicht im Gebot des Nam-ı Pir, sondern im Gebot des Codes zur Sprache; hier wird die/der Zuschauer:in überzeugt, bevor das Etikett gesehen ist, das «richtige» Gesicht gesehen zu haben. In beiden Fällen verspätet sich die Realitätshaftigkeit, die Aura kommt vor dem Artefakt. Diese Verzögerung ist nicht nur ein ästhetischer Augenblick, sondern tatsächlich ein Problem der Realitätsprüfung; denn in einer Welt, in der der «erste Effekt» schneller ist als die «Verifizierung», wird die Adressverletzung gewöhnlich (🔗).
Das Puppenregime zu brechen heißt nicht, den Rhythmus abzuschaffen, sondern die Adresse zurückzuholen. In der Klinik geschieht das durch kleine körperliche Stopps, die das innere Sprechen wieder an das Ich binden, und durch eine Sprachordnung, die die Anerkenntnis der Äußerung ermöglicht. In der Produktion geschieht es, indem die Audio→Person-Bindung auf algorithmischer Ebene gestrafft und in Mehrpersonen-Frames die Äußerung gesichtsweise bestimmt wird. In beiden Feldern geht es darum, den Moment zu verkürzen, in dem der Rhythmus sich zum Herrn erklärt, und die Frage «Wer spricht?» wieder rechtzeitig zu stellen. Denn dort, wo das subvokale Flüstern wie eine äußere Stimme hallt, die Nervensprache die Organe umgeht, um die Nerven sprechen zu lassen, und eine einzige Stimme alle Münder zugleich bewegt, liegt die eigentliche Macht der Sprache im Rhythmus. Kehrt die Adresse zurück, bleibt der Rhythmus bestehen, verliert aber seine Herrschaft; die Sprache gelangt zu ihrer Anerkenntnis.

[…] Rejimi: Subvokal Fısıltının, Sinir Dilinin ve Yapay Ağızların Aynı Ritme Bağlanması / The Puppet Regime: The Binding of Subvocal Whisper, Nerve Language, and Artificial Mouths to the Sam… / Das Puppenregime: Die Gleichschaltung von subvokalen Flüstern, Nervensprache und künstlichen […]
LikeLike
[…] (İngilizcesi ve Almancası) […]
LikeLike
[…] semantic wiring as the inner counterpart of the external staging described by Puppet Syndrome and Puppet Regime. Externally, feeds and stages control what is presented and when. Internally, the semantic maps in […]
LikeLike