Making Spoken Dialogue Models See the Face An explicit turn-taking objective unlocks visual turn cues that next-token audio prediction ignores 音声対話モデルに顔を「見せる」 明示的なターンテイキング目的関数が、next-token 音声予測では無視される視覚的ターン交代手がかりを引き出す

Anonymous authors — under review 匿名著者 — 査読中
Paper (coming soon)論文(準備中) arXiv (coming soon)arXiv(準備中) Code (coming soon)コード(準備中)
The model watching a conversation end. A single forward pass over a real MultiDialog conversation. Top: ground-truth speaker activity. Second: the model's per-frame P(yield) — its running belief that the current speaker is about to hand over the floor — computed from audio plus the interlocutor's facial coefficients. Bottom: the facial channels it relies on (gaze, mouth, head rotation). Play with sound: the sharp ramps align with the actual hand-offs. 会話の終わりを「見ている」モデル。実際の MultiDialog の会話 1 本に対する 単一の forward pass。上段: 正解の話者アクティビティ。2 段目: モデルのフレームごとの P(yield) — 「いま話している話者がまもなく発話権を譲る」というモデルの逐次的な確信度。 音声に加えて対話相手の顔係数から計算される。下段: モデルが依拠する顔チャネル (視線・口・頭部回転)。音を出して再生すると、急峻な立ち上がりが実際の話者交代と一致する。
TL;DR — We feed a full-duplex spoken dialogue model (Moshi-style) a 12.5 Hz facial-coefficient stream of its interlocutor. The face demonstrably carries turn-taking signal, but the standard next-token audio objective ignores it entirely. Adding one lightweight auxiliary turn-yield head makes the model use it: +0.094 ROC-AUC on MultiDialog, replicated at +0.038 on Seamless Interaction with an identical training budget. Cross-corpus attribution shows head rotation is the only camera-robust facial cue — gaze and mouth contributions flip with framing. 要約 — full-duplex 音声対話モデル(Moshi 系)に、対話相手の顔係数ストリーム (12.5 Hz)を入力する。顔にはターンテイキングの信号が確かに含まれているが、標準的な next-token 音声予測の目的関数はそれを完全に無視する。軽量な補助タスク (turn-yield head)を 1 つ加えるだけでモデルは顔を使い始め、MultiDialog で ROC-AUC +0.094、同一の学習予算の Seamless Interaction でも +0.038 と 再現された。コーパス横断の寄与分析では頭部回転だけがカメラ構図に頑健な顔手がかりであり、 視線と口の寄与は構図によって逆転する。

The three-step result3 段階の結果

1
The face carries the signal顔は信号を持っている
AUC 0.76

A simple logistic probe predicts upcoming turn-yield from 1-second windows of raw facial coefficients alone (shuffled-label control: 0.50). 単純なロジスティック回帰プローブが、生の顔係数の 1 秒窓だけから直後のターン譲渡を 予測できる(ラベルシャッフル対照: 0.50)。

2
A vanilla dialogue LM ignores it素の対話 LM はそれを無視する
Δ ≈ 0

Trained with next-token audio prediction only, zeroing the face input changes nothing — the LM routes the face into a subspace orthogonal to its audio predictions. next-token 音声予測のみで学習すると、顔入力をゼロにしても何も変わらない — LM は顔を音声予測と直交する部分空間へ押し込めてしまう。

3
One auxiliary head unlocks it補助 head 1 つで解放される
+0.094 AUC

A single BCE turn-yield head (predict floor hand-over ~1 s ahead) makes the same architecture exploit gaze, head rotation, and mouth. 95% CI [+0.089, +0.099]. BCE の turn-yield head(約 1 秒先の発話権譲渡を予測)を 1 つ足すだけで、同じ アーキテクチャが視線・頭部回転・口を活用するようになる。95% CI [+0.089, +0.099]。

Architectureアーキテクチャ

text tokens main audio (Mimi) other audio (Mimi) face coefficients 61-dim ARKit @ 12.5 Hz head translation zeroed (train+eval) temporal transformer (Moshi backbone, full duplex) next-token heads text / audio / face turn-yield head MLP + BCE, horizon ≈ 1 s the green head is the entire intervention — without it, the face input is dead weight
緑色の turn-yield head が本研究の介入のすべて — これが無いと顔入力はただの死荷重になる。

Face input improves turn prediction — on both corpora 顔入力はターン予測を改善する — 両コーパスで

Turn-yield AUC with and without face input, both corpora
Turn-yield ROC-AUC of the same model with the face input present vs zeroed, paired over identical frames. MultiDialog: 0.810 → 0.905. Seamless: 0.935 → 0.973. Both paired-bootstrap CIs exclude zero. The Seamless margin is smaller because its audio-only baseline is already high. 同一モデルで顔入力あり vs ゼロ化を、同一フレーム上でペア比較した turn-yield ROC-AUC。 MultiDialog: 0.810 → 0.905、Seamless: 0.935 → 0.973。どちらもペアブートストラップの 信頼区間が 0 を含まない。Seamless で差分が小さいのは、音声のみのベースラインが既に 高いため。

Which facial cue? It depends on the camera — except head rotation どの顔手がかりが効くか?カメラ次第 — ただし頭部回転を除いて

Leave-one-group-out AUC drops, MultiDialog vs Seamless
Leave-one-group-out attribution of the trained models. Gaze dominates under MultiDialog's tight face crops (+0.042) but collapses under Seamless's full-body framing (+0.004), where iris tracking degrades; mouth does the reverse. Head rotation is the only channel that stays substantial in both (+0.026 / +0.032). Head translation — a per-clip camera-setup constant — is structurally zeroed and contributes nothing, by design. 学習済みモデルの leave-one-group-out 寄与分析。視線は MultiDialog のタイトな顔クロップ では支配的(+0.042)だが、虹彩トラッキングが劣化する Seamless の全身構図では崩壊する (+0.004)。口はその逆。頭部回転は両者で実質的な寄与を保つ唯一のチャネル (+0.026 / +0.032)。頭部並進はクリップごとのカメラ設置定数であり、設計により構造的に ゼロ化されていて寄与しない。
Group removed除外グループ MultiDialog (v11)Seamless (v12) Reading解釈
eye / gaze視線 +0.042 (dominant)(支配的) +0.004 (collapsed)(崩壊) corpus-dependentコーパス依存
head rotation頭部回転 +0.026 +0.032 (largest)(最大) robust across corporaコーパス横断で頑健
jaw / mouth +0.007+0.028 corpus-dependent (reverse)コーパス依存(逆方向)
brow +0.000+0.004 noiseノイズ
head translation頭部並進 +0.0000.000 zeroed by design設計によりゼロ化

A model trained and attributed on a single corpus would have shipped the claim "gaze drives turn-taking." The replication shows that claim is a property of the camera setup, not of conversation. We argue cross-corpus attribution should be the reporting standard for multimodal dialogue cues. 単一コーパスで学習・寄与分析していたら「ターンテイキングを駆動するのは視線」という主張を 出してしまうところだった。再現実験は、その主張が会話の性質ではなくカメラ設置の性質である ことを示している。マルチモーダル対話手がかりの報告は、コーパス横断の寄与分析を標準と すべきだと我々は主張する。

Watch it run動作デモ

Both are single forward passes of the trained checkpoints over held conversations — no cherry-picked generation, just the model's per-frame belief plotted against what actually happened. どちらも学習済みチェックポイントによる単一 forward pass。生成のチェリーピックではなく、 モデルのフレームごとの確信度を実際に起きたことと並べて描画しただけのものである。

A methodological warning about input ablation 入力 ablation についての方法論的警告

Our first attribution attempt zeroed input dimensions post-hoc at eval time. Because the face encoder normalizes across all 61 dims, partial zeroing pushes the input out of distribution and fabricates attribution: head translation — a constant per clip — appeared to carry a massive +0.278 AUC drop. Re-training with the same dims zeroed consistently at train and eval time removes the artifact (true translation contribution: 0.000) and the face effect itself grows 2.4×, from +0.039 to +0.094. Post-hoc input zeroing through a normalization layer is not a valid ablation. 最初の寄与分析では、評価時に入力次元を事後的にゼロ化していた。顔エンコーダは 61 次元全体で正規化するため、部分的なゼロ化は入力を分布外に押し出し、寄与を捏造する: クリップごとの定数にすぎない頭部並進が +0.278 という巨大な AUC 低下を持つように見えた。 同じ次元を学習時評価時に一貫してゼロ化して再学習するとこのアーティファクトは消え (並進の真の寄与: 0.000)、顔の効果自体も +0.039 から +0.094 へと 2.4 倍に拡大した。 正規化層を通した事後的な入力ゼロ化は、有効な ablation ではない。

BibTeX

@article{anonymous2026face,
  title   = {Making Spoken Dialogue Models See the Face: An Explicit Turn-Taking
             Objective Unlocks Visual Turn Cues That Next-Token Audio Prediction Ignores},
  author  = {Anonymous},
  journal = {Under review},
  year    = {2026}
}