Aizuchi Design

自然な相槌を打つ仕組み

ユーザーが話している最中に、発話の切れ目を検出して
「はい」「ええ」と自然なタイミングで相槌を打ちます。

🎤

音声認識と連携

WebSpeech APIの途中経過テキストをリアルタイムに監視

📐

学術的根拠あり

日本語対話研究の論文をもとにタイミングを設計

🎛

調整可能

デモ画面上のスライダーでリアルタイムにチューニング可能

Key Terms

知っておくべき2つの用語

🔁

相槌（バックチャネル）

話を聞いている側が「はい」「ええ」「なるほど」と短く応答すること。会話分析では Backchannel と呼ぶ。

相槌があると話し手は「聞いてもらえている」と感じ、会話が弾む。逆に無いと一方的に感じる。

Backchannel

🎯

TRP（ターン切れ目）

会話分析の用語 Transition Relevance Place の略。「ここで話者交代してもよい」と感じられる発話の区切りのこと。

「〜ね」「〜て」「〜ですが」など、文節の末尾がTRPになりやすい。相槌もここで打つのが自然。

Turn-taking

TRPの概念は Sacks・Schegloff・Jefferson (1974) が提唱した会話分析の基礎理論。現在の対話AIやロボット研究でも標準的に使われています。

How It Works

相槌が鳴るまでの流れ

🎤 マイクON
recognition.start()

→

interim イベント
認識途中のテキスト

→

        TRP判定

        末尾が「ね/て/ので…」?

→

タイマーセット
350ms or 500ms

→

🎵 相槌再生
「はい」「ええ」など

発話が続く限りタイマーは毎回リセット（デバウンス）。話し終わりの間に発火する。
isFinal（確定）が来たら相槌タイマーをキャンセルし、2秒の無音後に送信。
一度相槌を打ったら3秒間はクールダウン。連打を防ぐ。

ポイントは「途中でテキストを判定する」こと。発話が終わってから相槌を打つと遅すぎる。EICAなどのロボット対話システムも同じ設計思想を採用しています。

Parameters

調整可能なパラメータと根拠

パラメータ名	意味	デフォルト	根拠
TRP_DELAY	文節末（TRP）検出後の相槌ディレイ	350ms	Ward & Tsukahara (2000) — 日本語相槌は低ピッチ後約400msで発生
DEFAULT_AIZUCHI_DELAY	TRP以外での無音デバウンスディレイ	500ms	ERICA/SIGDIAL (2017) — 500msウィンドウでのリアルタイム予測が標準
AIZUCHI_COOLDOWN	相槌後の次の相槌まで最短待機	3000ms	連打防止。自然な会話頻度から経験的に設定
SUBMIT_SILENCE	発話確定後、この無音が続いたら送信	2000ms	Lala+ SIGDIAL (2017) — 発話の「間」を許容する設計思想
AIZUCHI_VOLUME	相槌音声の音量	0.5	回答再生中は相槌は鳴らないため音量は大きくしても問題ない

※ デモ画面下部の「相槌パラメータ」パネルからリアルタイムに変更できます。

Research Basis

参考にした論文

Ward & Tsukahara (2000) — 被引用 661

Journal of Pragmatics, Elsevier

英語・日本語の相槌を比較した古典的研究。日本語では話者の低ピッチ区間の約400ms後に相槌が発生する傾向を発見。

→ TRP_DELAY = 350ms の根拠

Lala, Kawahara et al. — SIGDIAL 2017 / ERICA 2021

京都大学・川原研究室 — 被引用 113 / 6

人型ロボット「ERICA」の対話システム。発話終了後ではなく発話中にリアルタイムで相槌を生成する手法を実装。500msウィンドウで予測。

→ DEFAULT_AIZUCHI_DELAY = 500ms と continuous = true 設計の根拠

Cathcart, Carletta, Klein (2003) — 被引用 151

European ACL

相槌の「浅いモデル」。約600msの無音ポーズがバックチャネルの強い予測因子になると報告。

→ ディレイ帯域（500〜600ms）の妥当性の参考

Limitations & Next Steps

現状の限界と次のステップ

⚠️

現状の制約

WebSpeech APIはテキストのみ返すため、音声の韻律（ピッチ・音量）が使えない
interimテキストは認識確定前のため変動あり。誤トリガーが起きる場合がある
TRP判定はパターンマッチのみ。意味的な文節理解は未実装

現在の実装

🚀

改善の方向性

音声波形の解析（音量・無音区間検出）でより精密なTRP判定
LLMによる文意理解を組み合わせ、文脈に応じた相槌選択
相槌テキスト（「はい」「なるほど」等）をTPRに合わせて動的に選択

今後の拡張

現状の実装は「学術的に妥当な近似」の水準です。デモとして自然な印象を与えるには十分な根拠があります。パラメータはデモ画面から調整できます。