ユーザーが話している最中に、発話の切れ目を検出して
「はい」「ええ」と自然なタイミングで相槌を打ちます。
WebSpeech APIの途中経過テキストをリアルタイムに監視
日本語対話研究の論文をもとにタイミングを設計
デモ画面上のスライダーでリアルタイムにチューニング可能
話を聞いている側が「はい」「ええ」「なるほど」と短く応答すること。会話分析では Backchannel と呼ぶ。
相槌があると話し手は「聞いてもらえている」と感じ、会話が弾む。逆に無いと一方的に感じる。
Backchannel会話分析の用語 Transition Relevance Place の略。「ここで話者交代してもよい」と感じられる発話の区切りのこと。
「〜ね」「〜て」「〜ですが」など、文節の末尾がTRPになりやすい。相槌もここで打つのが自然。
Turn-takingTRPの概念は Sacks・Schegloff・Jefferson (1974) が提唱した会話分析の基礎理論。現在の対話AIやロボット研究でも標準的に使われています。
ポイントは「途中でテキストを判定する」こと。発話が終わってから相槌を打つと遅すぎる。EICAなどのロボット対話システムも同じ設計思想を採用しています。
| パラメータ名 | 意味 | デフォルト | 根拠 |
|---|---|---|---|
| TRP_DELAY | 文節末(TRP)検出後の相槌ディレイ | 350ms | Ward & Tsukahara (2000) — 日本語相槌は低ピッチ後約400msで発生 |
| DEFAULT_AIZUCHI_DELAY | TRP以外での無音デバウンスディレイ | 500ms | ERICA/SIGDIAL (2017) — 500msウィンドウでのリアルタイム予測が標準 |
| AIZUCHI_COOLDOWN | 相槌後の次の相槌まで最短待機 | 3000ms | 連打防止。自然な会話頻度から経験的に設定 |
| SUBMIT_SILENCE | 発話確定後、この無音が続いたら送信 | 2000ms | Lala+ SIGDIAL (2017) — 発話の「間」を許容する設計思想 |
| AIZUCHI_VOLUME | 相槌音声の音量 | 0.5 | 回答再生中は相槌は鳴らないため音量は大きくしても問題ない |
※ デモ画面下部の「相槌パラメータ」パネルからリアルタイムに変更できます。
現状の実装は「学術的に妥当な近似」の水準です。デモとして自然な印象を与えるには十分な根拠があります。パラメータはデモ画面から調整できます。