English

logo


1. はじめに    2. Waseda Talker シリーズの歴史     3. 人間の発声メカニズム     4. WT-7RII,WT-7RおよびWT-7による発話ムービー     5. WT-5/4による発話ムービー


1. はじめに
conversation
 本研究は,発声器官 (肺,声帯) および調音器官 (舌,唇,歯,鼻腔,軟口蓋) を模擬する機構を有した発話ロボットを開発し,これを用いて人間と同様の発声動作を実現することにより,計算機シミュレーションのみでは解明困難な発声系のメカニズムをロボット工学的な視点から明らかにすることを目的としています.また,発話ロボットを用いることで人間の音声獲得過程をはじめとする様々な発話運動を再現し,実験を定量的に行うことができるようになります.本研究の応用として,音声生成に基づく新たな音声情報処理,さらには障害者の発声訓練装置や外国語学習装置を実現する上での基盤技術の確立につながると考えています.

ページトップへ


2.Waseda Talkerシリーズの歴史

WT-3以前の紹介へ

2-1. WT-4 (Waseda Talker No.4) (2004年)

  人間に近い母音生成を目指し,新型人間形発話ロボットWT-4 (Waseda Talker No.4)を開発しました.声帯 (4自由度),肺(1自由度),そして調音器官である口唇 (5自由度),歯 (1自由度),舌 (7自由度),鼻腔,軟口蓋 (1自由度) の計19自由度を持ち,声道長175 [mm]と成人男性とほぼ同じ長さになっています.
  WT-4では聴覚フィードバック系を構築し,WT-4の生成音声から抽出される音響特徴量を用いてロボットの制御パラメータを最適化し,制御に利用可能としました.音響特徴量としては基本周波数,音の強さ,フォルマント周波数,有声/無声音の切替え時間を用い,全19自由度のロボットの制御パラメータの最適化を行います.さらに人間の連続発声に対する動的な音響特徴量を抽出し,同手法によりロボットを用いてそれを再現する聞き真似発話を実現しました

2-2. WT-5 (Waseda Talker No.5) (2005年)

 より人間に近い音声生成を実現するため,人間形発話ロボットWT-5 (Waseda Talker No.5)を開発しました.WT-5は声帯(3自由度),肺 (1自由度),そして調音器官である口唇 (5自由度),歯 (1自由度),舌 (7自由度),鼻腔,軟口蓋 (1自由度) の計18自由度を持ち,声道長さは約175[mm]と成人男性とほぼ同じ長さを有しています.人間の口唇・声帯の生理学的構造を模擬することにより,より人間に近い母音発声を実現し,日本語子音50音の発話を実現しています.
 また,WT-5では発話運動に伴って生じる触覚情報と口腔内圧などの感覚情報を用いての子音発声の最適化手法を構築しました.音響特徴量を用いる聴覚フィードバック系においても,音声認識を組み込むことにより効率的に最適化を行なえるようにしました.これらの手法によりロボットを用いて人間の連続発声音声を再現する聞き真似発話を子音部分を含めて実現しました.

2-3. WT-6 (Waseda Talker No.6) (2006年)

  人間の3次元的な声道形状を再現するため,人間形発話ロボットWT-6 (Waseda Talker No.6)を製作しました.WT-6は発声器官である声帯 (5自由度),肺 (1自由度),そして調音器官である口唇 (4自由度),顎 (1自由度),舌 (5自由度),鼻腔,軟口蓋 (1自由度) の計17自由度を持ち,声道長は約180[mm]と成人男性とほぼ同じ長さを有しています.また,WT-6は独立した駆動機構を持つ開閉可能な顎を持っており,舌や口蓋は熱可塑性エラストマーのセプトン(R)を用いることにより人間の3次元的な形状を再現しています.声帯部には新たな機構を追加することによりWT-5で実現した高音域で減衰する人間らしい音源を維持しつつ,ピッチの変更幅を向上させることができました.

2-4. WT-7 (Waseda Talker No.7) (2007年)

  発話メカニズムをより人間に近づけることを目標とし,全19自由度を有する新型発話ロボット WT-7(Waseda Talker No.7)を開発しました.WT-7の自由度構成は,発声器官として声帯 (4自由度),肺(1自由度),調音器官として舌(7自由度),軟口蓋(1自由度),口唇(5自由度), 顎(1自由度)となっています. WT-7の声帯では,振動部分に直接張力をかけられる機構を追加することで, 連続した安定的なピッチ変更(約80[Hz])が可能となりました.また, 舌においては,WT-6で使用していたレリーズ機構を改め,位置決め精度の良い,リンク機構を舌内部に集約しました. そのため,目標形状への変形が可能となり,その再現性を向上させることができました.

2-5. WT-7R (Waseda Talker No.7 Refined) (2008年)

  5母音の発声をより人間に近づけることを目標とし,WT-7を改良し,全19自由度を有する WT-7R(Waseda Talker No.7 Refined)を開発しました.WT-7Rの自由度構成は,発声器官として声帯 (5自由度),肺(1自由度),調音器官として舌(7自由度),軟口蓋(1自由度),口唇(4自由度), 顎(1自由度)となっています. 舌においては,舌内部に集約されているリンク機構の高密度化により,可動範囲が最大7[mm]となり,より正確な声道形状の再現が可能となりました.また,弾性体の舌の内側の空間を液体のエチレングリコールで満たし,声道共鳴特性を向上させました. これにより,明瞭な五母音の発話を実現させ,特に実験より/o/母音のバンド幅が50[Hz]狭くなることを確認しました.

2-6. WT-7RII (Waseda Talker No.7 Refined II) (2009年)

 子音の発話ができることを目標にWT-7Rを改良し,全19自由度を有する WT-7RII(Waseda Talker No.7 Refined II)を開発しました.WT-7RIIの自由度構成は,音源器官として声帯 (4自由度),肺(1自由度),調音器官として舌(7自由度),軟口蓋(1自由度),口唇(5自由度), 顎(1自由度)となっています. 口唇機構においては小型のバイスを製作し,それによってセプトンを挟み込み5方向からのリンク機構による引張りと押出しで母音生成に必要面積な140〜840[mm2]の再現およびWT-7Rでは構造上不可能だった完全閉鎖が可能となりました.その結果,口唇の完全閉鎖を必要とする閉鎖音/p/の発音が可能となりました.

    

ページトップへ

3. 人間の発声メカニズム

  肺から声帯に空気を送り込み,その空気によって声帯を振動させ音源を作り出します.その声帯音源を
 口腔(舌),鼻腔(軟口蓋),歯,口唇によって調音し,発話音声を生成します.

WT-7RII (断面図) WT-5の声帯振動の様子
(高速度カメラ・1000[fps])

ページトップへ


4. WT-7RII,WT-7RおよびWT-7による発話ムービー
画像をクリックするとロボットの発話動画を見ることが出来ます.

  
 「ぱぴぷぺぽ」(WT-7RII)
MPEG 1.02 MB
 「あいうえお」(WT-7R)
   MPEG 1.58 MB
 「あいうえお」(WT-7)
   MPEG 1.35 MB
ページトップへ


5. WT-5/WT-4による発話ムービー
画像をクリックするとロボットの発話動画を見ることが出来ます.

聞き真似発話
「あいうえお」(WT-5)
MPEG 1.49 MB
「さしすせそ」(WT-5)
MPEG 1.40 MB
「ぱぴぷぺぽ」(WT-5)
MPEG 1.19 MB
聞き真似発話(WT-4)
「はっせい」

MPEG 0.92 MB
ページトップへ


謝辞
 本研究は,2003年度まで科学技術振興機構 (JST) 戦略的創造研究推進事業 (CREST)の援助を受けて行われ,2004年度から科学研究費補助金の援助を受けて行われています.研究に協力して頂いた,(株)クラレ,ATR(人間情報科学研究所)の皆様に感謝致します.3DCADソフトウェアをご提供して頂いたソリッドワークス・ジャパン株式会社,テフロン被覆ワイヤを提供して頂いた中興化成株式会社に感謝致します.
ページトップへ


関連ホームページ
科学技術振興機構(JST)
戦略的創造研究推進事業(CREST)
「脳を創る」研究プロジェクト「発声力学に基づくタスクプラニング機構の構築」

ソリッドワークス・ジャパン株式会社


ATR(国際電気通信基礎研究所)   人間情報科学研究所
オキノ工業株式会社
中興化成工業株式会社
株式会社クラレ  熱可塑性樹脂 セプトン
誉田研究室 (早稲田大学)
ページトップへ


発声班文献

研究室トップへ