Waseda Talkerシリーズの歴史(WT-1〜WT-7R)


1.WT-1 (Waseda Talker No.1) (2000年)
wt-1

人間の発声動作を模擬し、発声器官である声帯 (1自由度)、肺(1自由度)、そして調音器官である口唇 (4自由度)、歯 (1自由度)、 舌 (6自由度)、鼻腔、軟口蓋(1自由度) の全14自由度を有する人間形発話ロボットWT-1 (Waseda Talker No.1) を開発しました。 高さは約1,600 [mm]、声道長さは約210 [mm]と成人男性の約1.2倍となっています。 WT-1を用いて日本語の母音「あいうえお」の発声を実現しました。


2.WT-1R (Waseda Talker No.1 Refined) (2001年)
wt-1r

子音発声を実現するため、WT-1を改良したWT-1Rを開発しました。 声帯に1自由度を加え、発声器官である声帯 (2自由度)、肺(1自由度)、そして調音器官である口唇 (4自由度)、歯 (1自由度)、舌 (6自由度)、鼻腔、軟口蓋(1自由度) の全15自由度を有しています。 WT-1と同様、高さは約1,600 [mm]、声道長さは約210 [mm]と成人男性の約1.2倍となっています。 WT-1Rを用いて日本語の母音「あいうえお」、摩擦音である「さ」行、「は」行、鼻音の「ま」行、閉鎖音の「ぱ」行、そして「わせだ」の子音発声を実現しました。


3.WT-2 (Waseda Talker No.2) (2002年)

wt-2

人間に近い自然な発声を目指し、WT-2(Waseda Talker No.2)を開発しました。舌・声帯に新型の機構を採用し、 声帯 (3自由度)、肺(1自由度)、口唇 (4自由度)、歯 (1自由度)、舌 (5自由度)、鼻腔、そして軟口蓋(1自由度) の全15自由度を有しています。声道長は約175[mm]と成人男性と同程度の大きさとなっています。 WT-1・WT-1Rと比べ、柔軟な舌形状変更機構と、唇・鼻孔以外からの音漏れ低減により、多様な子音の生成を実現しました。


4.WT-3 (Waseda Talker No.3) (2003年)

wt-3

人間に近い自然な発声を目指し、WT-2までの問題点を改良した新型発話ロボットWT-3(Waseda Talker No.3)を開発しました。 口唇・声帯に新型の機構を採用し、声帯(3自由度)、肺(1自由度)、口唇 (5自由度)、 歯 (1自由度)、舌 (7自由度)、鼻腔、そして軟口蓋(1自由度)の全18自由度を有しています。 声道長は約175[mm]と成人男性と同程度の大きさとなっています。WT-2と比べ、より人間に近い声帯および声道形状変更機構と、 口角の突出しの追加により、より明瞭性の高い母音および多様な子音の生成を実現しました。


5. WT-4 (Waseda Talker No.4) (2004年)

人間に近い母音生成を目指し、新型人間形発話ロボットWT-4 (Waseda Talker No.4)を開発しました。声帯 (4自由度)、 肺(1自由度)、そして調音器官である口唇(5自由度)、歯 (1自由度)、舌 (7自由度)、鼻腔、軟口蓋 (1自由度) の計19自由度を持ち、 声道長175 [mm]と成人男性とほぼ同じ長さになっています。

WT-4では聴覚フィードバック系を構築し、WT-4の生成音声から抽出される音響特徴量を用いてロボットの制御パラメータを最適化し、 制御に利用可能としました。 音響特徴量としては基本周波数、音の強さ、フォルマント周波数、有声/無声音の切替え時間を用い、全19自由度のロボットの制御パラメータの最適化を行います。 さらに人間の連続発声に対する動的な音響特徴量を抽出し、同手法によりロボットを用いてそれを再現する聞き真似発話を実現しました。


WT-4による聞きまね発話ムービー
画像をクリックするとロボットの発話動画を見ることが出来ます。
聞き真似発話
聞き真似発話(WT-4)「はっせい」
MPEG1 0.92 MB


6. WT-5 (Waseda Talker No.5) (2005年)

より人間に近い音声生成を実現するため、人間形発話ロボットWT-5 (Waseda Talker No.5)を開発しました。 WT-5は声帯(3自由度)、肺(1自由度)、そして調音器官である口唇 (5自由度)、歯 (1自由度)、舌 (7自由度)、鼻腔、 軟口蓋 (1自由度) の計18自由度を持ち、声道長さは約175[mm]と成人男性とほぼ同じ長さを有しています。 人間の口唇・声帯の生理学的構造を模擬することにより、より人間に近い母音発声を実現し、日本語子音50音の発話を実現しています。

また、WT-5では発話運動に伴って生じる触覚情報と口腔内圧などの感覚情報を用いての子音発声の最適化手法を構築しました。 音響特徴量を用いる聴覚フィードバック系においても,音声認識を組み込むことにより効率的に最適化を行なえるようにしました。 これらの手法によりロボットを用いて人間の連続発声音声を再現する聞き真似発話を子音部分を含めて実現しました。


WT-5による発話ムービー
画像をクリックするとロボットの発話動画を見ることが出来ます。
「あいうえお」(WT-5)
MPEG1 1.49 MB
「さしすせそ」(WT-5)
MPEG1 1.40 MB
「ぱぴぷぺぽ」(WT-5)
MPEG1 1.19 MB


7. WT-6 (Waseda Talker No.6) (2006年)

人間の3次元的な声道形状を再現するため、人間形発話ロボットWT-6 (Waseda Talker No.6)を製作しました。 WT-6は発声器官である声帯(5自由度)、肺 (1自由度)、そして調音器官である口唇 (4自由度)、顎 (1自由度)、 舌 (5自由度)、鼻腔、軟口蓋 (1自由度) の計17自由度を持ち、声道長は約180[mm]と成人男性とほぼ同じ長さを有しています。 また、WT-6は独立した駆動機構を持つ開閉可能な顎を持っており、舌や口蓋は熱可塑性エラストマーの セプトン(R)を用いることにより人間の3次元的な形状を再現しています。 声帯部には新たな機構を追加することによりWT-5で実現した高音域で減衰する人間らしい音源を維持しつつ、ピッチの変更幅を向上させることができました.



8. WT-7 (Waseda Talker No.7) (2007年)

発話メカニズムをより人間に近づけることを目標とし、全19自由度を有する新型発話ロボットWT-7(Waseda Talker No.7)を開発しました。 WT-7の自由度構成は、発声器官として声帯(4自由度)、肺(1自由度)、調音器官として舌(7自由度)、軟口蓋(1自由度)、口唇(5自由度)、顎(1自由度)となっています。 WT-7の声帯では、振動部分に直接張力をかけられる機構を追加することで、連続した安定的なピッチ変更(約80[Hz])が可能となりました。 また、舌においては、WT-6で使用していたレリーズ機構を改め、位置決め精度の良い、リンク機構を舌内部に集約しました。 そのため、目標形状への変形が可能となり、その再現性を向上させることができました。



9. WT-7R (Waseda Talker No.7 Refined) (2008年)

日本語5母音の発声をより人間に近づけることを目標とし、WT-7を改良し、全19自由度を有するWT-7R(Waseda Talker No.7 Refined)を開発しました。 WT-7Rの自由度構成は、発声器官として声帯(5自由度)、肺(1自由度)、調音器官として舌(7自由度)、軟口蓋(1自由度)、口唇(4自由度)、顎(1自由度)となっています。 舌においては、舌内部に集約されているリンク機構の高密度化により、可動範囲が最大7[mm]となり、より正確な声道形状の再現が可能となりました。 また、弾性体の舌の内側の空間を液体のエチレングリコールで満たし、声道共鳴特性を向上させました。 これにより、明瞭な5母音の発話を実現させ、特に実験より/o/母音のバンド幅が50[Hz]狭くなることを確認しました。


ページトップへ


発声班トップへ

研究室トップへ