2010年09月22日

自然な音声合成のための評価指標8

このエントリーをはてなブックマークに追加
follow us in feedly
VocaListener2: ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システムの提案
中野倫靖  後藤真孝 産業技術総合研究所
情報処理学会研究報告  音楽情報科学研究会.86 No.3, 2010.


※著者が他の文献で既に述べた内容の重複が多いです。


本稿では、ユーザの歌唱音声からその声色(こわいろ)変化を真似て歌声合成するシステムVocaListener2 を提案する。
我々が以前開発したVocaListener では、音高と音量のみを真似て歌声合成パラメータを推定していたが、VocaListener2 ではそれを拡張して声色変化にも対応する。



クリプトン・フューチャー・メディア株式会社の応用商品である「初音ミク・アペンド(MIKU Append).」は、「初音ミク.」と同一歌唱者の声で、DARK, LIGHT, SOFT,SOLID, SWEET, VIVID の6 種類の声色で歌声合成できる。
しかし、これらの音源をフレーズ毎に切り替えながら合成することはできても、歌声合成システム上でこれらの中間の状態を作り出すことは困難であり
例えば「LIGHT とSOLID の中間の声」で歌い始めた後、徐々に「初音ミクの声」に切り替わる、といった滑らかな変化を実現するのは難しい。
したがって、これらの問題を解決するには、歌声合成システム内のパラメータ操作だけでは不十分で、外部の信号処理が必要となる
そこで、まずVocaListener1 で音高と音量を真似て合成した後、その合成歌唱を利用しながら、声色変化を信号処理で反映する。




実現課題(1): 声色変化をどのように表現するのか。
実現課題(2): ユーザ歌唱の声色変化をどのように反映させるのか。


3.1 ユーザ歌唱の声色変化を真似る歌声合成の課題における解決方針

2.3 節で述べた実現課題(1) を解決するために、まずVocaListener1 を用いて、ユーザ歌唱を真似て、時刻が同期した複数の歌唱者による歌唱音声を自動的に生成する。

ここで、合成対象となる同一歌唱者の声質が異なる歌唱(例: 初音ミクと初音ミク・アペンド)も同時に合成する。
これによって、各時刻において音高・音量・音韻が同期した歌唱が得られるため、これら全てを活用して、声色変化以外の成分を抑制した声色空間を構成する。
そこでは
全ての歌唱が各時刻において声色空間上の一点に対応し、その時間変化は、声色空間上の時間変化する軌跡として表現できる。



続いて、実現課題(2) を解決するために、VocaListener1 による同一歌唱者の声色が異なる合成結果(同期した歌唱)の、声色空間上における複数の軌跡について、それらを含むような多面体(ポリトープ)とその時間軌跡を考え、これを声色変化チューブと呼ぶ。
声色空間をM 次元空間とすると、合成対象の声色は、各時刻t においてJ 個のM 次元ベクトルzj=1,2,...,J (t) がその空間上に存在し.3、これらJ 個の点zj(t) に囲まれた内側が、合成したい同一の歌唱者の変形可能な領域と本研究では仮定する。
つまり、この時々刻々と変化する多面体(M 次元ポリトープ)が声色変化可能な領域であると考える。
したがって、同じく声色空間の別の場所に存在するユーザ歌唱の軌跡u(t) を、声色変化チューブ内になるべく入るようにシフト・スケーリングさせたu(t) を得ることで、各時刻における声色空間上の合成目標位置を決定する。
その位置から出力する合成歌唱のスペクトル包絡を生成することでVocaListener2 を実現する。







3.2 VocaListener2 の処理概要

3.3 歌声分析: 歌唱音声からのスペクトル包絡系列の推定(図中Bに相当)
3.4 歌声分析: 声色空間の構成(図中Cに相当)
3.5 歌声分析: 声色空間におけるユーザ歌唱との対応付け(図中Dに相当)
3.6 歌声合成: 声色空間上の軌跡からの歌声合成(図中Eに相当)
3.7 インタフェース構築: ユーザによる声色変化の調整機能
以上のような処理により、ユーザ歌唱の声色変化を真似た歌声合成が実現できるが、ユーザ歌唱を真似るだけでは、歌唱によるユーザの表現力の限界を超えることができない。
そこで、表現の幅を拡げるため、推定結果に基づいて声色変化を操作できるインタフェースを提案する。




.............................................................................................
.............................................................................................
.............................................................................................






5. 議論

5.1 応用(1): 出力部(スペクトル包絡生成)の変更による可能性

本稿では、スペクトル包絡の生成で、初音ミクを基準としたスペクトル包絡の変形曲面を推定した。
これは、スペクトルのどこをどのように変えれば初音ミク・アペンドが作れるのか、といった相対的な指標の推定に相当する。
すなわち、この変形曲面をそのまま別の音源に適用できる声色転写の可能性を示唆している。実際、初音ミクから初音ミク・アペンドへの6 種類の変形曲面を、そのまま鏡音リンに適用し、6 種類の「鏡音リン・アペンド」に相当する印象が得られたことを定性的に確認した。

5.2 応用(2): 入力部(声色変化チューブの構成)の変更による可能性
本稿では、初音ミクと初音ミク・アペンドのような、歌唱者が同一の複数音源から声色変化を反映した歌声合成を行った。
しかしここで、声色変化チューブを異なる歌唱者で構成することで、声質を動的に変化させて歌声合成できる可能性がある。
また、本研究では既存歌声合成システムのパラメータ推定を行わなかったが、声色変化チューブを、例えばGENパラメータを変えた複数の声から構成すれば、パラメータ推定に応用できる可能性がある。






6. おわりに

声質や声色は音高や音量と違い、物理量として単純に扱うことができず、未解決な課題も多い。そのような課題の一つとしては、適切な活用方法が明らかになっていないことが挙げられる。
本研究では声色変化の活用について一つの具体例を示したが、今後は声色変化をモデル化して再利用する等、声色変化の新たな活用法について更なる検討をしていきたい。
本研究の根底には、文献(VocaListener) でも述べたように、「人間らしい歌唱」とは何かを解明し、より人間を知ることがある。
本システムは、そうした歌声研究の基本ツールとしても貢献できる。
例えば、VocaListener2 によって、音高や音量を真似た歌唱音声を様々な声色で用意できるようになったので、歌唱の個人性知覚に関する新しい知見が得られる可能性がある。














合成音の良し悪しを評価する方法は

ニュース番組の収録音声を利用した波形接続型音声合成システム
世木寛之 田高礼子 都木徹 日本放送協会放送技術研究所
清山信正 財団法人NHKエンジニアリングサービス
情報処理学会論文誌 Vol.50 No.2 (2009)

MOS:Mean Opinion Score

各試行では,評価データをランダムな順序で提示し,評定者は自然性の良し悪しを評価した.自然性の評価では,
合成音の品質評価に対するガイドライン(音声合成システム性能評価方法のガイドライン,日本電子工業振興協会 JEIDA-G-24-2000)のように7段階の両極尺度で評価する手法もある.

しかし,本研究では合成音の自然性が具体的にどのくらいのレベルか知りたかったため,
文献(濱上知樹,古村光夫:深い意味や構造を意識せず抑揚を抑えて発声された音声のF0パターンの分析と合成,電子情報通信学会論文誌(D-II),Vol.J81-D-II, No.6, pp.1047-1057 (1998).)
で行われているように,表2の5段階で評価することとした.

5 自然である
4 不自然な部分はあるが気にならない
3 少し気になる
2 気になる
1 非常に気になる



おそらく、アクセントが正確でありさえすれば、
滅茶苦茶な合成音声でも、人間が(そういう風に)喋っているようには感じられるはず.........


5.目標スコアの有無による自然性の違い
5.3アクセントの高低情報の再現性

目標スコアを考慮したとしても,最終的な選択結果に寄与しなくては意味がない.
そこで,目標スコアを考慮せずに選択した音声素片系列に対して,
事後的に式(6)を用いて目標スコアを計算し,目標スコアを考慮した音声素片系列に対する目標スコアと比較した.
目標スコアを考慮せずに選択した音声素片系列に対して,事後的に計算した目標スコアを1とすると,
目標スコアを考慮した音声素片系列に対する目標スコアは0.04になった.式(6)
は,目標とする基本周波数と音素列長に近いほど小さなスコアになるため,目標スコアを考慮して選択した音声素片系列では,目標スコアは十分考慮されている.













脳活動測定による基本周波数の時間変化と感情知覚の関連性に関する基礎的研究
濱田康弘 北陸先端科学技術大学院大学
修士論文


1.2.2脳活動測定による感情知覚に関する研究


感情音声を含む多くの音声知覚,音知覚の研究から,音の情報処理は一次聴覚野を含む,
シルビウス皮質に介在していることが知られている.
多くの研究で,一次聴覚野に含まれる上側頭回(STG)において音刺激の差異による活動が報告されている[塚田裕樹,入野俊夫,大屋義和, R. D.Patterson,河原英紀: 音声からの寸法情報処理の脳内部位のfmriによる検討,日本音響学会講演論文集, pp. 571_572 (2009).].
また,上側頭溝,中側頭回や,溝の後ろにあたる視覚情報との統合もなされるとされる縁上回,角回などの活動も報告されている[ B. Tillmann, N. E. S.Koelsch, P. L. E. Bigand, A. Friederici and D. von Cramon:Cognitive priming in sung and instrumental music: Activation of inferior frontal cortex, NeuroImage, 31, pp. 1771_1782 (2006).].
感情音声に関する脳活動測定では, Wietho??らが平常の音声を聴いたときよりも,感情音声で右半球の上側頭回がより活動する,という報告[ S. Wietho??, D. Wildgruber, B. Kreifelts, H. Becder, C. Herbert, W. Grodd and T. Ethofer: "Cerebral processing ofemotional prosody-influence ofacoustic param-eters and arousal", NeuroImage, 39, 2, pp. 885_893 (2008).]や,
Bachらによる音韻情報が主に左半球の下前頭回で処理されている,という報告などがある[D.R.Bach,D.Grandjean,D.Sander,M.Herdener,W.K.StrikandE.Seifritz:"The effect ofappraisal level on processing ofemotional prosody in meaningless speech", NeuroImage, 42, 2, pp. 919_927(2008). ].
しかし,これらの報告では,音響的特徴が脳活動に与える影響については十分に考慮されていない.



.....................................
.....................................




第3章 感情音声に関する聴取実験
3.2 聴取実験1:合成音声の知覚的距離の測定と自然性の評価
3.2.1目的

刺激音の条件より,脳活動測定で用いる刺激音は実験時間を考慮して6つであり,知覚的距離があり,自然性が高いことが必要である.聴取実験1では,脳活動測定で用いる条件を満たす刺激音6つを用意するために,合成音声に対し,聴取実験を行い,感情の評価(聞き返し,驚き,肯定,時間稼ぎ,疑い,落胆,迷い),および自然性の評価を行った.聴取実験の結果より,お互いに知覚的に距離のある,自然性の高い刺激音を5つ選び,選んだ5つの合成音声および元音声を脳活動測定で用いることとした.

実験手続き

刺激音を呈示し,その音声が{聞き返し,驚き,肯定,時間稼ぎ,疑い,落胆,迷いのどの感情に当てはまるか
0 〜 5の点数をつけて評価を行った.刺激音はランダムに呈示された.被験者は10名で, 42種の刺激音の呈示を各被験者について2回ずつ行った.



.....................................
.....................................




第5章
脳活動測定結果と感情知覚に関する考察



5.2聴取実験の結果と感情階層説との関係

各刺激音が感情階層説におけるどの階層に属するのか,それぞれの感情語に対する福田の感情階層説との対応関係を調べる.
S0における代表的な感情語は,{肯定,共感}であり,これらの感情は,社会的,知的感情の分類に当てはまる.また, S1における{肯定,冷静}も同様に,社会的,知的感情の分類に当てはまる.
S2にみられる{落胆,悲しい}における{悲しみ}に対する分類は未だ議論がなされている.表情を用いた心理学からの分類では, EkmanやIzardによる研究などによる多くの研究において,悲しみは基本情動に分類されている.
また, Shaverなどによる研究においても基本情動(情動の基礎カテゴリー)に分類されている.
しかし,福田の提唱する感情階層説では,感情は情動に主観的体験が加わったものであると考え,{悲しみ}を社会的,知的感情であるとしている.
S3における代表的な感情語は{聞き返し,驚き}であった.{悲しみ}における分類と同様に,{驚き}においても,基本情動に属するとされる報告が多くあるが,感情階層説では,{驚き}は注意覚醒系の機能であり,情動とは別系統として進化してきているとされている.その進化の延長として,興奮,覚醒,注意,興味,好奇心などの機能があり,
{聞き返し}もその系統にあると考えられる.
S4における代表的な感情語は{疑い,否定}であり,これらは,注意の操作,および読心の機能などにあたり,社会的,知的感情の分類に当てはまると考えられる.
S5における代表的な感情語は{驚き,疑い}であった.{驚き}はS3における代表的な感情語にもみられ,注意覚醒系の系統にあると考えられる.また,{疑い}は社会的,知的感情に分類されると考えられる.




5.3脳活動測定による感情知覚に関する考察

感情階層説を参考に,聴取実験の結果と脳活動測定の結果における感情知覚の対応関係について考察する.刺激音S1は主に社会的感情に分類される{肯定,冷静}の感情を含み,元音声S0{肯定,共感}との差は, SFG(上前頭回)などの大脳皮質の前頭葉において主な活動差が見られた.大脳皮質は社会的感情や知的感情における処理とともに発達してきたと考えられ,結果における社会的感情の差異は,感情階層説における知見と一致する.刺激音S2は主に社会的感情に分類される{落胆,悲しみ}を含み,元音声S0との差は,大脳皮質における, SPL(上頭頂小葉)やAnG(角回)に主な活動差がみられた.この結果は,{落胆,悲しみ}が社会的,または知的感情における処理として,触覚や視覚,聴覚を統合する様な部位に関わってくる可能性を示唆している.刺激音S3は主に注意覚醒系の機能を持つ{聞き返し,驚き}を含み,元音声S0との差は大脳基底核におけるCd(尾状核)において特徴がみられた.また,刺激音S5も同様に注意覚醒系の機能を持つ驚きの感情を含み,元音声S0との差は大脳基底核におけるPu(被核)において主な活動がみられた. S4においても, Puにおける活動が見られたが, S5と感情空間における付置が近く(図3.13),また,代表的な感情語には示されなかったが,{驚き}に対する評価もS0と比べ高い(図3.12)ことが示されている.大脳基底核における活動は,原始情動の処理をすると考えられており,身体の維持などの行動の調整システムを担っている.今後更なる知見を要するが, S3やS4, S5における注意覚醒系では,原始情動を扱うこのようなシステムに関わってくる可能性があるかもしれない.


6.2今後の課題
今回の実験では,基本周波数の時間変化に対応する音響的特徴の制御を行い,感情知覚との関連性を調べた.
今後,感情知覚に密接に関係する韻律情報全体の制御を行った際の脳活動の賦活,感情知覚について詳しく調べていく必要がある.
また,感情知覚には韻律情報以外に,声質の影響も重要であるという指摘もあり,
これらを総合して調べていく必要もあるかもしれない.
さらに,音声知覚の機構を解明するためには,感情に限らず,非言語情報処理一般において,
本研究で用いたストラテジーと同じ様に,音響的特徴と脳活動を調べ,音声知覚における知見を得ていく必要がある.










韻律の部分空間を用いた感情音声合成
森山剛 森真也 小沢慎治 
慶應義塾大学
情報処理学会論文誌 Vol.50 No.3 2009




2.2.1 感情を含むことによる韻律の揺らぎ
speech80

図1 は,アクセント句/arayuru/を,平静を含む様々な感情を含んで発話した音声からピッチ軌跡をそれぞれ抽出し,同じフレーム数に正規化した後,それらの平均軌跡とともに重畳表示したものである.図から,感情を含むことによる音声の韻律成分の変動が,ある平均からの揺らぎとしてとらえられる様子が分かる.
重永も感情は心理的な状態の平静からの“ずれ” であり,同時に物理的特徴量の平静からの“ずれ” が,感情の判別に有効であると指摘している.




2.2.2 韻律の揺らぎのアクセント句への依存性

日本語の1 文を構成する単位であるアクセント句は,それぞれアクセント型と,日本語に特徴的なモーラ(拍)数を有する.
アクセント型は,全体的な抑揚のパターンを決定し,モーラ数は,単語を時間的に分割し,アクセント型で特定されたアクセント核が音声のどの時間範囲に存在するかを特定する.

アクセント型およびモーラ数は,音声が感情を含むときに生ずる韻律の変動の仕方を決定付ける要因と考えられる.
たとえば,/naname/というアクセント句は,中高型のアクセント型,すなわち第2 モーラ(2 番目の/na/)にアクセント核を持ち,モーラ数は3 である.
/naname/が「怒り」を含むと,そのピッチは語頭では低く,アクセント核に向かって高くなるのに対し,異なるアクセント型およびモーラ数を有する/naniyorimo/(第1 モーラ/na/にアクセント核(頭高型),モーラ数は5)では,語頭が高くなり,緩やかに低くなるというように,異なるピッチ軌跡の変動を示す.
また,/naname/と同じアクセント型およびモーラ数を有する/amado/が「怒り」を含むと,/naname/とまったく同様の変動を示す.
そこで提案する手法では,韻律の変動規則がアクセント型とモーラ数の組合せで決まると仮定し,

日本語に頻出する組合せすべてについて,それぞれ独立に韻律の変動規則を学習する.









この前の続きで




トラックバックURL

コメントする

名前:
URL:
  情報を記憶: 評価:  顔   星
 
 
 
サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村
adsense
Archives
amazon
blogchart
QRコード
QRコード
Recent Comments
「最新トラックバック」は提供を終了しました。