本家VOCALOIDやUTAUに学んでより人間的な人力VOCALOIDを目指す

人力VOCALOID(以下「人力」と称する)は近年の音MADでは標準的な技術と言えるでしょう
この記事ではより人間の歌声らしい成果を目指すために人力の手法自体にはあまり触れずにその原理の部分を掘り下げていきます

この記事は音MAD Advent Calendar 2022 24日目の記事です

1. 切り貼り式人力の手法はガラパゴスっぽい
2. 人力という言葉が意味すること
3. 道筋を考える
4. VOCALOIDがやっていること
5. 人力支援ツール「UTAU」
6. VOCALOIDを理解するためにUTAUを理解する
7. 連続音の登場
8. 連続音やCVVCにおけるVCの大切さ
9. 切り貼り式人力用に軽くまとめる
10. VOCALOIDと人力の決定的に違う点
11. 後は人力に応用するだけ！
12. おまけ: 波形接続型と統計モデル型
13. 最後に
14. 余談

1. 切り貼り式人力の手法はガラパゴスっぽい

軽く検索するだけでも人力の手法を解説した記事やそういった情報は結構見つかります

https://togetter.com/li/173793
https://togetter.com/li/1486670
https://note.com/lance2457/n/n885b8d23b846
https://note.com/eroerojpeg/n/nc0e8bcf0f4b9

列挙したリンク先やその他様々な情報を漁ってみると10人いれば10通りの手法があるように感じます
そうなる理由としてはそれぞれが独学によって道を切り拓いていったからなのではないかと考えられます
求めている人力にするための理屈を先に考えてから独自に手法へと昇華させているのだろうという仮説です
自分自身があまり人力の手法に関する記事を読んでこなかったことと¹ その上で自分の手法と一致する情報を見かけたことがないという辺りの経験則からもそう考えています
そのことからどれだけ多種多様な手法を用いてもその根底にある原理の部分さえ共通していれば同様の成果を目指せるのではないかと考えました
理屈を考えずに手法を定形として頭に叩き込むことも勿論可能です
しかし現状手法を統一することはかなり難しいと思えるくらいそれぞれが一長一短な側面を持つので理屈から自身の求める手法を考えて選べるようになるのが一番良いのではないかと思いました

2. 人力という言葉が意味すること

この言葉がどういう成り立ちで広まったのかはわかりませんが² この言葉は2通りの解釈があると思います

人間の手で音をなんやかんや加工してVOCALOIDのような音を目指すこと
人間の手で音をVOCALOIDのように加工して人間の歌声のような音を目指すこと

原理主義的な正解はあるかもしれませんが少なくとも近年の人力はどちらの意味としても使われていると思います
記事の冒頭でも書いたように以下では後者の方向性で「より人間の歌声のような音」を目指します
ここで言う人間らしさとは「素材となるキャラクターらしさ」や「素材となる人物らしさ」を包含します

3. 道筋を考える

一旦人力のことを忘れて考えれば
VOCALOIDを用いて人間の歌声のような音を目指す
これが一番単純です
しかしこれでは人力とは言えないので
VOCALOIDの内部処理を人間が模倣して人間の歌声のような音を目指す
という風に置き換えてみると「内部処理を模倣すること」が人力の要である気がしてきます
内部処理を模倣するためにはまず第一にその処理がどういったものであるかを理解する必要があるので VOCALOIDの内部処理を理解するという方向で進んでみます

4. VOCALOIDがやっていること

VOCALOIDでは波形接続型音声合成と言われる方法を用いて音素をダイフォンもしくはトライフォンという方式で管理して歌声合成をしています
簡潔に書くとこんな感じになると思いますがそれぞれ詳しく書いていきます

波形接続型音声合成
切り貼り式人力というやり方それ自体の言い換えと言えるかもしれません
いい感じの単位に切られた音声を繋げていくことというくらいの認識で問題なさそうな気がします
切り貼り式人力では人間の手でやることになりますがVOCALOIDでは機械が自動で切り貼りしてくれます³
音素
母音1つや子音1つというような素材の言語的な最小単位です
例として「かさ」は[k][a][s][a]という4つの音素で構成されていると言えます
ダイフォン/トライフォン
人力的な言い方をすればどの程度の単位で音素を切り出すかみたいな話です
「かえるのうたが」という歌詞を歌わせたいときに[k][a][e][r][u][n][o][u][t][a][g][a]⁴くらいの細かい単位で切り出すこともできますが使う素材に「かえるのがっしょうを」「わたしのうたが」という歌詞があれば[k a e r u n o][u t a g a]という単位で切り出すこともできます
詳しいことは後述しますが ダイフォンでは2音素で切り出しトライフォンでは3音素で切り出します⁵

つまり大雑把な言い方をするとVOCALOIDでは素材をいい感じの単位で切り出して並べているということです

5. 人力支援ツール「UTAU」

話題は打って変わって人力界の大御所であるUTAUの話です
元々UTAUというソフトは「人力ボーカロイド支援ツール(仮名)」としてリリースされており人間の手でやらなければならなかった面倒な工程を機械で補うことに特化したソフトと言えるでしょう
最初は比較的最小限の機能のみ有していましたが UTAUというソフト自体とそれを扱うコミュニティの力によってこのソフトは順調にVOCALOIDへ近づいていくこととなります⁶
ここで大事なのはかなり原始的なスタート地点からVOCALOIDを研究して模倣しようとした過程や成果がインターネット上で閲覧し放題であるということです
その全てをここにまとめることは難しいのでこの記事では簡潔に切り貼り式人力にも活かせそうなことを掻い摘んでいきます

6. VOCALOIDを理解するためにUTAUを理解する

UTAUというソフト自体は機械で切り貼りをする機能が主なため音源を別で読み込ませることによって任意の歌声合成ができます
これは「VOCALOID(ソフトウェア) + 初音ミク(音源⁷)」という構図と同様です
UTAUやVOCALOIDは特定の構造をした音源を解釈して音を切り貼りしてくれるということになります
例えば「ドナルド」というフォルダの中に「あ.wav」「い.wav」「う.wav」という音声ファイルが入っていればそれらを読み込んだUTAUには「この音源はアイウがあるんだな」と解釈させられます
実際にはどんなファイル名でもそのファイルが何の音に該当するのかをひとつひとつテキストファイルで指定することになるため「もしもしドナルドです.wav」を1つ入れておいて「この音源はシスデドナモルがあるんだな」と解釈させることも可能です
そういった仕様を利用してUTAUでは現在大きく分けて3種類の方式を採用した音源が存在しています

単独音(CV)
音MAD文脈の人力だと大体の人はこれを想定すると思います
一文字という単位で管理するので単独音
五十音素材を切り出して「あ.wav」「い.wav」「う.wav」… 「ん.wav」のようにしておく方式です
UTAUにはこれらを[a] [i] [u]… [N]と解釈させます
括弧内に書いてあるCVという表記は C=子音⁸ V=母音⁹ を表すため 「子音+母音」な音源であることを表しています(あ行などは母音オンリーです)
連続音(VCV)
一文字単位が単独音というのに対してこちらは複数の文字という単位で管理するので連続音です
完全にイコールではないですが別名をトライフォンと言います(説明上述トライフォン≒連続音=VCV)
切り出した素材を「てのひらを.wav」のようにしておきます
UTAUにはこれらを[Sil t e] [e n o] [o h i] [i r a] [a w o] と解釈させます
(Silは無音であることを表します)
CVと同様に考えるとVCVという表記から 「母音+子音+母音」な音源であると言えます
言い換えれば中心が子音の音素になるように3音素の単位で解釈させる音源とも言えます
本来は中心が母音でも3音素であればトライフォンに分類されるようなので完全イコールではないという感じです
CVVC
こちらも複数の文字という単位で管理するのですが 連続音とは解釈のさせ方が異なります
別名をダイフォンと言います(説明上述ダイフォン=CVVC)
具体的な連続音との違いはそのままトライフォンとダイフォンの違いと同じです
CVVCの意味を考えると4音素っぽく感じるかもしれませんがこれはCVとVCの2種類が混在した音源であること表しています
つまり単独音+VCを収録した音源と言えます
ファイルは「あか.wav」「いき.wav」「うく.wav」のようにします
UTAUにはこれらをCVとして[k a] [k i] [k u] VCとして[a k] [i k] [u k]と解釈させます(便宜上CVとVCを区別して書きましたがUTAUの内部的にはこれらを区別しません)

音源の種類という点で言えば他にもありますが今回はこれらに絞ります

7. 連続音の登場

連続音という概念がUTAUに持ち込まれたときは正に革命的だったようです
僕が何か書くよりも実際に当時の記事を読んだほうが内容と熱の感じが伝わりそうなのでリンクを貼っておきます
http://mox8.blog47.fc2.com/blog-entry-77.html (記事内にそれを実践した動画のリンクもあります)
ここをターニングポイントとして連続音やその後のCVVCが発展していったみたいです¹⁰
VOCALOIDがダイフォンやトライフォンを採用していることを考えるとこの時点でかなりVOCALOIDに近づけたことになりそうです

8. 連続音やCVVCにおけるVCの大切さ

上述リンクの記事通りではありますが改めてこちらにも書きます

単独音でも連続音でも「かえるのうたが」という歌詞を人力で並べることはできますが
単独音では聴こえ方のニュアンスとして「か/え/る/の/う/た/が」という風になってしまいます

[CV]　[CV]　[CV]　[CV]
と並んでいるものをギュッと繋げてみても
[CV][CV][CV][CV]
という風に各文字毎の連続性しか保たれませんが
[CV]　[VC]　[CV]　[VC]　[CV]　[VC]　[CV]
と並んでいるものをギュッと繋げて同じ音素を重ねてやることで
[CVCVCVCV]
という風に連鎖的に次の音へ繋げることが可能です
人間の声は常に連続的であるため 連鎖を起こすためのVCが重要になります
そしてこれを実現できるのがダイフォン(CVVC)やトライフォン(VCV)といった形式になります

9. 切り貼り式人力用に軽くまとめる

連続音とCVVCにはいずれもVCという要素が存在するためより人間に近い人力を実現できます
逆に言えば単独音にはVCが存在しないため原理的に人間の発音を真似することは難しいです¹¹
つまりここまでのことを踏まえると

人力のために切り出すときは1文字という単位(CV)ではなくVCも切り出すべきである(ダイフォンorトライフォンなど)
切り出した素材を重ねて連鎖させていくことが大事である

辺りのことが言えそうです

VOCALOIDではダイフォンとトライフォンを併用して合成しているようなので UTAUの連続音やCVVCについて詳しくなることでかなりVOCALOIDらしい合成を自分の手でできるようになるはずです

10. VOCALOIDと人力の決定的に違う点

VOCALOIDはギターやピアノのように扱うためにあくまでも楽器の一種として開発されています
この考えは最近発表されたVOCALOID6でも色濃く受け継いでいるためベタ打ちではかなりプレーンな音が生成されるようになっています
一方で人力という手法はその性質上素材を切り貼りした段階でかなり味付けされています
つまり切り貼りの段階でしっかりVOCALOIDのような工程を経て人間らしい発音にできてさえいればその時点で既にかなり人間らしい歌声になっているということです

11. 後は人力に応用するだけ！

後は内容を応用して人力に活かすだけです
改めて色々な手法解説の記事を読んでみてもいいかもしれませんし自分で試行錯誤しながら手法を考えてみてもいいと思います
レッツ実践！

12. おまけ: 波形接続型と統計モデル型

VOCALOIDがやっていることの話で「波形接続型音声合成」という言葉が出てきましたがそれの対になるのが「統計モデル型音声合成」です
AIきりたん(NEUTRINO)や可不(Cevio AI)辺りが有名でしょうか
波形接続型がサンプルベースで頑張るのに対して統計モデル型は機械学習で頑張るという感じです
詳しいことは今回の音MAD Advent Calendar 17日目でkaisatsuさんが書かれている記事を読むのがオススメです

https://note.com/kai_satsu/n/n8dd6e1511a85

13. 最後に

若干遠回りっぽいUTAUの話を出したのは何よりもインターネット上の情報が多いためです
音MAD文脈での人力の情報では中々見られないような情報が沢山あるのでもし興味を持った方はもっと深く色々調べてみると面白いかもしれませんし何よりも今後の人力に役立つはずです

14. 余談

人力の工程的にはこれの続きと言えるような部分の話を書くつもりでいたのにいつの間にかこういう内容になったのでいずれそちらも書きたい
元々のタイトルでは「よりリアルで人間的な」となっていたがリアルさは続きの部分が重要そうなので一旦削った
この記事の内容の誤りの指摘や情報のおすそ分けなどお待ちしてます

なので音声ファイルを手動で並べる人力を切り貼り式と呼称されているらしいことを知ったのも結構最近↩
詳しい方教えてください↩
もしかしたら人間の手でやることに対して波形接続型音声合成という言葉は用いるべきでない可能性アリ↩
発音記号は個人的にわかりやすいと感じているSynthV準拠にしてます↩
1つの音素とか2つの音素みたいな言い方はあるはずだけど1音素とか2音素みたいな言い方が存在するかはわかりません↩
勿論VOCALOIDではない別の目標を持って発展に貢献していた方々もいらっしゃると思います↩
VOCALOIDやUTAUでは歌声ライブラリーと言ったりボイスバンクと言ったり単にライブラリーと言ったり音源と言ったり表記揺れみたいでややこしいのでこの記事では呼称を「音源」で統一します↩
consonant↩
vowel↩
もしかしたら違うのかも　この辺りについて詳しい人は是非教えてください↩
音声ファイルはあくまでも連続したサンプルの集まりであることを考えると1サンプルずつ打っていけば可能ではありそうですが↩

追ッ加ー

英: Tikker