2022-12-24

本家VOCALOIDやUTAUに学んでより人間的な人力VOCALOIDを目指す

人力VOCALOID(以下「人力」と称する)は近年の音MADでは標準的な技術と言えるでしょう
この記事ではより人間の歌声らしい成果を目指すために人力の手法自体にはあまり触れずにその原理の部分を掘り下げていきます

この記事は音MAD Advent Calendar 2022 24日目の記事です

1. 切り貼り式人力の手法はガラパゴスっぽい
2. 人力という言葉が意味すること
3. 道筋を考える
4. VOCALOIDがやっていること
5. 人力支援ツール「UTAU」
6. VOCALOIDを理解するためにUTAUを理解する
7. 連続音の登場
8. 連続音やCVVCにおけるVCの大切さ
9. 切り貼り式人力用に軽くまとめる
10. VOCALOIDと人力の決定的に違う点
11. 後は人力に応用するだけ！
12. おまけ: 波形接続型と統計モデル型
13. 最後に
14. 余談

1. 切り貼り式人力の手法はガラパゴスっぽい

軽く検索するだけでも人力の手法を解説した記事やそういった情報は結構見つかります

https://togetter.com/li/173793
https://togetter.com/li/1486670
https://note.com/lance2457/n/n885b8d23b846
https://note.com/eroerojpeg/n/nc0e8bcf0f4b9

列挙したリンク先やその他様々な情報を漁ってみると10人いれば10通りの手法があるように感じます
そうなる理由としてはそれぞれが独学によって道を切り拓いていったからなのではないかと考えられます
求めている人力にするための理屈を先に考えてから独自に手法へと昇華させているのだろうという仮説です
自分自身があまり人力の手法に関する記事を読んでこなかったことと¹ その上で自分の手法と一致する情報を見かけたことがないという辺りの経験則からもそう考えています
そのことからどれだけ多種多様な手法を用いてもその根底にある原理の部分さえ共通していれば同様の成果を目指せるのではないかと考えました
理屈を考えずに手法を定形として頭に叩き込むことも勿論可能です
しかし現状手法を統一することはかなり難しいと思えるくらいそれぞれが一長一短な側面を持つので理屈から自身の求める手法を考えて選べるようになるのが一番良いのではないかと思いました

2. 人力という言葉が意味すること

この言葉がどういう成り立ちで広まったのかはわかりませんが² この言葉は2通りの解釈があると思います

人間の手で音をなんやかんや加工してVOCALOIDのような音を目指すこと
人間の手で音をVOCALOIDのように加工して人間の歌声のような音を目指すこと

原理主義的な正解はあるかもしれませんが少なくとも近年の人力はどちらの意味としても使われていると思います
記事の冒頭でも書いたように以下では後者の方向性で「より人間の歌声のような音」を目指します
ここで言う人間らしさとは「素材となるキャラクターらしさ」や「素材となる人物らしさ」を包含します

3. 道筋を考える

一旦人力のことを忘れて考えれば
VOCALOIDを用いて人間の歌声のような音を目指す
これが一番単純です
しかしこれでは人力とは言えないので
VOCALOIDの内部処理を人間が模倣して人間の歌声のような音を目指す
という風に置き換えてみると「内部処理を模倣すること」が人力の要である気がしてきます
内部処理を模倣するためにはまず第一にその処理がどういったものであるかを理解する必要があるので VOCALOIDの内部処理を理解するという方向で進んでみます

4. VOCALOIDがやっていること

VOCALOIDでは波形接続型音声合成と言われる方法を用いて音素をダイフォンもしくはトライフォンという方式で管理して歌声合成をしています
簡潔に書くとこんな感じになると思いますがそれぞれ詳しく書いていきます

波形接続型音声合成
切り貼り式人力というやり方それ自体の言い換えと言えるかもしれません
いい感じの単位に切られた音声を繋げていくことというくらいの認識で問題なさそうな気がします
切り貼り式人力では人間の手でやることになりますがVOCALOIDでは機械が自動で切り貼りしてくれます³
音素
母音1つや子音1つというような素材の言語的な最小単位です
例として「かさ」は[k][a][s][a]という4つの音素で構成されていると言えます
ダイフォン/トライフォン
人力的な言い方をすればどの程度の単位で音素を切り出すかみたいな話です
「かえるのうたが」という歌詞を歌わせたいときに[k][a][e][r][u][n][o][u][t][a][g][a]⁴くらいの細かい単位で切り出すこともできますが使う素材に「かえるのがっしょうを」「わたしのうたが」という歌詞があれば[k a e r u n o][u t a g a]という単位で切り出すこともできます
詳しいことは後述しますが ダイフォンでは2音素で切り出しトライフォンでは3音素で切り出します⁵

つまり大雑把な言い方をするとVOCALOIDでは素材をいい感じの単位で切り出して並べているということです

5. 人力支援ツール「UTAU」

話題は打って変わって人力界の大御所であるUTAUの話です
元々UTAUというソフトは「人力ボーカロイド支援ツール(仮名)」としてリリースされており人間の手でやらなければならなかった面倒な工程を機械で補うことに特化したソフトと言えるでしょう
最初は比較的最小限の機能のみ有していましたが UTAUというソフト自体とそれを扱うコミュニティの力によってこのソフトは順調にVOCALOIDへ近づいていくこととなります⁶
ここで大事なのはかなり原始的なスタート地点からVOCALOIDを研究して模倣しようとした過程や成果がインターネット上で閲覧し放題であるということです
その全てをここにまとめることは難しいのでこの記事では簡潔に切り貼り式人力にも活かせそうなことを掻い摘んでいきます

6. VOCALOIDを理解するためにUTAUを理解する

UTAUというソフト自体は機械で切り貼りをする機能が主なため音源を別で読み込ませることによって任意の歌声合成ができます
これは「VOCALOID(ソフトウェア) + 初音ミク(音源⁷)」という構図と同様です
UTAUやVOCALOIDは特定の構造をした音源を解釈して音を切り貼りしてくれるということになります
例えば「ドナルド」というフォルダの中に「あ.wav」「い.wav」「う.wav」という音声ファイルが入っていればそれらを読み込んだUTAUには「この音源はアイウがあるんだな」と解釈させられます
実際にはどんなファイル名でもそのファイルが何の音に該当するのかをひとつひとつテキストファイルで指定することになるため「もしもしドナルドです.wav」を1つ入れておいて「この音源はシスデドナモルがあるんだな」と解釈させることも可能です
そういった仕様を利用してUTAUでは現在大きく分けて3種類の方式を採用した音源が存在しています

単独音(CV)
音MAD文脈の人力だと大体の人はこれを想定すると思います
一文字という単位で管理するので単独音
五十音素材を切り出して「あ.wav」「い.wav」「う.wav」… 「ん.wav」のようにしておく方式です
UTAUにはこれらを[a] [i] [u]… [N]と解釈させます
括弧内に書いてあるCVという表記は C=子音⁸ V=母音⁹ を表すため 「子音+母音」な音源であることを表しています(あ行などは母音オンリーです)
連続音(VCV)
一文字単位が単独音というのに対してこちらは複数の文字という単位で管理するので連続音です
完全にイコールではないですが別名をトライフォンと言います(説明上述トライフォン≒連続音=VCV)
切り出した素材を「てのひらを.wav」のようにしておきます
UTAUにはこれらを[Sil t e] [e n o] [o h i] [i r a] [a w o] と解釈させます
(Silは無音であることを表します)
CVと同様に考えるとVCVという表記から 「母音+子音+母音」な音源であると言えます
言い換えれば中心が子音の音素になるように3音素の単位で解釈させる音源とも言えます
本来は中心が母音でも3音素であればトライフォンに分類されるようなので完全イコールではないという感じです
CVVC
こちらも複数の文字という単位で管理するのですが 連続音とは解釈のさせ方が異なります
別名をダイフォンと言います(説明上述ダイフォン=CVVC)
具体的な連続音との違いはそのままトライフォンとダイフォンの違いと同じです
CVVCの意味を考えると4音素っぽく感じるかもしれませんがこれはCVとVCの2種類が混在した音源であること表しています
つまり単独音+VCを収録した音源と言えます
ファイルは「あか.wav」「いき.wav」「うく.wav」のようにします
UTAUにはこれらをCVとして[k a] [k i] [k u] VCとして[a k] [i k] [u k]と解釈させます(便宜上CVとVCを区別して書きましたがUTAUの内部的にはこれらを区別しません)

音源の種類という点で言えば他にもありますが今回はこれらに絞ります

7. 連続音の登場

連続音という概念がUTAUに持ち込まれたときは正に革命的だったようです
僕が何か書くよりも実際に当時の記事を読んだほうが内容と熱の感じが伝わりそうなのでリンクを貼っておきます
http://mox8.blog47.fc2.com/blog-entry-77.html (記事内にそれを実践した動画のリンクもあります)
ここをターニングポイントとして連続音やその後のCVVCが発展していったみたいです¹⁰
VOCALOIDがダイフォンやトライフォンを採用していることを考えるとこの時点でかなりVOCALOIDに近づけたことになりそうです

8. 連続音やCVVCにおけるVCの大切さ

上述リンクの記事通りではありますが改めてこちらにも書きます

単独音でも連続音でも「かえるのうたが」という歌詞を人力で並べることはできますが
単独音では聴こえ方のニュアンスとして「か/え/る/の/う/た/が」という風になってしまいます

[CV]　[CV]　[CV]　[CV]
と並んでいるものをギュッと繋げてみても
[CV][CV][CV][CV]
という風に各文字毎の連続性しか保たれませんが
[CV]　[VC]　[CV]　[VC]　[CV]　[VC]　[CV]
と並んでいるものをギュッと繋げて同じ音素を重ねてやることで
[CVCVCVCV]
という風に連鎖的に次の音へ繋げることが可能です
人間の声は常に連続的であるため 連鎖を起こすためのVCが重要になります
そしてこれを実現できるのがダイフォン(CVVC)やトライフォン(VCV)といった形式になります

9. 切り貼り式人力用に軽くまとめる

連続音とCVVCにはいずれもVCという要素が存在するためより人間に近い人力を実現できます
逆に言えば単独音にはVCが存在しないため原理的に人間の発音を真似することは難しいです¹¹
つまりここまでのことを踏まえると

人力のために切り出すときは1文字という単位(CV)ではなくVCも切り出すべきである(ダイフォンorトライフォンなど)
切り出した素材を重ねて連鎖させていくことが大事である

辺りのことが言えそうです

VOCALOIDではダイフォンとトライフォンを併用して合成しているようなので UTAUの連続音やCVVCについて詳しくなることでかなりVOCALOIDらしい合成を自分の手でできるようになるはずです

10. VOCALOIDと人力の決定的に違う点

VOCALOIDはギターやピアノのように扱うためにあくまでも楽器の一種として開発されています
この考えは最近発表されたVOCALOID6でも色濃く受け継いでいるためベタ打ちではかなりプレーンな音が生成されるようになっています
一方で人力という手法はその性質上素材を切り貼りした段階でかなり味付けされています
つまり切り貼りの段階でしっかりVOCALOIDのような工程を経て人間らしい発音にできてさえいればその時点で既にかなり人間らしい歌声になっているということです

11. 後は人力に応用するだけ！

後は内容を応用して人力に活かすだけです
改めて色々な手法解説の記事を読んでみてもいいかもしれませんし自分で試行錯誤しながら手法を考えてみてもいいと思います
レッツ実践！

12. おまけ: 波形接続型と統計モデル型

VOCALOIDがやっていることの話で「波形接続型音声合成」という言葉が出てきましたがそれの対になるのが「統計モデル型音声合成」です
AIきりたん(NEUTRINO)や可不(Cevio AI)辺りが有名でしょうか
波形接続型がサンプルベースで頑張るのに対して統計モデル型は機械学習で頑張るという感じです
詳しいことは今回の音MAD Advent Calendar 17日目でkaisatsuさんが書かれている記事を読むのがオススメです

https://note.com/kai_satsu/n/n8dd6e1511a85

13. 最後に

若干遠回りっぽいUTAUの話を出したのは何よりもインターネット上の情報が多いためです
音MAD文脈での人力の情報では中々見られないような情報が沢山あるのでもし興味を持った方はもっと深く色々調べてみると面白いかもしれませんし何よりも今後の人力に役立つはずです

14. 余談

人力の工程的にはこれの続きと言えるような部分の話を書くつもりでいたのにいつの間にかこういう内容になったのでいずれそちらも書きたい
元々のタイトルでは「よりリアルで人間的な」となっていたがリアルさは続きの部分が重要そうなので一旦削った
この記事の内容の誤りの指摘や情報のおすそ分けなどお待ちしてます

なので音声ファイルを手動で並べる人力を切り貼り式と呼称されているらしいことを知ったのも結構最近↩
詳しい方教えてください↩
もしかしたら人間の手でやることに対して波形接続型音声合成という言葉は用いるべきでない可能性アリ↩
発音記号は個人的にわかりやすいと感じているSynthV準拠にしてます↩
1つの音素とか2つの音素みたいな言い方はあるはずだけど1音素とか2音素みたいな言い方が存在するかはわかりません↩
勿論VOCALOIDではない別の目標を持って発展に貢献していた方々もいらっしゃると思います↩
VOCALOIDやUTAUでは歌声ライブラリーと言ったりボイスバンクと言ったり単にライブラリーと言ったり音源と言ったり表記揺れみたいでややこしいのでこの記事では呼称を「音源」で統一します↩
consonant↩
vowel↩
もしかしたら違うのかも　この辺りについて詳しい人は是非教えてください↩
音声ファイルはあくまでも連続したサンプルの集まりであることを考えると1サンプルずつ打っていけば可能ではありそうですが↩

2022-11-10

音MADで手描きと向き合った話

先日音MADを投稿しました

nico.ms

↑これを作るにあたって手描きに挑戦したという話
記事の内容としては技術解説やコツみたいな話を基本的に含みません
日記の延長線みたいな行動と思考の記録みたいな内容です
この記事は音MAD Advent Calendar 2022 in Summer 30日目の記事です

1. 構想
2. 前提
3. 実際にやったこと
4. 反省点
5. 今後
6. 余談

1. 構想

まだ曲も素材も手描きをすることも決まってない段階で一番最初に思ったのは「人力を頑張りたい」というところだった
なので最初に曲とキャラクターで相性のよさそうな組み合わせを考えた
その辺りが定まってきた段階で手描きの必要性を考えた始めた
某曲の音MADでは「手描きノルマ」なる言葉が散見される程度には音MADにおいて手描きという手法は当たり前になってきている
しかし手描きノルマという言葉の存在が手描きをする理由になってしまっては手段と目的が逆転している(と個人的には思っている)
これは手描きノルマと言われがちな曲に限らず色々な曲で言えるはずで今回はその例に漏れず手描きという手法がキャラクターとか出来上がるであろう音声とかの魅力を潰さず活かしてくれるかみたいなことを考えた
正直そういう面で消極的になることは少ないだろうが曲との適正があるキャラクターが常にMVとも適正があるとは限らないはずなのでそのキャラクターはMVのようなポーズをとるだろうかみたいなことも考える
音MAD的には破壊の面白さみたいな分野もあるが今回その方向は狙わないので考慮せずただ合うかどうかで考える
今回においては性格や実際の漫画やアニメでの描写から考えると十分妥当なポーズをしているし特にそぐわない部分は無さそうだと感じた
致命的な相違といえば服装で MVのように登校時からジャージなレベルで普段からそれを着ているキャラクターではなかったが十分変更可能な範囲だと考えた

2. 前提

まず第一に僕の画力はかなり低い
そう見えないように努力はしたがちゃんと隠しきれているかはわからない
またこの記事が技術解説記事でないのはその辺に由来している
画力自体は以前から常々欲しいと思っているので描くための環境自体はそれとなく整えてある
画力向上のために練習で何か描いてみることはたまにあったが何度やってもマンゾクのマの字にもならず工程的に言えばラフかよくても下描きくらいの段階で頓挫しては数ヶ月期間が空いてリベンジしてまた頓挫みたいなことを繰り返していた
なので結局これまで一度も線画や塗りといった工程を経験したことがなかった
こういう技術向上系の話では下手でもとりあえず完成させることが大事みたいな話が多いし僕自身その言説にはどちらかというと肯定的である
そんな感じの過程がありこれを機に一度絵の完成体験をしてみたいと思った
この段階で「絵を完成させる」も目標の1つになった

3. 実際にやったこと

絵の作業から逃げられない状況を作った

とりあえず音声を完成させてしまえばそのまま絵を頑張るための縛りにできると考えた
縛りを完遂するためにも(無論そのためだけではないが)音声は183にしたくないと思えるものになるよう注力した
合わせて目標投稿日時も設定して作業を後回しにしないようにした
手描きのハードルがなるべく低くなるよう意識した

頓挫はしたくなかったのでハードルが下がることを良しとした
一例としては尺の短さとか
作品の内容を左右する部分を決める理由としてはかなり不健全だと思うし実際最初はワンコーラス+αくらいの長さで作るつもりではあったので一応音声は一度そのくらいの尺バージョンも作ってみたがその上でかなり冗長的に感じたので最終的にはあの尺になった
要はハードルを下げるために何かするというよりは結果的にハードルが下がる選択をなるべく喜んでいこうみたいな
画風を原曲MVではなく素材の原作寄りにした

原曲のMVは言うなればシンプルな画風と言えるだろうがこれを僕が見様見真似でやろうとしても塗りが終わってない作業途中の絵みたいに見えるだろうと考えた
配信されている原曲のシングルのジャケ画像はまた少し違った画風になっているがこれをベースにするのも難しそうだと判断した
それと同時に全体的な構成をキャラクター側に寄せたかったみたいな意図もあった
あまり深く考えてないがもしかしたら上記ハードルの観点からは逆行しているのかもしれない
あまりトレースをしなかった

明らかにハードルの話から逆行しているやつ
構想の項目でも若干触れているがジャージから別の衣装にする必要性の話とかポーズも改めてこの人物が本当にこの姿勢を取るのであればもうちょっとこの辺に手をあてるんじゃないかとか色々考えてたら結果的にほぼトレースで対処できなくなった
重ねて比較してみると顎と頭の輪郭と顔のパーツらへんだけトレース要素が残っている
それなりにリファレンスを漁った

同じ曲の音MADや手描きMADや歌ってみたあるいはPixivやTwitterに上がってるファンアートなど色々
別に手描きに限らずリファ漁りは大事だが今回は比較的しっかりやった気がする
ジャージ程厚くない素材の服でどういう体の輪郭になるかを一番の目的として漁っていたがほとんどの手描きにおいてジャージやパーカーなど厚手の上着を着ていてその方向ではあまり参考にならなかった
一方でキャラデザのリファ集めも必要だったのでアニメや原作を鑑賞しつつ参考になる画像をフォルダに集めた
実際にベースにするのを原作のキャラデザにしようと考えたのはこの辺りだった気がする
一応キャラクター側の二次創作イラストも漁ったが結局ほとんど参考にしなかった
頑張って描いた

描いた
完成させた

やったね

4. 反省点

下描きの段階で違和感のある箇所を妥協して進めた
- デッサンが崩れていることがわかってもそもそものデッサン経験値が低すぎて何度描き直しても違和感が無くならなかった
- ので後で進めながら修正しようと思って線画や色塗りまで進めた結果修正する気がゼロになった
  - 修正しながら進められるのなら多分最初から下描き段階でしっかり描けてたのだろうし根本部分の修正の労力は進捗すればする程上がる
時間かかりすぎ
- ワンドロなる文化があったり1日1絵みたいな文化があったりするのでそれらと比較して圧倒的に時間がかかった
  - 動画に使った絵だけで1週間強
- そもそも息抜きにワンドロをやるような方々と比較するのが間違っているかもしれないが遅いものは遅い
デカすぎ
- 今回は動画の構成上絵を拡大して使ったりはしない上にFHDより大きい解像度の動画にはしないとわかっていながら8kサイズ(7680x4320)のキャンバスで描いた
- 大は小を兼ねるのであまり後悔はしてないがよっぽどそんなサイズである意味が無い場合はもっと適切なサイズがあるかもしれない
  - 今回PC負荷あたりの問題は無かったが実はデカすぎると比較的描くのが難しくなるんじゃないかという仮定
作業時間を甘く見積もって投稿目標日時を超過した
- 丁度よかったので本当は7月20日に上げる予定だった
  - 🦀
- よっぽどな妥協と超過を天秤にかけて結局満足するまで作ることにした
表情差分の妥協
- 描き始める前に必要なものをしっかりリストアップしなかったので動画を作りながら表情差分(半目開いた表情)が足りないことに気付いた
- 歌詞も書かなきゃじゃんってそのときに思い出したが時間的にこれ以上は厳しいという建前で歌詞だけ追加で書いて表情は別の内容の差分を描いて妥協した
  - その人物がその表情をするかみたいな部分も大事なのでこの妥協が常に悪だったとは思ってない　が最初にあった思考が人物像ではなく単に追加の労力を回避する方法だったのでそこが反省点と言える
腰痛すぎ
- 腰痛すぎ
  - 多分姿勢の問題で腰が痛すぎた
- 絵と向き合うときは前からそうだったので対策を考えたいが机を変えるとか椅子を変えるとか予算と労力などを考えたくない
- 腰痛すぎ

5. 今後

結構パワープレイで完成まで漕ぎ着けた感が強いので今後これを安定して何回もやれる気は全くしていない
そもそもこの記事自体が今後の自分宛てに当時の解決方法を思い出させるために書いたようなものなのに肝心な部分が何も参考にならなそう
今回とは別のアプローチを模索していこう

6. 余談

毎回毎回動画を上げる度にこんな色々書く気力はないが自分の中ではそれなりに大きめな一歩だったのでアドベントカレンダーに乗じて言語化した
書く前からそうなる気はしてたが書いていく内にどんどん内容がアドベントカレンダー向きじゃなくなっていった実感がある
この記事を書くにあたってエディタの環境をそれなりに整えたので次書くときは結構スムーズに書けるかもしれない
人力に触れるといよいよ記事の収集がつかなくなるので意図的に触れていないが機会があればそっちの話もするかもしれない

追ッ加ー

英: Tikker