ロングセラー

人工知能はバーチャル美少女に魔法をかけるのか?——2年後のメタバース進化論(後編)

この記事を読むのに必要な時間:およそ 4.5 分

2022年3月19日,メタバース進化論――仮想現実の荒野に芽吹く「解放」「創造」の新世界が刊行された。コロナ禍によりメタバースが一挙に注目を集めることとなったタイミングで世に出た本書は,VRChatをはじめとするソーシャルVRの“住人”たちの文化を通して,技術の進化の先に訪れる未来を語ったものとして大いに反響を呼んだ。

それから2年――日常風景の多くはコロナ禍以前に戻り,メタバースという言葉を目にする機会もひと頃と比べれば少なくなった。⁠メタバース進化論」で未来の原風景として描かれたソーシャルVRは現在どうなっているのだろうか?「メタバース進化論」刊行2周年を記念して,著者であるバーチャル美少女ねむ氏に担当編集が“メタバースの今”を伺った。

折しも2023年11月にねむ氏はソーシャルVRライフスタイル調査2023を発表している。これはソーシャルVRの利用者を対象にした大規模公開アンケート調査であり,⁠メタバース進化論」のもととなったソーシャルVRライフスタイル調査2021の後継でもある。⁠2023」「2021」二つの調査の比較も交えつつ“メタバースの今”を「前編」⁠後編」の2回に分けて探っていこう。

前編では刊行から2年,VRの世界の変化について人口増加・経済活動の観点から,今回はテクノロジーの進化・各専門家との交流による「バーチャル文化」の変遷について伺った。

前編はこちら↓
https://gihyo.jp/book/longseller/2024/0001

「どんな声にでもなれる」技術の登場

――実は,これが個人的に一番聞きたいことだったのですが,音声コミュニケーションの選択肢に「AIボイチェン」という言葉が登場していたのが気になりました。ボイスチェンジャー(ボイチェン)の利用動向の変化について聞きたいです。

ねむ:音声コミュニケーションに関してこの2年間で一番の事件はAIボイチェンの登場で,実際にどれくらいの人が使っているのか知りたかったんです。ふたを開けてみると面白い結果になりました。グラフの赤が新しく登場したAIボイチェン,オレンジが私の使っているような従来のエフェクター方式のボイチェン。結論からいうと,ボイチェンを使っている人の一部がAIボイチェンに移行しただけで,ボイチェン全体の割合は実は2年前と同じ9%のままで変わっていないという結果でした。AIボイチェンの登場で「メタバースでは自由な声で話せる時代になったのでは」と言われがちなんですけど,実はまだそうでもないんです。

meta_04.jpg

「声の出し方」は2年間で大きく変わらなかった ⁠VRライフスタイル調査2023」より

meta_05.jpg

「声の出し方」は2年間で大きく変わらなかった ⁠VRライフスタイル調査2021」より

――もともとボイチェン使っている人の間でだけ受け容れられているような状況なんですかね。

ねむ:まず「AIボイチェン」の説明からしたほうがいいですね。まず,今私が使っているような従来型のボイチェンがやっていることは,要はエフェクターです。私のもとの声にエフェクトをかけることで声の高さや音色などを変えています。AIボイチェンはこれとは根本的に違うもので,簡単にいうと機械学習でもとの声と変換先の声をそれぞれ学習して,リアルタイムに全く別人の声に置き換えてしまいます。たとえば石井さん(注:担当編集)の声をかわいい声優さんの声にすることも理論上は可能です。

AIボイチェンのメリットはどんな声にも変換できることです。デメリットもあって,一番はシンプルに演算処理が非常に重いことですね。VRをやるだけでゲーミングPCのビデオカードの処理能力を使い切っているのに,AIボイチェンを満足に動かそうとすると,もう1枚ビデオカードが欲しくなってきます。

重いということは当然処理に時間もかかるわけです。現状どうしてもかなりのタイムラグが発生するので,リアルタイム性ではエフェクター方式に劣りがちなのも欠点です。性能が良いビデオカードを使っても変換にコンマ何秒とかかかるわけです。当然しゃべりづらい。この問題を解決するために,⁠相手にはかわいい声が聞こえている」と信じて「変換後の声を自分では聞かない」という方法もあって,実際にそれでやっている人も結構います。ただこれにも難しい問題があって。

声は自分自身に魔法をかける

ねむ:私の場合,声はハードウェア方式の外付けボイスチェンジャーで変換していて,パソコンでは一切演算処理してないんです。つまりノータイムで変換後の声が自分に戻ってくる。石井さんが今聞いているこの私の声がイヤホンで私の耳に戻るようにしているので,実は私にはもとの自分の声は全く聞こえない状態になっています。私の声は私自身にとっても「ねむちゃん声」で上書きされているんです。

meta_06.jpg

ねむ氏のボイスチェンジャー本人Xより)

ねむ:これはすごく重要で,本にも書いたんですが,声は単なるコミュニケーションツールというよりは,アイデンティティの構成要素だと私は考えています。声の一番のオーディエンス,魔法をかける対象は,実は自分自身なんです。私はボイチェンをかけるとしゃべりかたも普段とはがらっと変わってしまいます。例えばですが,石井さん,相手にはかわいい声で聞こえているとしても,自分には自分の声がおっさんの声のままで聞こえていたら,かわいい振る舞いや喋り方ができますか?

――うーん,できない気がしますね。

ねむ:できないですよね。自分の中の違う自分を引っ張り出す意味で,変換後の声がリアルタイムで自分にフィードバックされることはものすごいインパクトを秘めているので,遅延がないのは大事なんです。AIボイチェンは現状遅延が大きいので,それが難しいのが欠点の一つですね。また,歌を歌ったりすることも難しいです。そのかわりに,もとの声質と関係なく,学習データさえあれば全く違う好きな声に変換できるので,声優さんの声とかにもできてしまうのは強みです。

――そうなってくると声優の方々が問題視している事例にも近づいてきますね。

ねむ:ディープフェイクやなりすましの問題ですね。アニメに出演している声優さんなどは無限に学習データがあるので,技術的にはいくらでも声が盗まれてしまう。そういった権利上の課題もAIボイチェンにはありますね。そういう事情もあって,現状AIボイチェンでは“ずんだもん”の声を利用する人がすごく多かったりします。あの声は比較的自由に使える規約になっているので。今VRChatでずんだもんの声で喋っている人はだいたいAIボイチェンだと思っていいです。

――ねむさんが覚えているかはわからないですが,「メタバース進化論」の執筆の際に「声に関する部分をもっと短くできませんか?」とコメントしたら,「私の言いたいことが石井さんにまったく伝わっていないことがわかったので,全部書き直します」って返事が返ってきて……。

ねむ:それで倍くらいの文章量にして戻したんですよね(笑⁠⁠。石井さんの意に逆らって。

――それもあって,声とアイデンティティの関係はこの本で一番印象に残っているところでした。

ねむ:こういうのは体験しないとわからないですね。私自身も,声がアイデンティティの要素だとしっかり説明しないと一般の方に理解してもらえないとわかって,あのエピソードはとても勉強になりました。アバターなどと違ってビジュアルで説明しづらいので,直感的にわかりづらいんですよね。

――話は戻りますが,「VRライフスタイル調査」の結果では,AIボイチェンはそこまでシェアを獲得できなかったと。

ねむ:現状はそうですね。でも,AIボイチェンの可能性はものすごくおおきいですよ。例えば,複数の声を混ぜて全く新しい声を作り出すこともできる。遅延や権利の問題が解決したら一気に跳ねる可能性はあると思います。ただ,実用段階まではあと一歩かなというのが実際に試した私の印象ですね。

――ちなみに,そういった問題が解消したらねむさん自身はAIボイチェンを使いますか?

ねむ:それは……良い質問ですね(笑)今から全く新しい美少女として活動をはじめるなら迷わず使ったと思います。声の可愛さではAIボイチェンには敵わないと思うので。でも,私の場合は,長らく活動を続けて来て,この特徴的なガビガビ声が私自身のアイデンティティと深く結びついてしまっているんです。実は,AIボイチェンの紹介動画も作ってYouTubeで公開したのですが,⁠ねむちゃん声変えないで!」みたいなコメントが意外と多くて,複雑な思いでした(笑)

※参考:リアルタイムAIボイチェン「RVC」で完全美少女ボイスになってみた!【機械学習 by Retrieval-based Voice Conversion⁠⁠ - YouTube -

――たしかに,正直ねむさんといったらこの声という印象はすごく強いです。

「仮想世界を現実だと思えるという感覚」を誰もが獲得できるように

――最後に「メタバース進化論」の締めでもあった「肉体からの解放」について伺いたいのですが,ファントムセンス※1の調査結果には変化がありましたか?

(※1)ファントムセンス:VR体験中に得る擬似的な感覚のこと。しっぽがあるアバターの利用者がVRでしっぽを触られると“実際にしっぽを触られた”と感じるなど。

ねむ:ファントムセンスについては驚くほど2年前と結果が変わらなかったんです。全体的な傾向も,感じている感覚の種類も,感じる部位も,大きくは変わりませんでした。人口の急増に伴いカジュアルなユーザーが増えたと思うんですが,こういった感覚的なものは意外と普遍的な傾向があるのかもしれません。

――身体的な反応はそうなのかもしれませんね。
meta_07.jpg

ファントムセンスの傾向には大きな変化がなかった(⁠⁠VRライフスタイル調査2023」より)

ねむ:実は今回,マルタ大学の先生にレポート全体の総評を書いてもらったんです。そこで「ファントムセンスはVR体験の没入度合いの指標になるのでは」という指摘をもらいました。VRの没入感って,実はこれまで定量的に表現する指標があまりなかったんです。その指標にファントムセンスが使えるのではという指摘で,なるほどなと思いました。どういう人がメタバースになじみやすいのかなど,今後の研究のきっかけになると嬉しいですね。⁠判定結果,メタバース適正A+!今すぐメタバースをやりなさい!」みたいな(笑)

――急にSF感が出てきた。

「え,私適正A+!?メタバースやるしかないじゃん!?」といったように,自分の意外な才能がわかると面白いと思います。そうすると,例えば適正によって導入のアプローチを変えることで,メタバースをもっと受け容れやすくなるかもしれない。今はやっぱりハードルが高いじゃないですか。

自分自身の実感としても,ファントムセンスが指標として使える可能性は感じています。実は私も,VRをはじめたばかりのころは3Dの映像を見ているだけという印象で,今程の没入感は感じていなかったんですよ 。それが,フルトラをはじめて体を自由自在に動かせるようになり,自分専用のアバターができ,と深みにはまっていくにつれて現実と変わらない没入感が芽生えてきた 。VRへの没入感の変化を数値化することで,没入感を効率的に獲得する手法を確立して,⁠この世界を現実だと思えるという感覚」を誰もが得られるようにしたいなと思います。

脳にまつわる科学の進化

――「肉体からの解放」といえばニューラリンクのニュースがありました。

ねむ:イーロン・マスクの話もしますか※2

(※2)ニューラリンクとイーロン・マスク:ニューラリンクは脳の信号で機器の操作などを行う技術の実用化を目指す企業で,イーロン・マスクが設立した。2024年1月29日には人間の脳に小型機器を埋め込む実証実験を行うことを発表した。

――ねむさん的には,本当は「脳みそ直挿し」みたいなことが究極の理想なのかなと思うのですがいかがでしょうか。

ねむ:もちろんそうです(笑⁠⁠。現状のVRは,やはりまどろっこしいですよね。究極的にはBMI※3が理想だと思いますし,遂に人間に対してインプラントの実証実験がはじまったのはかなり大きい話だと思います。⁠攻殻機動隊」の作中で笑い男事件が起こったのが2024年ということでちょうど最近話題になりました。それと比べるとややビハインドですが,現実も遂に攻殻機動隊の世界に近づいて来た※4。イーロンはレーシック手術と同じくらいの感覚でBMIを埋め込めるようにしたいと言っています。ニューラリンクも本気で商業化しようとしているし,たった数年でここまで来たのはすごい進歩だと思います。

(※3)BMI:脳と機械を直接つなぐ機器。ブレイン・マシン・インターフェイスの略。

(※4)笑い男事件:2024年2月1日に起きたとされる架空の事件。脳を機械に直接つなぐ技術が登場するアニメ「攻殻機動隊 STAND ALONE COMPLEX」で描かれた。本インタビューは24年2月6日に行われている。

ねむ:ただ,BMIには「上り」「下り」があるんですよね。脳みそが上で体が下だとしたときに,脳の情報を機械で読み取る「下り」は実は昔からかなりのレベルに達していました。一方で「上り⁠⁠,つまり脳に情報をインプットするのが技術的な難易度が高く課題だと言われていました。ただ,この間神経科学者の紺野先生と対談した際に聞いたんですが,難しいと言われていた「上り」の技術がここ数年で劇的に進化しているそうです。⁠上り」が難しかったのは,信号をどのような形にエンコードすれば脳が理解してくれるのかわからないということでした。それが,紺野先生が紹介してくれた近年の研究事例では,例えば,脳の表面に電気信号で絵を描くと,訓練すればどんな絵が描かれているかわかるようになったケースがあったそうです。これは衝撃的なことで,実は複雑なエンコードは不要で,脳の表面に直接描けばいいだけだったのかもしれない。

――そんな背中に文字を書くみたいな感じで……。

ねむ:脳ってすごいですよね(笑)こういった近年の研究の劇的な進歩を考えると,⁠脳にぶすってできる世界」もそう遠くない気がしてきます。メタバース経済と物理現実の経済の話をしたばかりですが,それを超えた世界が意外と早く実現するかもしれない。もう「水槽の脳」でいいじゃん,みたいな(笑)

「バーチャル美少女ねむ 運営様」と書かれた世界が変わった

ねむ:紺野先生もそうですが,本を出して以降,専門家のかたとお話させて頂く機会が増えましたね。これはものすごく刺激になっています。また,大学等で授業をしてほしいという依頼も増えました。最近では月一以上のペースで授業や講演をやっています。

国連や国の省庁の会議体に「バーチャル美少女ねむ」なんて怪しさ満点の存在が呼ばれるなんて,人類はすでに進化していると思いますよ(笑⁠⁠。一昔前では完全に珍獣扱いでしたから,考えられなかったことです。前は企業等からメールを頂くときも「バーチャル美少女ねむ 運営様」という書き出しだったんですけど,今は「バーチャル美少女ねむ様」とすっかり変わりました。バーチャルな存在がちゃんと生きている存在と見なされるようになったのは本当にすごいことですよね。

――そういえば最初に連絡したとき,ねむさんからの返信には「バーチャルねむ運営」と署名してありました。

ねむ:私自身もそう書かないといけないと思っていたんです。あれからほんの4〜5年で全然違う世界になったなと思います。だからこそ調査のスナップショットを残しておくことに意義がある。日本は世界に先んじてバーチャルの文化が広がっていると思うので,それを今度は世界に発信して行きたい。少子化と高齢化だけが日本の輸出物だなんて悔しいじゃないですか。

――そんな課題先進国みたいなことばかりじゃなく……。

ねむ:これからはバーチャル先進国でいきましょう!

ブームが去って一段落かと思いきや,順調に規模を拡大しているというソーシャルVR。AIをはじめとする技術の発展・普及も加わり,⁠バーチャル文化」はまだまだその進化を止めていないようだ。各分野の専門家と交流しながらパワーアップを続けるバーチャル美少女ねむ氏とともに,その行く末に今後も目が離せない。

※出典:ソーシャルVRライフスタイル調査2023

※書籍はこちら:メタバース進化論 ――仮想現実の荒野に芽吹く「解放」「創造」の新世界

著者プロフィール

石井智洋(いしいちひろ)

株式会社技術評論社 書籍編集部。

企画・担当した書籍の一覧https://booklog.jp/users/isicihi
Xアカウント@isicihi