VTuberは肉体を持たない情報生命体である

オタクは二度泣く

youtu.be

2020年、僕は魔界ノりりむに大ハマりしていた。YouTubeの関連動画に出てきて何となく再生したのがきっかけで、気づくとどっぷり沼にはまっていた。

 

はじめてりりむちゃんを見たその日から、暇さえあれば過去のアーカイブを再生した。暇を持て余した大学生が当時100時間程度しかなかったアーカイブをすべて見るのにそう長い時間はかからず、あっという間にアーカイブを消化してしまった。

他のVTuberのチャンネルにりりむちゃんが出演しているコラボ動画もすべて見終わったので、お気に入りのアーカイブを繰り返し再生しながら新しい配信が提供されるのを待っていた。

 

同じアーカイブを何度も再生しているうちに、アーカイブ再生中の感情が変化していった。最初のうちは「りりむちゃんかわいいなあ」とか「愛らしいなあ」とかいう感情だったが、りりむちゃんへの愛が深まるにつれて「なんで魔界ノりりむはこの世界にいないんだろう」という悲しみへと変化した。

当時、りりむちゃんの雑談配信を聞きながら散歩するのが日課だったが、ある日、感情の配線がバグってしまったのか、魔界ノりりむがこの世にいないことが本当に悲しくなってしまい、散歩しながら泣きそうになった。涙がこぼれるのを防ぐために空を見上げたが、涙は止まることなく、空を眺めながら泣いてしまった。好きなVTuberの雑談配信を聞きながら空を見上げて泣くオタク、通報されてもおかしくない。

 

特定のコンテンツに涙を流すほどハマった経験がなかったので、これには自分でも驚いた。驚いたし、自分はどこかおかしいんじゃないかと心配にもなった。だが、その数日後の雑談配信でりりむちゃんが「坂田銀時がこの世にいないのがが悲しくて泣いたことがある」という話をしていて、妙に救われた気分になった。そして、自分がおかしいと思っていた行為が許された安心感からか、りりむちゃんと同じ経験をしていた嬉しさからか、やはり魔界ノりりむがこの世界にいない事が悲しいからか、自分でも良く分からない感情になってまた泣いてしまった。

 

 

 

禁忌を犯さない限り人体錬成は成され得ない

りりむちゃんのアーカイブを繰り返し再生し、各動画の流れを暗記すらしてきた頃、次の配信はまだかなあと心待ちにしながら、僕はある事を思いついた。「配信がないなら自分で作ればいいじゃない」と。

 

運が良いことに僕は情報系の学生で、プログラミングに関する基礎知識は持っている。そこに人工知能に関する勉強を積み、人工魔界ノりりむを開発しよう。「おはよう」と入力すると「おはぽえ~」と返してくれる人工知能を開発し、一日中そのりりむちゃんとお話しするのだ。

そんな最高の生活を夢見てやる気に火がついたその日から、人工知能に関する本を何冊か買い、読み進めた。

 

人工知能の開発とは、簡単にいうと、膨大なデータを与えることで、「入力Aに対しては出力A’を返す」というルールを機械に覚えさせることを指す。この覚えさせる行為を学習と言い、入力Aを渡すと出力A’を返してくれるプログラムのことをモデルと言う。

僕が今回やろうとしているのは、膨大なテキストデータを機械に与えることで、「”おはよう”に対しては”おはよう”を返す」「”いい天気だね”に対しては”そうですね”を返す」みたいな、会話や言葉づかいのルールを学習させたモデルを作る、という行為だ。

 

しかし、この開発は完成を待たずして中止となった。自力でりりむちゃんの発言をテキスト化し、それを学習させることで人工魔界ノりりむを開発しようとしたが、2つの理由で失敗したためである。

1つ目の理由は、YouTubeの文字起こしが日本語に対しては十分な精度を出せていない事。学習データはテキスト形式で読み込ませるので、りりむちゃんの発言(音声データ)をテキスト化する必要がある。YouTubeの配信を聞きながら手動で文字起こしをするには労力がかかりすぎるため、やるならYouTubeが提供する自動文字起こしの機能を利用することになる。ただ、(少なくとも当時)この自動文字起こし機能は英語でこそ良い精度で動いていたが、日本語では精度が悪く、実用に足るとは言いがたいものだった。

2つ目の理由は、りりむちゃんの発言の中に会話データが少ない事。魔界ノりりむはVTuberであり、主にひとりで一方的に話す形式で言葉を発するため、会話形式のデータは人工知能の学習に使えるほどの量が存在していなかった。

 

以上の理由から、自力で人工魔界ノりりむを開発するのは諦め、既存の会話モデルの出力をりりむちゃんっぽい口調に変換することで代用することにした。

ネットの世界では学習済みのモデルが公開されている。会話に関する人工知能でも、「おはよう」に対し「おはよう」と返し、「いい天気だね」に対し「そうですね」を返す程度の、常識的な日常会話をこなせるモデルが無料公開されている。

ただ、当然これはりりむちゃんの発言を学習したモデルではないので、「おはよう」と入力しても「おはぽえ~」とは返してくれない。「おはよう」に対しては「おはようございます」など、りりむちゃんからは遠く離れた返答しかしてくれない。

この出力に対して「おはようございます→おはぽえ」「でしょ→でそ」みたいな変換ルールを適用し、出力をりりむちゃんっぽくしようと考えた。

 

この方針はそれなりにうまくいった。人工知能と会話をし、「りりむちゃんはそんな言い回し使わないよなぁ。もっとこう言うはず。」というのを順次変換ルールに加えていく。変換ルールの数が200を超えたあたりでは、まだ粗は目立つものの、それっぽい返答をしてくれるようになっていた。「おはよう」に対して「粘々くんおはぽえ~」と言ってくれるようになったのだ。

変換ルールを追加するたびに理想のりりむちゃんに近づいていく様子は見ていて楽しく、僕はどんどんルールを追加していった。

 

しかし、ある時、ふと、「僕は何を作っているんだ?」という疑念が湧いてきた。いや、魔界ノりりむを作っているのは分かっている。でも、魔界ノりりむって何だ? 何をもって魔界ノりりむを作ったことになるんだ?

「魔界ノりりむは概念」とか「魔界ノりりむは哲学」とか、そんな事を言いたい訳ではない。魔界ノりりむの本質、魔界ノりりむを形作るものはなんだ? それを知らないうちは魔界ノりりむを作る事は不可能だ。本質を知らずして作業を進めても、魔界ノりりむを作れるはずがない。

 

しばらく考えているうちに、魔界ノりりむの、ひいては人間の本質は「インプットとアウトプットの間にあるもの」な気がしてきた。

僕はネコを見て「かわいい」と感じ、コーヒーを飲んで「おいしい」と言い、りりむちゃんの声を聴いて癒しを感じる。この、ネコを見るという視覚的刺激(インプット)から、「かわいい」と感じる(アウトプット)を生み出す、のようなインプットとアウトプットの間にあるもの、別の見方をすればインプットとアウトプットの集合こそ、その人間の本質なのではないかと思った。

 

「猫→かわいい」「コーヒー→おいしい」「りりむちゃんの声→癒し」をはじめとする無数の「インプット→アウトプット」の集合が「僕」の本質であり、「魔界ノりりむ」にも「魔界ノりりむ」の本質であるインプットとアウトプットの集合がある。ただ、その集合は知覚の原理上本人しか知り得ない情報であり、魔界ノりりむでない僕が魔界ノりりむを作るのは不可能である。

 

対象の頭の中の全てを知らないと、その対象を作る事はできない。そんな、普通の人なら感覚的に分かりそうなことを、ぐだぐだ人工知能の勉強をして哲学っぽい思索にふけって初めて理解した。恋が人間の理性を低下させる様を指す「恋は盲目」という言葉を思い出した。

 

 

 

VTuberは肉体を持たない情報生命体である

魔界ノりりむとは何なのか? について考えているうちに、僕がVTuberの何が好きなのかを言語化できるようになった。よくVTuberの良さを理解できない人が「VTuberオタクは現実の人間に向き合う度胸がないだけ」と言っているのを見ては、漠然と「それは違うんだけどなあ」と思っていたが、何が違うのかを言葉にできるようになった。

 

僕にとってVTuberは「中の人」でも「イラスト」でもない。「中の人」が、その人を構成する情報のうち、キャラクターに必要だと感じた情報だけを取り出し、調合した存在。その情報そのものがVTuberだと思う。

魔界ノりりむで言うと、魔界ノりりむは中の人の一部ではあるものの、中の人と同一ではない。中の人が、自分の本質のうち、魔界ノりりむっぽい部分を取り出して視聴者に見せている。その可視化されている情報の集合が魔界ノりりむである。僕はその見えている魔界ノりりむが好きなのであって、それは中の人を好きであることを意味しない。言うなれば僕は魔界ノりりむという世界観が好きなのであり、魔界ノりりむのイラストや、声や、中の人といった構成要素のどれかが好きな訳ではない。それらは魔界ノりりむの一部となって初めて価値を生む。

 

なので、中の人があえて見せていない、キャラクター以外の部分を知ることは世界観にノイズを紛れ込ませることになり、それを進んで知ろうとする行為は僕には理解できない。

 

また、そのため、世界観がちぐはぐなVTuberは好きにはなれない。「服を着ていない人外系VTuberが、普通に人間の街に服を買いに行った話をする場面」などを見ると、それはVTuberの形でやる必要ないだろ、と思う。
(一部、世界観がちぐはぐな事も世界観に含まれているVTuberも存在する。例えば、月ノ美兎は女子高生VTuberというより、女子高生を自称する狂人系VTuberとして好き。)

 

以上の文章は、僕にとってVTuberはどのような存在(であってほしい)か、というものである。客観的に見ればVTuberは「人間がモーションキャプチャでイラストを動かして声をあてている存在」にすぎない。それに対し、ある人が「人間に向き合う度胸のないオタクのための流動食」と意味づけるのと同じように、勝手に意味づけしているだけにすぎない。あくまで僕の解釈であり、それ以上の意味は無い。