森の掟

J-POPやメタルやフェスや音楽番組なんかの批評(という名の無益な墓掘り行為)

NVIDIAがAIに音楽を聴かせて評価までさせはじめた件について調べてみたら怖くなってきた

先日このようなニュースを見た。

 

米国のUniversal Music Group(UMG)が、NVIDIA社との提携を発表したという。

発表によると、NVIDIAのAIインフラと、UMGが権利を持っている数百万曲の音楽カタログを組み合わせて、音楽の発見や創作にかかわるAIを共同で開発するとのこと。

 

NVIDIAといえば、AI向けのGPUで世界的に有名な企業。ただしあくまで半導体というハードを作るメーカーだという認識だったので、こういう分野もやっているのは意外だった。

 

既存のレコメンド機能の限界

今回の件で個人的に気になったのが、「音楽の発見」という部分に、どのようにAIが効果を生むのかという点。

 

たとえば現代の多くのリスナーが音楽と出会う場所として一般的なAppleMusicやSpotifyやYoutubeにおいては、基本的には「このアーティストを聴いてる人がよく聴いてる他のアーティストとか同じジャンル内でレコメンドする」っていう方式だと思う。

今までそのことに別に物足りなさなど感じることもなく受け入れてきたし、このようなものでもありがたく重宝してきた。

 

▲今日のわたくしのAppleMusicのレコメンドはこんな感じ

 

自分の場合、80年代のベイエリアのスラッシュメタルとか、70年代のフィリー・ソウルとか、60年代のリズム歌謡といった感じで、明確にジャンル名やキーワードで好みを自覚できているので、そのジャンルの今まで知らなかった名曲とか超マイナーなバンドとかをプレイリスト内で掘り下げていくみたいな聴き方をするにあたっては、既存のレコメンドはわりと役立っている。

1枚1枚CDやレコードを集めていた頃には時間的にも経済的にもたどり着けなかったような深いところまで掘れるようになったのは、単純にありがたいと思っている。

 

でもこれって、自分がどういう系統の音楽とかジャンルが好きだってことが自分でわかっているからできていることなんだろう。

 

日頃そこまで熱心に音楽を掘らないタイプの人にとっては、すごく好きなタイプの曲に出会ってしまって、こういうのもっと聴きたいと思っても、たぶんそこから先に行けない。

ジャンル名とか年代といった、既存のレコメンドがキーにする情報を持てていないから。

 

そう考えると、音楽を売りたい側(つまり今回のユニバーサルなど)にとっては、そこにビジネスチャンスがあるってことなんだろう。

既存の手法では効果的なレコメンドができてこなかったリスナー(おそらく大半の人がそう)は、未開拓のブルーオーシャン。

 

Music Flamingoはどこがすごいのか

では、今回NVIDIAとUMGはどうやってそこにイノベーションをもたらそうとしているのか。

発表にはこのように書かれていた。

 

NVIDIAの音楽理解モデル「Music Flamingo」を拡張し、従来のメタデータ(タグやジャンル)に依存した検索を超え、楽曲の構造、ハーモニー、さらには歌詞や文化的背景までを踏まえた“人間のような理解”に基づく発見体験を目指すとしている。

 

つまり、楽曲に割り当てられたジャンルなどのデータを使った従来のやり方のレコメンドではなく、まるで人間がやっているように音楽の中身を理解しますよと言っている。

 

本当にそんなことが可能なんだろうか。

具体的にイメージできなかったので、もう少ししっかり調べてみたところ、こんな論文がヒットした。

 

 

技術的な部分は難しくて全然わからなかったけど、特徴としてはこんな感じらしい。

 

・曲のテンポ、コード、キー、使われている楽器などの情報を読み取る

・特にヴォーカルは声の重なりとかハーモニーや歌詞の内容まで検出する

・曲の構成(Aメロ〜Bメロ〜サビ〜間奏など)やダイナミクスを把握

・文脈に基づいた分析

 

たしかに、曲のBPMの検知だったら大昔からCDJでもできていたことだし、キーやコード進行の読み取りも無料アプリとかでもできる時代。

使われている楽器についても、いろんな楽器ごとの波形を学習させれば比較的簡単に理解できるようになるだろう。

楽曲構成だって、BPMとコード進行がとれたら、8小節ごとに繰り返しているパターンがわかるし、数種類の繰り返しの中で強調されているところがサビだなとわかるかもしれない。

ここ数年でビデオ会議の文字起こしの精度がものすごく向上しているので、歌詞を聴き取ることもできるんだろうなとも想像がつく(ただし歌い方のクセがすごくて演奏も爆音な、メタリカみたいなバンドだと相当難易度が高そうだけど)。

 

このあたりのことは、今どきのAIならやれるんだろうなと想像がつく。

そして今までのレコメンドとは一線を画すイノベーションなんだろうなというのもわかる。

なにしろ実際に音楽を「聴いて」いるわけなので。

 

これに比べたら、AppleMusicやSpotifyやYoutubeがやってることなんて、自分で食べに行ったわけでもないのに食べログを熟読してるだけでグルメぶってる奴みたいなものでしょう。

 

文脈がわかるとは

だけど、「文脈がわかる」ってどういうことなんだろう。

楽曲を「聴いた」だけでは、リリースされた時代の背景だとか、誰がどんな狙いで歌っているかといった、楽曲そのものには埋め込まれていない情報は得られないんじゃないか。

自分なんかはそういうものこそが「文脈」ってやつだと思っていますが、音そのものから読み取れた情報だけで分析できるものなんだろうか。

 

 

NVIDIAのサイトには、実際に既存の楽曲をMusic Flamingoに分析させたサンプルがあった。

 

 

たとえば、このブルーノ・マーズとレディ・ガガのデュエット曲を分析させてる。

 

Aメロとサビのコントラストがすごいねとか、音色やコード進行からすると2020年代の洗練されたオルタナティブ・ポップ・ロックっぽいねとか、永遠の愛について歌ったラブソングだねとか、メランコリーで内省的なトラックだねとかいったことを、この曲からAIが読み取ったんだって。

 

なるほど…。

たしかに楽曲を聴いて分析してるし、一応は文脈らしきものも踏まえてるとも言える。

 

ただ、やっぱりわれわれが使う意味での「文脈」とは違うってことがわかりました。

 

 

たとえばMusic Flamingoにはコミックソングはわからないと思う。

たぶん「慎吾ママのおはロック」を聴かせても、軽快なビートにのった元気な曲でポジティブな歌詞ですねとかしか言えないし、「PERFECT HUMAN」を聴かせても、バキバキのEDMで歌詞の内容は完璧な人間を称えるものですねとか言うはず。

 

逆にいうとですよ、人間が音楽を聴いて何かを感じるっていうことって、めちゃくちゃ複雑ないとなみをやってるんだなってあらためて思った次第。

 

いや、もしかしたら来年にでも背景とかまで学習するようになって、「慎吾ママのおはロック」について、SMAPや小西康陽やビッグビートやジェンダー交差歌唱といったワードを使って語るようになるかもしれない。

 

暗めの未来予測

もしもMusic Flamingo的なテクノロジーがさらに発達していくとどうなるか。

 

昨今のミュージシャンにとって、自分たちの曲を幅広く届けたかったら、各サブスクサービス内のリスナーが多いプレイリストに拾ってもらうことがとにかく大事らしい。

現在はそのプレイリストの選曲は人間がやってるはずだけど、近いうちにMusic Flamingo的なAIがプレイリストの選曲をやるようになるだろう。

なにしろ音楽を作ることのハードルもAI活用によって極限まで下がっているので、日々リリースされる楽曲の数はとんでもないレベルで増え続けるだろうし、いずれ人力で選曲するのにも限界がくるに違いない。

 

そんな時代にミュージシャンが考えることは、AIが気に入ってプレイリストに取り上げたくなるような曲を作ることになるだろう。プレイリストに拾われない限りリスナーが増えないんだとしたら。

 

ウェブサイトを作ってる人が、そのサイトが検索結果の上位に表示してもらえるようにGoogleの顔色を見ていろいろ工夫をこらすこと(SEO)が重要な業務になっているのと同じ具合に、ミュージシャンはAIにいい曲だと判定してもらえるような曲を作るのが仕事になっていくんじゃないか。

で、どういう曲が選曲AIに好まれるのかは、自分のところのAIに相談すればいいし、何なら楽曲もそいつに作ってもらえばいいってことになる。

AIに音楽を作らせること自体にはポジティブな可能性も感じるけど、AIに聴かせるための音楽をAIに作らせる世界って、音楽好きにとってはやっぱほとんどディストピアのように見えてしまいますね。

 

「いろんな雑務はAIに任せて、人間は人間にしかできないクリエイティブな仕事をやるのが明るい未来!」みたいなことをAI屋さんはみんな言うけど、選曲とか批評までAIに明け渡すのって話が違うんじゃないですかね。

選曲って行為がとにかく大好きなんで、最後まで明け渡したくないのですが。

 

 

Music Flamingo: Scaling Music Understanding in Audio Language Models -  NVIDIA ADLR