menu

歌声合成技術

VOCALOID:AI

技術について

VOCALOID は、ヤマハが長年研究開発を積み重ねてきた独自の歌声合成技術です。本技術を搭載した同名の音楽制作ソフトは、最新の「VOCALOID5」に至るまで、広く音楽制作のシーンで利用されています。ヤマハでは現在も、魅力的な歌声を作り出す基礎技術の追究を続け、VOCALOIDを進化させ続けています。

VOCALOID:AI

2019年に VOCALOID 技術の新たなステップとして、人工知能技術を取り入れた「VOCALOID:AI」を発表しました。これは、あらかじめ目標となる歌手の歌声を収集し、そこに含まれる音色や歌いまわしなどの特徴を深層学習(ディープラーニング)技術により学習することで、その歌手独特の癖やニュアンスを含んだ歌声を、任意のメロディーと歌詞で作り出すことを可能にする技術です。

VOCALOID:AI では、まず学習フェーズで、歌声から「音色」「ピッチ(音高)」「ビブラート」「楽譜とのタイミングずれ」の抽出を行い、それらがどのような音符・歌詞の場面であらわれたかの対応関係を学習します。学習フェーズは数時間~数日といった時間をかけて、コンピュータが計算を繰り返すことで行われます。合成フェーズでは、任意の音符・歌詞の並びを持った楽譜情報が入力されると、もし学習元の歌手がその楽譜上の歌を歌ったらこうなるだろう、というような歌声を予測し生成します。

自然で複雑な音色変化の再現

人の歌声の音色は非常に変化に富んでいて、常に複雑にその形を変えます。例えば「ドレミ」のメロディと「ミレド」のメロディのような場合でも、上昇音型か下降音型か、前後の音符の歌詞がそれぞれ何であるかなどの要因によって、音響的な特徴は一般に異なったものになります。VOCALOID:AIはその音符・歌詞がおかれた「文脈」に対して最適な音色がどのようなものかを自動的に推定し、常に自然な音色で歌声を作り出します。

AIシンガーへの歌唱スタイルのリクエスト

歌を歌うとき人は作曲者や演出家、あるいは歌い手自身の意図に応じた表情やニュアンスを巧みに乗せることで、その歌声をより生き生きとしたものにします。従来型の歌声合成器では歌声成分に関するパラメーターをユーザーが細かく丹念に調整することでそれらの表現を作り込むスタイルが主流です。一方VOCALOID:AIは歌唱スタイルのリクエストを受け付けることが大きな特徴です。ユーザーは音符と歌詞の情報に加えて、学習フェーズで得られた元歌手独自の歌唱スタイルの中からどの雰囲気に似せにかかるかをリクエストすることができます。するとその歌手が自然に歌える範囲で、そのスタイルのもとでの歌声が生成されます。このように従来型のシステムと比較してVOCALOID:AIとユーザーの対話は人間のシンガーとディレクターのやり取りに近いものです。

「AIでよみがえる美空ひばり」プロジェクト

故人であり稀代の名歌手である美空ひばりさんにもう一度会いたいと願うファンの想いを、最新の技術で実現するというプロジェクトが日本放送協会(NHK)主導のもとで立ち上がりました。その中で秋元康さんがプロデュースする新曲「あれから」の歌声合成による表現にVOCALOID:AIが用いられました。レコード会社に残る美空ひばりさんの過去の歌声から学習を行い、秋元康さんのプロデュース意図によるリクエストに応えた「あれから」の歌声が、約200名の往年のファンを集めたコンサートで披露されました。その様子は2019年9月29日にドキュメンタリー番組「NHKスペシャル」で放映され、大きな反響を呼びました。

美空ひばり VOCALOID:AI 特設ページ

関連項目

WEB記事