研究開発

特集:VOCALOID

Vocaloidのアイコン画像

VOCALOID(ヴォーカロイド)とは、ヤマハが開発した歌うシンセサイザー(歌唱合成、音声合成ソフトウェア)の技術名称です。2003年の発売以来、多くの会社から、VOCALOIDを活用した製品が発売され、人気を博すと同時に、VOCALOIDを使ってプロやアマチュアの制作者によって作られた音楽や動画が話題を集めています。

開発の背景

コンピューターに歌を歌わせる研究には実は長い歴史があります。アーサー・C・クラーク原作、スタンリー・キューブリック監督の不朽の名作「2001年宇宙の旅」(1968年公開)で、コンピューターHALが”Daisy, daisy…”と歌を歌う有名なシーンがあります。その元になった研究は、米国ベル研究所で、コンピューター音楽の父と呼ばれるMax MathewsやJohn Kellyらが1961年に大型のIBMコンピューターを用いて実際に合成し演奏した曲なのです。それ以降も多くの研究者が歌うコンピュータに取り組みました。しかしながら、たいていの場合、機械的な音声や感情のこもらない歌になってしまい、コンピューターが本物のシンガーのように歌を歌うというのは多くの技術者の夢であったのです。

ヤマハは長い間シンセサイザー技術の研究を行ってきましたが、本格的な「歌うシンセサイザー」に着手したのは世紀の変わり目頃からです。目標としたのは、大型コンピューターを使ったり、合成に何日もかかったりする実験的システムではなく、誰もが安価で手軽に本格的な歌声を合成し、しかもリアルタイムで再生できるようにするというものでした。多くの楽器音は、合成技術とサンプリング技術の発達にってかなりの忠実度で再現できるようになっていましたが「最高の楽器」と称される「人間の歌声」は最も難易度の高い領域だったのです。ヤマハの研究は、この難しい技術を誰でも使える高品質の商用ソフトウェアとして提供することを目的として始まりました。

歌唱合成のメリット

伝統的な楽器の世界では、演奏したい楽器の数だけ演奏家が必要でした。しかし場所や費用の制約の中で演奏家や楽器をそろえることは簡単ではありません。電子楽器の出現はそうした状況を大いに改善しました。シンセサイザーは1台で様々な楽器の音が出せたり、一人の演奏者が複数の電子楽器をコントロールすることで巨大なオーケストラのような音を出すことができます。そうした中でも歌手だけは生身のシンガーでなければならなかったのです。コーラス隊があと3人欲しい!頼んだ歌い手が都合が付かなくなってしまった。こうした問題をコンピューターが歌を歌うことで解決できれば、とヤマハは考えました。しかも合成音声によるシンガーなら、何時間でも何回でも正しい音程で文句一つ言わずに歌ってくれます。生身の人間とは異なる良さを持った高い品質のバーチャルシンガー、それがヤマハの開発目標となりました。

VOCALOIDの登場

2003年、学術的研究や実験室レベルの技術ではなく、世界初の本格的な商用歌唱合成・音声合成ソフト(Singing Synthesizer)としてVOCALOIDが発売されました。すぐにVOCALOIDの持つ「了解性」(歌声の歌詞がどれくらい聞き取れるか)、「自然性」(合成された音声が人間の歌声に近い自然さを持っている)、そして「操作性」(システム全体としての操作性、使いやすさ)が高く評価され、

米国ELECTRONIC MUSICIAN誌 2005 EDITORS CHOICE AWARD:Most Innovative Product:

に選定されるなど高い評価をいただきました。

VOCALOID技術の特徴

(Singer Library)

VOCALOIDの歌声(音声)合成過程を説明しましょう。まず最初に、録音スタジオで実際の歌手の歌声を録音します。一般のヴォーカル録音のように「楽曲」を録音するのではなく、合成に必要な音声素片(音素)が網羅できるように子音、母音の組み合わせ、鼻音の伸ばし音など様々な発音や歌詞の組み合わせを収録します。

録音されたデータは細かい素片(音素)に分解され、スムースな合成ができるように調整・編集されてデータベース化されます。これを「歌手ライブラリ」あるいは「歌手データベース」と呼びます。なお、歌唱(音声)合成に必要な音素は言語毎に異なるため、日本語なら日本語、英語なら英語用の収録スクリプトとデータベースの形式があります。

この歌手ライブラリーが各社から発売されているVOCALOID製品ごとの独自部分であり、制作者は好きなバーチャル歌手(ライブラリー)を選んで、ヴォーカルパートの制作を行うことになります。

スコアエディタ(Score Editor)

歌詞や音符を入力したり、細かいニュアンスを調整、編集するソフトウェアで、一般的なMIDIシーケンサーのピアノロール画面と似たような構成になっているため、直感的に操作しやすい作りとなっています。ユーザーは「歌詞」をテキスト入力するだけで、ソフトウェアが自動的に音素列に変換し合成エンジンに指示して発音されますので、言葉と音声素片の関係を考慮する必要はありません。

VOCALOIDの特徴は、微妙な歌声の変化や細かいニュアンスをプログラミングできることで、より感情豊かで表現力のあるヴォーカル制作が可能です。ここで制作された合成用のデータはMIDIメッセージとして合成エンジンに送られることになります。

実際の音楽制作では、DAW(Digital Audio Workstation)上でボーカル以外のパートをデータ入力したり録音しますが、そうした音楽制作ソフトとの連携やMIDIキーボードによるメロディ入力なども可能です。

スコアエディタの画面写真

(クリックすると拡大します)

合成エンジン(Synthesis Engine)

VOCALOIDの「合成エンジン」は音声素片を連結して歌声を合成する「素片連結型」と呼ばれる歌声(音声)合成システムです。

スコアエディタが出力するMIDIメッセージに含まれる音符、歌詞、表情その他 の情報に従って、合成エンジンは必要な音声素片を歌声ライブラリから取り出し、連結して合成します。

合成エンジン内部では、例えば子音と母音の発音タイミングを聴感上違和感が無いように、譜面上の位置よりはずらして(早めて)発音開始するなどの調整を自動で行っています。VOCALOIDの発音(発声)が自然に聞こえるのは、素片と素片の接続・結合の際のなめらかさや音素間の接続境界ノイズを押さえる工夫が随所に施されているからなのです。

VOCALOIDの仕組みを示した図

(クリックすると拡大します)

地道な開発、そしてVOCALOIDバージョン2

初音ミクのイラスト
2003年の発売後、開発チームは2つのポイントに絞った技術改良を行いました。そのポイントとは、音質の向上とスコアエディタ画面の操作性向上です。初代VOCALOIDでも十分な評価の得られていた合成エンジンを刷新して音と音をつなぐ技術を改良し、よりリアルでなめらかな発音・歌唱を実現することに成功しました。また初心者にも分かりやすいシンプルなインターフェイスを目指し、ユーザから寄せられた声などを積極的に取り入れながら2年近くもの地道な技術改良を行ったのです。その結果生み出されたのが、2007年に発表したVOCALOID2でした。

このVOCALOID2を搭載した「初音ミク」は国内で大ヒットを記録し、インターネット上では作品を作成して公開することがブームになったほど。現状に妥協せず、様々な制約の中で地道に続けた開発を世間に受け入れていただいた瞬間でした。
 
 
 
 

応用技術

NetVOCALOID

NetVOCALOIDとは、VOCALOIDの合成エンジンをサーバー上で実行することによって、ネットワークに接続された機器で歌声合成が楽しめるサービスのことです。これにより、Windows版VOCALOIDをお持ちでないお客様でも手軽にVOCALOIDサービスを楽しめるようになります。

Netぼかりす

ぼかりすとはVocaListenerのことで、VOCALOIDに「このように歌わせたい」と考える歌声を録音した音声ファイルからVOCALOID専用のパラメータを自動推定できる技術です。VOCALOIDの専用エディターを使う際に必要とされるスキルや作業時間を軽減させ、手軽に高品位な歌声合成結果を得ることができます。このぼかりすをネットワーク上から利用できるものがNetぼかりすで、VOCALOIDやNetVOCALOIDと組み合わせてお使いいただけます。

VOCALOID-flex

VOCALOIDを改良し、より自然な形でしゃべらせるようにしたのがVOCALOID-flexです。歌声に比べ音の微細な変化が要求される「しゃべり」を実現する為に、従来のVOCALOIDでは実現できなかった、音韻(音素などの音の構成や長さ)や韻律(音の高さ、強さ)の細かな編集を実現しました。より人間に近い発話が出来るようになり、話し声における細かいニュアンスや、表情豊かな方言等のアクセントやイントネーションもつけることが可能です。

関連サイト・ニュースリリース

2010年2月25日
VOCALOIDが「しゃべり」に対応可能
ヤマハが歌声合成ソフトVOCALOID(ヴォーカロイド)の新バージョン
表現豊かにしゃべる機能を付加したVOCALOID-flexの提供を開始
~歌唱/発話の多様な表現が実現可能に~

2009年9月25日
ヤマハ、歌声合成ソフトVOCALOID(ヴォーカロイド)を携帯型
ゲーム機(PSP?)向けにネットワークサービスとして提供
~第1弾は、PlayStation? Portable向けとして、KONAMI
人気ゲーム「メタルギア」シリーズ最新作で開始~

2009年4月27日
歌声合成パラメータ推定技術VocaListenerの実用化にヤマハと産総研が連携
~VOCALOIDで手軽に高品質な歌声を!

2009年4月7日
当初、音楽制作ソフトがオンライン上でも利用可能に
ヤマハが歌声合成ソフトVOCALOID(ヴォーカロイド)を
インターネット経由でサービスプロバイダー向けに提供を開始

2003年2月26日
パソコン上でリアルな歌声を合成
歌詞と音符を入力するだけで、人の歌声による楽曲を作成
歌声合成ソフトウェア『ヴォーカロイドVOCALOID』を開発

関連技術一覧

クラウド型VST

クラウド型VST Arrow_right_small

クラウド型VSTとは、高度なオーディオ処理をサーバー側で行うことにより、特別な機器を必要とせずに音楽制作ができる環境を提供することのできる、まったく新しい音楽制作テクノロジーです。

ページトップへ戻るReturn to Top