Amazon Music HDをビットパーフェクトで聴く(前編)

結論から記します。

私が選んだ機材は「NODE 2i」です。

※2022/11/28 更新

お勧め機材を追加して別記事にしました。NODE と WiiM Mini という機種を取り上げています。よろしければお読みください。

soundsmind.hatenablog.com

高音質楽曲ストリーミングあれこれ
2017年頃の日本の音楽配信事情
当時のハイレゾ事情
「ビットパーフェクト」の話
残念な現実
- OSが邪魔をする
- OSの邪魔を回避する

高音質楽曲ストリーミングあれこれ

執筆している 2022/9 時点において、日本で高音質を謳った音楽ストリーミング配信サービスは以下の4種が存在しました。サービスを開始した順に並べてみます。

deezer HiFi 2017/12 ~ サービス中 44.1kHz 16bit
Amazon Music HD 2019/9 ~ サービス中最大192kHz 24bit
mora qualitas 2019/10 ~ 2022/3 最大96kHz 24 bit
Apple Music 2021/6 ~ サービス中最大192kHz 24bit

うち1種は残念ながらサービスを終了し3種になっております。オーディオ鑑賞が趣味の私は4つすべてのサービスに加入した経験があります。とはいえ、4サービスすべて同時に加入していた時期は存在せず、一定の併用期間を経て最も使用しなかったものを解約するということを繰り返して現在に至ります。

海外に目を向けますと、Tidal、Qobuz という大手かつ老舗のハイレゾ配信サービスがあるのですが、残念ながら日本市場に参入していません。また、圧縮音源の配信最大手である Spotify は、deezer Hifi と同じCD音質のロスレス配信を行うという発表をしておりますが、サービス開始時期のアナウンスは未だになく「配信をしたい」という宣言のみの状態が年単位で続いている状況です。

Spotify、ロスレスの「HiFi」サービス提供予定は変わらず。詳細は「まだお伝えできない」 - PHILE WEB

2017年頃の日本の音楽配信事情

サブスクリプション契約による音楽ストリーミング配信サービス、いわゆるサブスク音楽配信の競争が本格化したのは2015年に遡ります。先駆者の Spotify に対し Apple Music が 2015/6 に、google Play Music が 2015/9 に日本でのサービスを開始しました。これらは何れも CD 未満の圧縮データ音源です。

それから2年後の2017年、deezer HiFi が高音質サービスを開始しました。高音質といっても、既存の配信サービスより高音質という意味で、CD より高音質という意味ではありません。CD を超えるデータ量を持つ「ハイレゾ」はまだ一部の"オーディオ"ファンに向けられたもので、一般の音楽ファンは 320kHz 圧縮音源で十分という風潮だったように記憶しています。

また、ハイレゾについて誤った議論が多く「人間の耳に聞こえない高周波数の音、モスキート音がデータ化されても無駄」という意見や、派生して「機器メーカーの陰謀だ。知識のない消費者を欺いている。」などという見えない敵と戦っているような意見もネットの掲示板で散見されました。さすがに現在は「解像度が 16ビットから 24ビットになることで、人間の可聴限界や機材のノイズ限界付近までデータとして残せる」ことや「音のサンプリングポイントが十分にあるため音の分離感や消えぎわの表現が向上する」こと。そして何より「DACやヘッドホンの性能が上がり、聴いて違いを感じられるようになった」ことで、当初の否定的な意見は影をひそめているように感じます。

当時のハイレゾ事情

サブスク音楽配信サービスが始まる以前や配信サービスの音質が低かった頃のハイレゾ音源に関する主な入手先は、ダウンロード販売サイトでした。CDと異なりケースもライナーノートもないデジタルデータなのですが、音質が高いという唯一無二の価値を認め2～3割高価な価格を支払って手に入れるという存在でした。

当時のハイレゾ音源販売にまつわる話、競争で淘汰されていく音源販売サイトやハイレゾのデータフォーマットだが肝心の録音データ(原盤)の音質が悪くハイレゾで販売する価値のない「ニセレゾ」音源の話をしだすと、それだけで長文が書けそうなので省略しますが、最中にハイレゾ音源を楽しんでいたオーディオファンは、

「タウンロード購入した楽曲を自分なりの高音質で再生させる機材を揃えて」

いました。割高な価格で音源を入手し、再生機材に関するトライ&エラーを繰り返し、自分なりの再生環境と音質評価基準を手にしていたのです。

イノベーターからアーリーアダプターへ云々という用語で語られるマーケティング論が身近な方には説明不要でしょう、上記のようなオーディオファンが増えていくことが高音質音楽ストリーミングへと繋がりました。

以上のような背景により、初期の高音質音楽ストリーミング配信の顧客は「購入した音源をより良い音で再生できる機材に、高音質音楽ストリーミング配信からのデータを流し込む」形で導入することになりました。

音質がステップアップしていく形で良くなっていくのてあれば、進化は感動でしかありません。残念ながら音楽配信の進化は「既存の販売形式より悪い状態でサービスしていたものが、既存の販売形式の音質に近づく。」という後追いスタイルです。どんなに進化しても「配信の割にはいい音」とか「手元の音源を再生させたときに迫る音質」が音質面での最高評価になってしまいます。

「ビットパーフェクト」の話

音は空気の振動
様々な音源は空気振動の記録物
再生機器は記録物を空気の振動に戻す装置

という極めてシンプルな話からビットパーフェクトに繋げたいと思います。

デジタルテータの「間引き」

デジタルデータは数値を使った方式の記録物ですので、記録したい対象物を何かしらのルールで数値化する必要があります。文章であれば、文字の種類に番号をつけ、一文字目から順に番号をひたすら並べ記録するというルールで数値化するように、空気の振動にもルールをつくって数値化する必要があります。

音の鳴っている空間に空気の振動によって前後に揺れる薄い板を置き(マイク)、細かく揺れる板の位置を記録しよう(数値化)。その揺れを一定時間ごとに、やはり出来るだけ細かく記録しよう。というのが音の数値化ルールのひとつです。

ひとつ、ふたつと数えられる文字と違い、空気の振動である音は数えられません。たとえば、長さ 1秒の音を数値化するのにどのくらいの数値が必要かは「数えられないものだから、適当に決める」しかないということです。

音の数値化は「一定時間ごとに板の位置を」記録すると言いました。とりあえず、1秒ごとに板を cm 単位でと決めたとしましょう。すると、0.5秒のときの位置や 1.5秒のときの位置は記録に残りません。位置を cm 刻みにしたら、ほんとうは 1.5cm だったときには、1cm か 2cm というずれた位置で記録しないといけません。

このように、音を数値化すると時間も位置も必ず「あいだ」を失います。即ち情報が間引かれることとなります。

ちなみに、

CD音質の 44.1kHz 16bit とは 1秒あたり 44,100回、65,536刻み
ハイレゾで多い 96kHz 24bitとは 1秒あたり 96,000回、16,777,216刻み

というルールを意味します。

この数値を見て察すると思いますが、高音質化に強烈なインパクトがあるのは板の位置、ビット深度のほうです。

デジタルデータからの音への復元

機器でデータを空気振動に戻す行為が音楽データの再生です。空気を揺らす板を、デジタルデータで刻まれた位置と同じになるよう動かし続けることで空気を揺らし音を作ります。

CD が世の中に出てきた当初、記録されたデータどおりに板を揺らしたのですが「あまり良い音とは感じない」という問題が起こりました。結論から言いますと「数えられないものだから、適当に決める」と定めた 44.1kHz 16bit というルールでは刻み方が荒かった、間引き過ぎだったのです。とは言っても、一度決めたルールを簡単に変えることはできません。間引いた部分を上手く滑らかに動かして音をよくする方法をオーディオメーカーは考案し製品化しました。間引いた後の数値情報から間引く前の数値を推測する方法、標本化定理とフーリエの法則を応用し録音時の空気振動の周波数成分を算出して間引く前の板位置を求める方法、最近では間引く前の音源データと間引いた後の音源データを機械学習させ間引く前の板位置を推定する方法なども使われています。

こうした各機器メーカーの努力により、間引き過ぎたデータからでも良い音が再生できる機器が多く存在しております。

これらの各メーカーによる再生機器での高音質化には、ひとつ共通の前提条件かあります。それは「間引かれてはいるが、少なくとも記録として残った数値は正確である」ということです。間引かれただけでなく、記録されている数値が嘘だらけ、ズレだらけだとどうしようもありません。特に標本化定理などの数学を使ったものは計算結果が出鱈目になってしまい、もともと鳴ってもいないような音を計算で作り出してしまいかねません。

このような前提条件があるため、再生機器に届く数値データが狂っていないこと、正確であることは非常に重要です。「もとのデータを変な数値に変えたりせず、そのまま再生機器に送る」ということを「ビットパーフェクトで送る」といいます。

データを受け取った再生機器が「ビットパーフェクトなものが届いた前提で、様々な計算処理を加え音質を良くする」という構成になっている場合は、届く前に変な数値に変えられていると困るわけです。

理想的な高音質配信は、ビットパーフェクトの送り出しを持つこと

前項で、オーディオファンは既に「タウンロード購入した楽曲を自分なりの高音質で再生させる機材を揃えていた」と申しました。ですので、ダウンロード購入した楽曲をそのまま再生機器に送っているときと同じように、配信から受け取った楽曲をそのまま再生機器に流すのが音質としては理想だとなります。

残念な現実

以上、配信サービスに望むことは、原盤の権利者が配信業者のサーバーにアップロードして下さったデータに対して権利者の意図しないデータ改変をせずビットパーフェクトで再生機器に送り出せるようにしていただきたい、ということなのですが残念ながら現実はそうなっていません。簡単ではない事情があります。

OSが邪魔をする

音質を気にせず手軽に配信される楽曲を聴くのであれば、スマホのスピーカーや PC に繋いだスピーカーから直接音を鳴らせばよいです。これはスマホや PC の機能だけで数値データを空気振動に変えてしまうことを意味し、専用の再生機器に数値データの状態で送り、再生機器側で空気振動に変える状態とは異なります。

また、スマホや PC で直接音を鳴らす際、数値から空気振動への変換は配信サービスのアプリではやっていません。機器と OS が行っています。PC なら Windows や macOSが、スマホなら iOS や Android が行っています。

OS は音楽再生専用に設計されているわけではありませんので、音に関して専用機器なら不要な機能が備わっています。その一つが、ミキシングやスイッチングに関する機能です。複数のアプリが同時に動いている際に各々が音を鳴らすことを想定し「音を混ぜ、重ねた状態」にしたり「先に鳴っていた音をフェードアウトさせ、後からの音をフェードイン」させる機能などを持っています。

しかし、PC やスマホにミキシングをする専用装置が入っているわけではないので、OSが複数のアプリから届く音のデジタルデータに対し、リアルタイムで足し算や引き算、掛け算など数値加工をすることで実現しています。

ミキシング対象の音は、ゲームの SE や BGM、メッセージの着信音、動画サイトの音声など様々です。もちろんデータ形式もバラバラです。しかし、バラバラな状態のままでは音の重ね合わせ計算はできないため、すべての音のデータをいちど同じフォーマットに変換します。分数の計算をするときの「通分*1」と同じようなものです。

この変換の際に、算数の通分のように元の数値へ100%戻せる完璧な変換でなく、元の数値からズレる荒い変換をします。音楽再生専用ではないですから「まぁ適当でいいじゃないか」ということです。CD相当の 44.1kHzのデータを再生する際に 48kHzに変換してから再生するというような、無残な変換が普通に行われています。

OSの邪魔を回避する

どんなアプリを使っても音が適切に切り替わって鳴ることは利用者にとって非常に大切な利便性です。ですので、アプリ側から OS を介さず直接 PC やスマホのデバイスに音を流し込まれると、そのアプリの音だけは制御ができなくなってしまい困ることになります。また、アプリの開発者もこの OS の事情を知っていますし、何よりも OS が担ってくれる音の再生機能をわざわざ自分で開発するという面倒なことをしません。

逆に言いますと、ビットパーフェクトで音を再生するには、上記のような標準的な「OS 任せ」の機能とは違う方法をアプリに追加しないといけないことになります。

OS 任せと違う方法の追加については、OS の種類やバージョンによって難易度が違います。それなりに大変です。また、本来なら OS 任せで済んでいた「接続機器ごとに必要な個別対応」をアプリ側でやるとなったら目も当てられません。この機種で鳴った代わりにこの機種で鳴らなくなったということが頻発します。

そんなこんなで、ビットパーフェクト対応は何処のアプリ開発元も及び腰です。やらない or 対応が可能な条件下でのみ限定的に対応という状況になります。

この状況をブレイクスルーするには OS がビットパーフェクトに対応することなのですが、今のところ難しいでしょう。

半年以上書いていますが終わりが見えないので、前編としてアップしました。後編に続きます。