デジタル音楽メディアのできるまで
アナログ情報をデジタル情報に変換する過程を説明します。現在では音楽CD、MD、DVD、ブルーレイ、ハードディスク、フラッシュメモリ・・等々さまざまな記録メディアが存在し、技術の進歩によって主流の移り変わりも激しいですが、原理的にはこれから紹介する技術によってデジタルデータ化されているのです。
アナログ信号を数値として記録する
例えばこんなアナログ波形があるとします。
デジタル化ではまず音の一定時間ごとの「振幅」の大きさを数値で記録します(横軸が時間)
どの程度かいうと、例えば音楽CDの場合は、1秒間に44100回という細かさで記録しているのですね。この過程を標本化(サンプリング)といいます。そして測定間隔の細かさを「サンプリング周波数」(サンプルレート、サンプリング・レートとも)といい「Hz(ヘルツ」という単位で表わします。
音楽CDは1秒間に44100回測定されているので「サンプリング・レートは44100Hz(44.1kHz)」と表現します。
「よんよんいち」という言葉を聞いたことのある方もいると思いますが、本当は「サンプリング・レートは44.1kHz(よんじゅうよんてんいちきろへるつ)ですよ!」といえばよいのですが面倒なのでそう言っているだけなのです。
ここで一句
続いて今度は振幅の大きさを数値化します(図はイメージ)
上図では「1、2、3、4、3、1、-3、-5、-7、-3、4、3、2、1」と数値化されています。
この数値化する際で重要な事ですが、たとえば「12.3456」といった数値は「12.3」として・・つまり「半端なものは切り捨て」で記録されます、容赦ありません。このように限られた範囲で数字として表す事を「量子化」といいます。
量子化の細かさを「量子化ビット数」(「ビット深度」「サンプルフォーマット」とも)といい単位はbit(ビット)で表します。音楽CDの場合は「16bit」という量子化ビット数になります。
ここで一句
【補足:以下面倒な人はスルーOK】
ビットというのは2進数の桁の数ですが、16ビットというのは16桁、つまり「2の16乗=65536」までの数値を表現することができるということを意味しています。(0~65535)
この数字は「ダイナミックレンジ」というものを表し、一番小さい音と大きい音の比率を「dB(デシベル)」という単位で表現します。細かいことはさておいて、このダイナミックレンジが大きければより量子化の精度が高くなると思ってください。
16bitより24bitは256倍(2の8乗)レンジが広いということになります(※)
※ビットがひとつ増えると表現できる数字は倍になるので、4bitは2bitの2倍ではなくて4倍になります
ちなみに24bitは2の24乗だから=16777216
CDは96dB。人間の聞き分け可能なダイナミックレンジは120dBと言われていますが、90dBより上の方は「工事のドリル」「飛行機のジェットエンジン」などの耐え難い爆音クラス。音楽の場合であれば96dBあれば足りるよね・・というのが音楽CDの言い分というわけですね。なおLPレコードだと65dB程度と言われています。
dBについて詳しく知りたい方は⇒【関連記事】【知っておくと便利な用語】音の強さ、大きさ、音圧、dB(デシベル)
「にーよんきゅーろく」「よんよんいちじゅーろくびっと」
という言葉を聞いたことがあると思いますが、これは標本化に加え、量子化ビット数も表現しているのです。量子化>標本化の順番で言われる場合もあるかもしれません。
誰かに「にーよんきゅーろくでヨロシク!」と言われたら、「量子化ビット数24bit、サンプリング・レート96kHzですね!」ということなのです。
というわけで標本化と量子化は、どちらも数値が大きくなればなるほど「高精度で情報を記憶することができる=原音に近い」ということになります。逆に言えば「数値が小さくなるほど原音からは遠ざかってしまう」というわけですね。
サンプリング・レートの半分の周波数までが再現できる
突然で恐縮ですが、サンプリングでは「ある周波数までを含む音を再現するには、その倍以上のサンプリング・レートでサンプリングすることが必要」という定理(標本化定理)があります、、ということは逆に、ある音をサンプリングする場合「サンプリング・レートの半分の周波数までが再現できる」
ということになります。
参考:サンプリング・レートの半分の周波数を「ナイキスト周波数」と呼びます。
ちなみに一般的な人間が聞くことのできる周波数というのは「20Hz~20kHz」の範囲と言われています。音楽CDの「44.1kHz」というサンプリング・レートであれば、理屈ではその半分の「22.05kHz」までが再現できるということになります。これはたしかに人間が聞くことのできる上限「20kHz」をクリアしていますね。
補足:原音の倍以上のサンプリングレイトでないと、再生の際、除去が困難な場所にエリアシングノイズと呼ばれる原音にはない成分が現れます。そのため実際の過程では、ナイキスト周波数より上の周波数はフィルター(アンチエリアシングフィルタ)でカットされサンプリングされます。
オーバーサンプリング
アナログからデジタルに変換(A/D)する際やデジタルからアナログに変換(D/A)の際に、実際の周波数の数倍のサンプリングレイトで処理を行うことをオーバーサンプリングといいます。仮に44.1kHzのサンプリング周波数の信号を8倍の352.8kHzに変換して処理することで、(データ量は増えるが)発生するエイリアスノイズをデジタルフィルター等でカットしやすくすることができ、結果音質の向上が望める事になります。
サンプリングレートによる再現度の違い
では実際にサンプリング・レートが異なる音の波形を見てみましょう。すべて同じ波形の1周期(一回分の繰り返し)を表示しています。
5.5kHz・・ぎこちないですね
11.025kHz・・・サンプリング・レートが倍になりました
22.05kHz・・だいぶ曲線的になってきました
サンプリング・レートで考えてみると数値が多くなればなるほど滑らかに見えるのがわかると思います。
実際は点と点の間は「データが無い」ので実際はこんなイメージでサンプリングされていると思ってください。
サンプリング・レートを低い順から再生してみましたので、その違いを確認してみてください。
この順番に再生されます
Soundcloudで再生している時点で本来のファイルフォーマットでは無いのですが、サンプリング・レートが低いと高い周波数帯域が再生できなくなるので「サンプリング・レートが低くなるにつれ音がこもって聞こえる」ということだけお分かりいただければ幸いです。