「蒼弓ノート」 別館

非可逆音声圧縮のしくみ

最終更新:

匿名ユーザー

- view
メンバー限定 登録/ログイン
#blognavi
過去にも何回か書いたことがあると思いますが、ちょっとまとめておきます。

非可逆圧縮とは損失を伴う圧縮方法です。この方法を使った形式は画像ならJPEG形式、動画ならMPEG形式を始めとして星の数ほどありますし、音声形式もまた然りです。それらに共通するのは情報を捨てたり、精度を落とすことでサイズを縮小することです。ただしその時に、一律に情報を捨てたり精度を落とすことは費用対効果で良い結果が得られません。そこで、多くの非可逆圧縮形式では人間の知覚において鈍感な領域の情報を優先して減らしていきます。

身近なところではTV放送では色情報は間引いて伝送されます。これは前提として帯域を小さくする必要があり、その上で人間の視覚が色情報の変化に鈍感という特性を踏まえて色情報を削減しています。これはまた典型的な非可逆圧縮の手法と言うことができます。

さて、それでは本題である音声圧縮についてです。

初期の音声圧縮方法というとAD-PCMが有名です。これは人の知覚特性を考慮しない原始的なものですが、それほど複雑な処理を必要としないので非可逆な手法で少し前までは結構使われていました。

それから知覚特性を考慮した非可逆音声圧縮技術はデジタル処理の進歩と共に生まれてきました。特に90年代前半にはDorby Digital(AC-3)やATRAC、MPEG1 Audioなどが登場しています。これらは共通する現代的な非可逆音声圧縮の策略を内包しています。その基本的な考え方としては、音声情報を周波数領域のデータに変換したのち、ブロック毎にデータ量を変化させることです。その際に考慮されるのは人の知覚特性です。つまり、感じにくい部分の情報を大きく間引き、感じやすい部分の精度を高くするということです。具体的には人の耳の感度とマスキング効果を考慮して部分毎の情報量を決定します。

情報量を減らすことは精度を荒くするのと同義ですが、エンコーダによっては一定の閾値を下回る情報については完全にデータをカットすることもあります。そんなことをして問題はないのかと思われる方もいると思いますが、うまく作られたエンコーダではそれを感じさせないでしょう。

この辺の裁量はフォーマットによって決定されるのではなく、あくまでエンコーダによって決まります。つまり非可逆圧縮ではエンコーダによって同一のフォーマットであっても大きく質が違うことがあるのです。もちろんフォーマットの違いにより出来ることに差は出てきますが、どんな優秀な設計のフォーマットでもエンコーダ(実装)が不味ければ全ては台無しになるでしょう。

最後に、世の中には波形や周波数毎のスペクトルを見て音質を判断しようとする試みがあります。前にも書きましたが、これは音質の評価の指標としては意味が無いです。例えば一定の周波数からlowpassフィルターを掛けることは一般的なエンコーダで行われていますが、それは主に他のより目立つ問題を解消、又は軽減するためにあります。実際に、lowpassフィルターを使わず、常に高周波帯域にデータを多く割り振ることはできます。その場合、見た目は良くなるでしょうが、それでは全体の音質を保つのが難しくなってきます。

逆に、SBRなどを使っているフォーマット(mp3PRO/HE-AAC)では容易に帯域を伸ばせますが、それはオリジナルの信号とはかけ離れた合成された一種のノイズです。そこから生じる問題を聞くことはそれほど難しくありませんが、もしスペクトクルのパッと見た目だけで音質を判断するならば正に「凄い音質」となることでしょう。


カテゴリ: [音声圧縮] - &trackback() - 2005年12月09日 21:30:19
名前: コメント:
#blognavi
記事メニュー
目安箱バナー