「蒼弓ノート」 別館

音声形式こと始め

最終更新:

匿名ユーザー

- view
メンバー限定 登録/ログイン
#blognavi
 最近では多くの音声ファイルをインターネット上で見かけることと思います。音声ファイルには色々な種類があり、それらはPC上のプレイヤーソフトで再生したり、携帯型プレイヤーに転送して聞くことができます。また、ストリーミングラジオや、Pod Castでも幾つもの音声形式が利用されています。しかし、実際に利用する時の混乱の素は多くの形式の存在です。人は言うでしょう、「なんでそんな沢山の形式があるんだ、一つでいいじゃないか」と。
 そんな疑問の解答になるかは解りませんが、ここでは簡単に幾つかのフォーマットの成り立ちや特徴を書いていこうと思います。これだけ沢山の形式が生まれたのには当然理由があります。まず歴史を追ってお話していきましょう。

1.インターネット一般に広がる(1995~1998)
 商用インターネットが始まってから数年後の1995年にWindows95が登場し、インターネットは広く使われるようになってきました。もっともその頃は常時接続などは一般ではなく、ダイアルアップ回線での従量料金払いで、手軽に利用できる状態ではありませんでした。ネットワークの回線は細く、音声や動画をネット上で送ろうとすれば、小さく圧縮する必要がありました。そうして生まれた(発達した)のが、音声や動画を小さく圧縮する技術です。 この分野では先行していたApple、そしてReal、後発のMicrosoftはそれぞれがインターネット上で圧縮音声や動画をストリーミング再生・配信するためのソフトを開発・配布していきました。それは現在のQuicktime、RealPlayerやWindowsMediaPlayerの古いバージョンです。それらには幾つかの圧縮技術が搭載(開発・採用)され、一般には目に見えない形ながら広く使われてきました。当時の音声圧縮技術の進化版として、RealAudioシリーズやWMA(WindowsMediaAudio)9が今も広く使われています。

2.MP3、注目される(1997~1999)
 MP3はMPEG(Moving Picture Experts Group)で1993年に策定され、ISOにも盛り込まれた音声圧縮・伝送規格です。正式な名称はMPEG1 Audio Layer 3ですが、拡張子としてMP3が使われるようになってから、徐々にMP3という名前で知られていきました。本来は動画の音声パートとして使われることを前提としたものですが、単体の音声形式として広く知られています。普及するきっかけの一つとして、1997年登場のWinampと呼ばれるMP3対応音楽再生ソフトの登場が上げられるでしょう。
 MP3は128kbps(CDの十分の一のサイズ)に圧縮できるという触れ込みで、実際にこのサイズでもそれまでの常識を超える音質を実現し、それは想像以上のスピードで普及していきました。また時期的にもPCの処理能力がMP3を再生するための閾値を十分に超えようとしていたことも、その要因でしょう。

3.携帯プレイヤーの変化(1999~2004)
 この頃、日本においてはMD(MiniDisc)がコンパクトカセットの後継として普及していました。これは形は違えどMP3と同様な考え方に基づく圧縮技術(ATRAC)を用いた規格です。MDはデジタル記録方式ですが、CDに比べるとディスクの容量が少ないために圧縮技術が必要だったのです。
 同時にこの頃からMP3ファイルを直接再生できる携帯プレイヤーが増え始めます。これらのプレイヤーの登場初期にはAACやTwinVQと呼ばれる当時最新の圧縮技術を採用したものも現れました(これらはMP3よりも高音質・低容量を目指した新しい規格で、現在ではどちらもMPEGで採用されています)。しかしながらMP3はその中でも非常に強力な存在として在りつづけました。
 その後2001年に登場したAppleのiPodはじわじわと人気を獲得していきました。2004年にもなるとiPodの人気は磐石に近いものになっていました。その間に、DVDプレイヤーや普及型オーディオコンポーネントはMP3ファイルを記録したCDの再生に対応し、CDライティングドライブの広範な普及も手伝って、個人が手軽にパソコンで作ったMP3ファイルを色々な場所で再生できるようになりました。
 またMDを開発したSONYは自社の技術であるATRACやその発展系であるATRAC3(+)を採用したオーディオプレイヤーを発売していきました。一方AACはMPEG-4 AACとしてiPodに採用されiPodの成長と共に普及していきました。現在AppleのiTunesMusicStoreで売られている音楽ファイルはMPEG-4 AACを基礎として、独自の著作権管理技術(FairPlay DRM)を付加したものです。

4.異なる出発点
 これらの多様な規格が登場した背景には、多様な会社間での競争があります。自社で作った規格であれば他社にライセンスすることで利益を得ることができます。逆に他社の規格・技術を使うためには他社にライセンス料金を支払う必要が出てきます。それは国際標準化機構(ISO)で認証されている規格でも変わりません。ただし、ライセンス契約によるものではなく、その規格を構成している要素技術の特許使用料金という形になります(ただし、クローズドな規格・技術と違い非差別的な条件を特許所有者は許可する必要があります。またISO規格でも特許でカバーされていないものもあります)。
 こうした流れに反発する方向で生まれたのがOggVorbisです。OggVorbisは音声圧縮規格の一つとして生まれましたが、そのきっかけの一つは、MP3符号器作者に送られたMP3特許所有者からの警告文でした。それは事実上フリーソフトとして符号器バイナリを配布することを禁じるものでした(注1)。そこで、既存の特許を使わないことを目標として作られたのが規格としてのOggVorbisであり、符号器・復号器としてのOggVorbis(libvorbis)です。OggVorbisは数年の開発期間を経て2002年に非営利団体Xiph.Orgより正式にリリースされています。

→注1
フリーでオープンソースなMP3符号器で有名なLAMEはISOのリファレンスコードへのパッチとしてスタートし、後に完全にリファレンスコードを置き換えました。しかし、現在でもLAMEプロジェクトとしては符号器バイナリの配布は行っていないようです。ソースコードのみの配布になっています。これは恐らく特許問題を意識したものでしょう。

5.品質優先の選択肢
 以上に述べた規格は全て損失を伴うものです。つまり、その音はオリジナルと比較して必ず劣化しています。もちろん、聴覚上の劣化を最小限に抑えることを目標にそれぞれの規格や符号器は作られていますが、割り当てられる情報量(ビットレート)が小さければ多くの人はその劣化を聞くことができるでしょう。逆に情報量が増えれば多かれ少なかれ音質は上がります(アルゴリズムが同じだとして)。
 そして近年ではコンピュータの処理能力や記憶能力も上がってきたため、オリジナルのPCM形式(PCMでテータが格納されているWAVやAIFFなど)で格納しておくことも容易になってきていますが、そんな時、少しでも容量を小さくしたい場合に有効なのが可逆圧縮形式です。これは損失を伴わないで、概ね30%から70%ほど容量を削減することができます。もちろん大抵はリアルタイムに再生することも可能です。
 可逆圧縮形式には多くの規格が存在しており、その数は両手では到底足りません。損失を伴う圧縮方法と比較すると、リスニングによる調整を必要とせず、アルゴリズムは純粋に数学的な要素に依存するため、作りやすいということもありそうです。帯域(容量)が重視されない用途では、将来的に使用されることが多くなっていきそうですが、規格の淘汰は起こりそうです。

6. 結び
 現在ではMP3が標準的な存在となっています。MP3が最も使われている最大の理由はその可搬性にあるでしょう。それは非常にポピュラーであり、またダントツに広い範囲でサポートされています。まさにディファクトスタンダートとしての強さです。そして多くの人にとって、その品質は十分なものでしょう。
 しかし、全ての人にとって最適なわけではありません。低いビットレートでの品質や、ライセンス条件の違いは他の形式を選ぶ大きな理由になります。例えば音楽配信ビジネスではMP3よりもAACが明白に好まれます。これは品質の問題もありますが、ライセンスコストの問題が大きいです。またゲームソフトではOggVorbisがよく利用されます。これはコストの問題や組み込み向けであることが主な要因でしょう。そして、特定の形式の権利を保有する会社などは、その特定の形式を押します。それは自社の利益のためです。
 多かれ少なかれ存在している規格には存在理由があり、それを必要としている人たちがいます。



カテゴリ: [音声圧縮] - &trackback() - 2006年04月30日 18:33:04
名前: コメント:
#blognavi
記事メニュー
目安箱バナー