ISO/IEC 23003-1:2007 情報技術— MPEGオーディオ技術—パート1:MPEGサラウンド | ページ 6

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

3 用語と定義

3.1 定義

この文書の目的上、次の用語と定義が適用されます。

3.1.1

チャネル

表 1 に示され、図 1 に示されている、特定のスピーカーに対応する入力または出力オーディオ チャネル

表 1 —チャンネルの略称とスピーカーの位置

チャンネル略称大音量スピーカーの位置
L左前
R右前方
C中央前部
LFE低周波の強調
Ls左サラウンド
Rs右サラウンド
LC左前中央
ラジコン右前中央
LSRリアサラウンド左
場合リアサラウンド右
csリアセンター
LSD左サラウンドダイレクト
RSD右サラウンドダイレクト
しましょう左側サラウンド
RSS右側サラウンド
Lw左ワイドフロント
rw右ワイドフロント
lv左前垂直高さ
回転数右前垂直高さ
cv中央前面垂直高さ
LVR左サラウンド垂直高さ後部
回転数右サラウンド垂直高さ背面
CVr中央垂直高さ後部
Lvss左 垂直 高さ 側面 サラウンド
Rvss右垂直高さ側面サラウンド
tsトップセンターサラウンド
LFE2低域強調2

図 1 —ラウドスピーカーの位置

図1

3.1.2

チャンネルレベル差

CLD

2つのチャネル間のエネルギー差

3.1.3

CLDバンド

単一の CLD パラメータが適用される 1 つ以上のハイブリッド サブバンド

3.1.4

チャネル予測係数

クリック単価

2 つのチャネルから 3 つのチャネルを再作成するために使用される予測係数

3.1.5

クリック単価バンド

単一の CPC パラメータが適用される 1 つ以上のハイブリッド サブバンド

3.1.6

ハイブリッドフィルターバンク

ハイブリッド フィルター バンク構造。QMF バンクと奇数変調されたナイキスト フィルター バンクで構成され、時間領域信号をハイブリッド サブバンド サンプルに変換するために使用されます。

3.1.7

ハイブリッドフィルタリング

QMF サブバンド信号のフィルタリング ステップにより、複数のハイブリッド サブバンドが生成されます。

注記 1: 結果として生じるハイブリッド・サブバンドは、周波数が連続しない場合があります。

3.1.8

ハイブリッドサブバンド

QMF サブバンドのハイブリッド フィルタリング後に取得されたサブバンド

注記 1:ハイブリッド・サブバンドは、QMF サブバンドと同じ時間/周波数分解能を持つことができます。

3.1.9

チャネル間の相関

ICC

2 つのチャネル間の相関または一貫性

3.1.10

ICCバンド

単一の IIC パラメータが適用される 1 つ以上のハイブリッド サブバンド

3.1.11

na

適用できない

3.1.12

MNM の構成

N 個のダウンミックスされたチャネルから M 個のチャネルを再作成する空間オーディオコーディングシステムの構成と、対応する空間パラメータ (例: 5-1-5 構成または 5-2-5 構成)

3.1.13

OTTボックス

1 つのチャンネルを入力として受け取り、2 つのチャンネルを出力として生成する概念的な 1 対 2 ボックス

3.1.14

パラメータバンド

1 つのパラメータに適用できる 1 つ以上のハイブリッド サブバンド

3.1.15

パラメータバンドの境界線

パラメータバンドデリミタ。特定のハイブリッドサブバンドとして表現されます。

3.1.16

パラメータのタイムスロット

パラメータが定義されている特定のタイムスロット

3.1.17

パラメータセット

特定のパラメータタイムスロットに関連付けられたパラメータ

3.1.18

パラメータのサブセット

特定のパラメータ タイムスロットおよび特定の OTT ボックスまたは TTT ボックスに関連付けられたパラメータ

3.1.19

処理テープ

パラメータによって制御できる最も細かい周波数分解能を定義する 1 つ以上のハイブリッド サブバンド

3.1.20

QMF銀行

複雑な指数関数的に変調されたフィルターのバンク

3.1.21

QMFサブバンド

時間領域信号の QMF フィルタリング後に、追加のハイブリッド フィルタリング ステージなしで取得されたサブバンド

3.1.22

S.A.C

空間オーディオコーダー

3.1.23

SACフレーム

対応する SpatialFrame() 構文要素で伝えられるデータに従って処理が適用される時間セグメント

3.1.24

時間セグメント

連続するタイムスロットのグループ

3.1.25

タイムスロット

SAC 時間境界に合わせた最高の解像度

注記 1: 1 つのタイムスロットは、ハイブリッド QMF ドメイン内の 1 つのサブサンプルに相当します。

3.1.26

TTTボックス

2 つのチャンネルを入力として受け取り、3 つのチャンネルを出力として生成する概念的な 2 対 3 ボックス

3.2 スコア

Spatial Audio Coder の説明では、次の表記が使用されます。

  • •ベクトルは、太字の小文字名で示されます (例: Vector ) 。
  • •行列 (およびベクトルのベクトル) は、太字の大文字 1 文字の名前 (例: M で示されます。
  • •変数は斜体で示されます (例: variable )
  • •関数はfunc(x)として示されます。
  • •実数はR で表されます。
  • •複素数はC で表されます。

本文中の数式については、通常の数学的解釈が想定されます (明示的に記載されていない限り、四捨五入や切り捨ては行われません)フローチャートの場合は、明示的に指定しない限り、丸めや切り捨てを行わずに、通常の疑似コード解釈が想定されます。

3.3 操作

3.3.1 スカラー演算

X*X の複素共役です。

y = IN, つまり x と同じ符号を持ち、絶対値がx の絶対値以下の整数への変換を表します。

y = log 2 ( x ) は、x の底 2 の対数です。

y = log 10 ( x ) は、x の底 2 の対数です。

y = min (,…,)引数リストの最小値。

y = max (,…,)引数リストの最大値。

y = mod( x, z ) は、モジュロ演算 y = (x - n*z) です。 where n = ceil(x/z)-1 は z ~= 0 に対して定義されます。

y =round ( x ) は、最も近い整数への丸めを表します。中途半端な場合はゼロから四捨五入されます。

y =sign( x )x の符号。したがって、 x の負の値の場合は -1, 正の値の場合は 1, 0 の場合は 0 として定義されます。

3.3.2 ベクトル演算

y =並べ替え( x ) y はソートされたベクトル x ここで, x の要素は昇順でソートされます。

y =長さ( x ) y はベクトル x の要素の数です。

3.4 定数

εゼロによる除算を避けるための定数、たとえば最大信号入力より 96 dB 低い値。

3.5 変数

a m ( l )すべてのパラメータ タイム スロットl と、パラメータ帯域内の最後のサブバンド (周波数が最も高い) であるすべての QMF サブバンドm に対して定義されるエイリアシング条件ベクトル。
ch現在のオーディオチャンネルです。
D _は、任意のツリーのすべての OTT ボックス、すべてのパラメータ セット、およびM procバンドの任意のツリー データ、つまりマッピングされた CLD データを保持する 3 次元行列です。
D CLDは、すべての OTT ボックス、すべてのパラメータ セット、およびM procバンドの逆量子化およびマッピングされた CLD データを保持する 3 次元行列です。
D _は、すべての OTT または TTT ボックス、すべてのパラメータ セット、およびM procバンドの逆量子化およびマッピングされた ICC データを保持する 3 次元行列です。
D CPC_1は、すべての TTT ボックス、すべてのパラメータ セット、およびM procバンドの逆量子化およびマッピングされた最初の CPC データを保持する 3 次元行列です。
D CPC_2は、すべての TTT ボックス、すべてのパラメータ セット、およびM procバンドの逆量子化およびマッピングされた 2 番目の CPC データを保持する 3 次元行列です。
D CLD_1は、すべての TTT ボックス、すべてのパラメータ セット、およびM procバンドの逆量子化およびマッピングされた最初の CLD データを保持する 3 次元行列です。
D CLD_2は、すべての TTT ボックス、すべてのパラメータ セット、およびM procバンドの逆量子化およびマッピングされた 2 番目の CLD データを保持する 3 次元行列です。

mml_m3

は D YYYと同様の 3 次元行列で、データは D YYYと同様に逆量子化されますが、 M 個のパーバンドのデータがあります。 YYY には、CLD, ICC, CPC_1, CPC_2, CLD_1, CLD_2, または ATD のいずれかを指定できます。
環境比率 Xは、各チャネルX の GES エンベロープ データを含むベクトルです。
Fs空間オーディオ ツールのサンプリング周波数です。
Gは、すべての入力チャネル、パラメータ セット、およびMパーバンドの逆量子化およびマッピングされたゲイン補正データを保持する 3 次元行列です。
G Qは、すべての入力チャネル、パラメータ セット、 M par 、およびバンドの逆量子化されたゲイン補正データを保持する 3 次元行列です。
idx XXX (,,)は、ハフマン復号化インデックスとデルタ復号化インデックスを保持する 3 次元行列です。 XXX には、CLD, ICC, CPC_1, CPC_2, CLD_1, CLD_2, または ATD のいずれかを指定できます。
Kハイブリッドサブバンドの数、7
K c低電力 MPEG サラウンドの複素 QMF サブバンドの数、 K c =
Lパラメータセットの数。
Mプロセスは処理バンドの数、28 です。

mml_m4

低電力 MPEG サラウンドの複雑な処理バンドの数、1
M パーbsFreqRes によって通知されるパラメータ バンドの数です。
M QMFは、6.3.3 項で定義されているサンプリング周波数に応じた QMF サブバンドの数です。
m レスパーは、各残差がカバーするパラメータ バンドの数を含むベクトルです。
m resProcは、各残差がカバーする処理バンドの数を含むベクトルです。
m tttLowProcは、TTT ボックスの低域の処理バンド数を含むベクトルです。
m tttHighProcは、TTT ボックスの高域の処理帯域数を含むベクトルです。

mml_m5

は、すべてのタイムスロットn とすべてのハイブリッド サブバンドm に対して定義された、時間および周波数の変化のプリマトリックスです。

mml_m6

は、すべてのタイムスロットn とすべてのハイブリッド サブバンドm に対して定義された、時間と周波数の変化の混合行列です。
r m l )入力ダウンミックス信号に基づく加重相関和。すべてのパラメーター タイム スロットと、隣接するパラメーター境界を持つすべての QMF サブバンドに対して定義され、低電力 MPEG サラウンドに使用されます。
リセット特定のデータ要素が前のフレームから変更されている場合は変数 (エンコーダおよびデコーダ内) が 1 に設定され、そうでない場合は 0 に設定されます。
S プロセスすべてのパラメータ セットおよび処理帯域に対して平滑化が適用されるかどうかを示す行列。
s _タイムスロットごとの平滑化フィルター係数を示すベクトル。
t長さはL で、現在のフレーム内のすべての CLD, ICC, および CPC パラメータ セットのパラメータ タイム スロットが含まれます。
ツリー ( ch 、 、 )3 次元行列。任意ツリーへの入力チャネルごとに、OTT モジュールのインデックスを付けるサブツリーの各出力信号の列があり、入力信号が出力に到達する前に通過する必要があります。
木の 看板( ch 、 、 )3 次元行列。任意ツリーへの入力チャネルごとに、サブツリーの各出力信号の列があり、出力信号に到達するために OTT モジュールの上位 (1) 出力または下位 (-1) 出力のどちらに従う必要があるかを示します。
ツリーの 深さ( ch , )任意ツリーへの入力チャネルごとに、出力チャネルごとに渡される OTT モジュールの数を含む行列。
ツリー アウトちゃん( ch )numOutChan要素を持つベクトルで、各要素には各任意のサブツリーの出力チャネルの数が含まれます。
v ,mプリゲイン行列からのハイブリッド サブバンド出力を含むベクトルですmml_m7、すべてのタイムスロットn とすべてのハイブリッド サブバンドm に対して定義されます。
w 、うーんは、デコリレータからのハイブリッド サブバンド出力、プリゲイン行列、および残差 を含むベクトルで、すべてのタイム スロットn およびすべてのハイブリッド サブバンドm に対して定義されます。

mml_m8

は、デコリレータからのハイブリッド サブバンド出力を含むベクトルであり、時間的整形が使用されるときに定義され、すべてのタイム スロットn とすべてのハイブリッド サブバンドm に対して定義されます。

mml_m9

は、デコリレータからのハイブリッド サブバンド出力、プリゲイン行列および残差を含むベクトルであり、時間整形が使用される場合に定義され、すべてのタイム スロットn およびすべてのハイブリッド サブバンドm に対して定義されます。
x ,mは、ハイブリッド サブバンド入力信号 (ダウンミックスと残差) を含むベクトルで、すべてのタイム スロットn とすべてのハイブリッド サブバンドm に対して定義されます。
y 、mは、出力ハイブリッド サブバンド信号を含むベクトルであり、ハイブリッド合成フィルター バンクに供給され、すべてのタイム スロットn とすべてのハイブリッド サブバンドm に対して定義されます。

mml_m10

は、出力信号の拡散部分の出力ハイブリッド サブバンド信号を含むベクトルであり、時間処理が適用されるときに定義され、すべてのタイム スロットn とすべてのハイブリッド サブバンドm に対して定義されます。

mml_m11

は、出力信号の直接部分の出力ハイブリッド サブバンド信号を含むベクトルであり、時間処理が適用されるときに定義され、すべてのタイム スロットn とすべてのハイブリッド サブバンドm に対して定義されます。

3 Terms and definitions

3.1 Definitions

For the purpose of this document, the following terms and definitions apply.

3.1.1

channel

input or output audio channel corresponding to a specific speaker, as given by Table 1 - and illustrated in Figure 1

Table 1 — Channel abbreviation and loudspeaker position

Channel abbreviationLoudspeaker position
LLeft Front
RRight Front
CCenter Front
LFELow Frequency Enhancement
LsLeft Surround
RsRight Surround
LcLeft Front Center
RcRight Front Center
LsrRear Surround Left
RsrRear Surround Right
csRear Center
LsdLeft Surround Direct
RsdRight Surround Direct
LssLeft Side Surround
RssRight Side Surround
LwLeft Wide Front
rwRight Wide front
lvLeft Front Vertical Height
RvRight Front Vertical Height
cvCenter Front Vertical Height
LvrLeft Surround Vertical Height Rear
RvrRight Surround Vertical Height Rear
CvrCenter Vertical Height Rear
LvssLeft Vertical Height Side Surround
RvssRight Vertical Height Side Surround
tsTop Center Surround
LFE2Low Frequency Enhancement 2

Figure 1 — Loudspeaker positions

Figure_1

3.1.2

Channel Level Difference

CLD

energy difference between two channels

3.1.3

CLD band

one or more hybrid subbands for which a single CLD parameter applies

3.1.4

Channel Prediction Coefficient

CPC

prediction coefficient used for re-creating three channels from two channels

3.1.5

CPC band

one or more hybrid subbands for which a single CPC parameter applies

3.1.6

hybrid filterbank

hybrid filter bank structure, consisting of a QMF bank and oddly modulated Nyquist filter banks, used to transform time domain signals into hybrid subband samples

3.1.7

hybrid filtering

filtering step on a QMF subband signal resulting in multiple hybrid subbands

Note 1 to entry: The resulting hybrid subbands can be non-consecutive in frequency.

3.1.8

hybrid subband

subband obtained after hybrid filtering of a QMF subband

Note 1 to entry: The hybrid subband can have the same time/frequency resolution as a QMF subband.

3.1.9

Inter Channel Correlation

ICC

correlation or coherence between two channels

3.1.10

ICC band

one or more hybrid subbands for which a single IIC parameter applies

3.1.11

na

Not Applicable

3.1.12

M-N-M configuration

configuration of the spatial audio coding system that re-creates M channels from N downmixed channel and the corresponding spatial parameters, e.g. 5-1-5 configuration or 5-2-5 configuration

3.1.13

OTT box

conceptual one-to-two box that takes one channel as input and produces two channels as output

3.1.14

parameter band

one or more hybrid subbands applicable to one parameter

3.1.15

parameter band border

parameter band delimiter, expressed as a specific hybrid subband

3.1.16

parameter time slot

specific time slot for which the parameter is defined

3.1.17

parameter set

parameters associated with a specific parameter time slot

3.1.18

parameter subset

parameters associated with a specific parameter time slot and a specific OTT box or TTT box

3.1.19

processing band

one or more hybrid subbands defining the finest frequency resolution that could be controlled by the parameters

3.1.20

QMF bank

bank of complex exponentially modulated filters

3.1.21

QMF subband

subband obtained after QMF filtering of a time-domain signal, without any additional hybrid filtering stage

3.1.22

SAC

Spatial Audio Coder

3.1.23

SAC frame

time segment to which processing is applied according to the data conveyed in the corresponding SpatialFrame() syntax element

3.1.24

time segment

group of consecutive time slots

3.1.25

time slot

finest resolution in time for SAC time borders

Note 1 to entry: One time slot equals one subsample in the hybrid QMF domain.

3.1.26

TTT box

conceptual two-to-three box that takes two channels as input and produces three channels as output

3.2 Notation

The description of the Spatial Audio Coder uses the following notation:

  • • Vectors are indicated by bold lower-case names, e.g. vector .
  • • Matrices (and vectors of vectors) are indicated by bold upper-case single letter names, e.g. M .
  • • Variables are indicated by italic, e.g. variable .
  • • Functions are indicated as func(x).
  • • Real numbers are denoted by R
  • • Complex numbers are denoted by C

For equations in the text, normal mathematical interpretation is assumed (no rounding or truncation unless explicitly stated). For flowcharts, normal pseudo-code interpretation is assumed, with no rounding or truncation unless explicitly stated.

3.3 Operations

3.3.1 Scalar operations

X* is the complex conjugate of X .

y = INT ( x) represents truncation to integer (only keep the integer part), i.e., conversion to the integer number with the same sign as and with an absolute value smaller than or equal to the absolute value of x .

y = log2 ( x) is the base-2 logarithm of x .

y = log10 ( x) is the base-2 logarithm of x .

y = min (,…,) the minimum value in the argument list.

y = max (,…,) the maximum value in the argument list.

y = mod(x, z) is the modulo operation y = (x - n*z) where n = ceil(x/z)-1 defined for z ~= 0..

y = round (x) represents rounding to the nearest integer. Halfway cases are rounded away from zero.

y = sign(x) the sign of x , hence defined as -1 for negative values of x , 1 for positive values and 0 for 0.

3.3.2 Vector operations

y = sort ( x ). y is equal to the sorted vector x ここで, the elements of x are sorted in ascending order.

y = length( x ). y is the number of elements of the vector x .

3.4 Constants

εA constant to avoid division by zero, e.g. 96 dB below maximum signal input.

3.5 Variables

a m (l )aliasing condition vector defined for every parameter time slot l and all QMF subbands m that are the last subband (highest in frequency) within a parameter band.
chis the current audio channel.
D ATDis the three dimensional matrix holding arbitrary tree data, i.e. mapped CLD data, for every OTT box, every parameter set, and Mproc bands, for the arbitrary tree.
D CLDis the three dimensional matrix holding the dequantized, and mapped CLD data for every OTT box, every parameter set, and Mproc bands.
D ICCis the three dimensional matrix holding the dequantized, and mapped ICC data for every OTT or TTT box, every parameter set, and Mproc bands.
D CPC_1is the three dimensional matrix holding the dequantized, and mapped first CPC data for every TTT box, every parameter set, and Mproc bands.
D CPC_2is the three dimensional matrix holding the dequantized, and mapped second CPC data for every TTT box, every parameter set, and Mproc bands.
D CLD_1is the three dimensional matrix holding the dequantized, and mapped first CLD data for every TTT box, every parameter set, and Mproc bands.
D CLD_2is the three dimensional matrix holding the dequantized, and mapped second CLD data for every TTT box, every parameter set, and Mproc bands.

mml_m3

is a three dimensional matrix similar to D YYY , the data is dequantized as for D YYY , however it has Mpar bands of data. YYY can be any of CLD, ICC, CPC_1, CPC_2, CLD_1, CLD_2 or ATD.
envRatio Xis a vector with GES envelope data for each channel X .
Fsis the sampling frequency of the Spatial Audio Tool.
Gis a three dimensional matrix holding the dequantized and mapped gain correction data for all input channels, parameter set, and Mpar bands.
G Qis a three dimensional matrix holding the dequantized gain correction data for all input channels, parameter set, Mpar and bands.
idx XXX (,,)is a three dimensional matrix holding the Huffman and delta decoded indices. XXX can be any of CLD, ICC, CPC_1, CPC_2, CLD_1, CLD_2 or ATD.
Knumber of hybrid subbands, 71.
Kcnumber of complex QMF subbands for Low Power MPEG Surround,Kc = 8.
Lnumber of parameter sets.
Mprocis the number of processing bands, 28.

mml_m4

number of complex processing bands for Low Power MPEG Surround, 12.
Mparis the number of parameter bands signalled by bsFreqRes.
MQMFis the number of QMF subbands depending on sampling frequency as defined in subclause 6.3.3.
m resParis a vector with the number of parameter bands that each residual cover.
m resProcis a vector with the number of processing bands that each residual cover.
m tttLowProcis a vector with the number of processing bands for the low range in the TTT boxes.
m tttHighProcis a vector with the number of processing bands for the high range in the TTT boxes.

mml_m5

is the time and frequency variant pre- matrix, defined for all time slots n and all hybrid subbands m.

mml_m6

is the time and frequency variant mix-matrix, defined for all time slots n and all hybrid subbands m.
r m(l)weighted correlation sum based on the input downmix signal, defined for every parameter time slot and all QMF subbands that have an adjoining parameter border, used for Low Power MPEG surround.
reseta variable (in the encoder and the decoder) set to one if certain data elements have changed from the previous frame, otherwise set to zero.
S proca matrix indicating for every parameter set and processing band if smoothing is applied.
s deltaa vector indicating for every time-slot the smoothing filter coefficient.
tis of length L and contains parameter time slots for all CLD, ICC, and CPC parameter sets in the current frame.
Tree (ch, , )a 3 dimensional matrix, which for each input channel to the Arbitrary Tree have a column for each output signal of the sub-tree indexing the OTT modules the input signal must pass before the output is reached.
Tree sign(ch, , )a 3 dimensional matrix, which for each input channel to the Arbitrary Tree have a column for each output signal of the sub-tree indicating whether the upper (1) or the lower (-1) output of an OTT module should be followed to reach the output signal.
Tree depth(ch, )a matrix which for each input channel to the Arbitrary Tree have the number of OTT modules that are passed for every output channel.
Tree outChan(ch )is a vector with numOutChan elements and each element contain the number of output channels for each Arbitrary Sub-tree.
v n,mis a vector with the hybrid subband output from the pre gain matrix mml_m7, defined for all time slots n and all hybrid subbands m .
w n,mis a vector with the hybrid subband output from the decorrelators, the pre-gain matrix and residuals , defined for all time slots n and all hybrid subbands m .

mml_m8

is a vector with the hybrid subband output from the decorrelators, defined when temporal shaping is used, defined for all time slots n and all hybrid subbands m .

mml_m9

is a vector with the hybrid subband output from the decorrelators, the pre-gain matrix and residuals, defined when temporal shaping is used, defined for all time slots n and all hybrid subbands m .
x n,mis a vector with the hybrid subband input signals (down-mix and residuals), defined for all time slots n and all hybrid subbands m.
y n,mis a vector with the output hybrid subband signals, which are feed into the hybrid synthesis filter banks, defined for all time slots n and all hybrid subbands m .

mml_m10

is a vector with the output hybrid subband signals for the diffuse part of the output signal, which is defined when temporal processing is applied, defined for all time slots n and all hybrid subbands m .

mml_m11

is a vector with the output hybrid subband signals for the direct part of the output signal, which is defined when temporal processing is applied, defined for all time slots n and all hybrid subbands m .