この規格 プレビューページの目次
※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。
3 用語と定義
3.1 定義
この文書の目的上、次の用語と定義が適用されます。
3.1.1
チャネル
表 1 —チャンネルの略称とスピーカーの位置
| チャンネル略称 | 大音量スピーカーの位置 |
|---|---|
| L | 左前 |
| R | 右前方 |
| C | 中央前部 |
| LFE | 低周波の強調 |
| Ls | 左サラウンド |
| Rs | 右サラウンド |
| LC | 左前中央 |
| ラジコン | 右前中央 |
| LSR | リアサラウンド左 |
| 場合 | リアサラウンド右 |
| cs | リアセンター |
| LSD | 左サラウンドダイレクト |
| RSD | 右サラウンドダイレクト |
| しましょう | 左側サラウンド |
| RSS | 右側サラウンド |
| Lw | 左ワイドフロント |
| rw | 右ワイドフロント |
| lv | 左前垂直高さ |
| 回転数 | 右前垂直高さ |
| cv | 中央前面垂直高さ |
| LVR | 左サラウンド垂直高さ後部 |
| 回転数 | 右サラウンド垂直高さ背面 |
| CVr | 中央垂直高さ後部 |
| Lvss | 左 垂直 高さ 側面 サラウンド |
| Rvss | 右垂直高さ側面サラウンド |
| ts | トップセンターサラウンド |
| LFE2 | 低域強調2 |
図 1 —ラウドスピーカーの位置

3.1.2
チャンネルレベル差
CLD
2つのチャネル間のエネルギー差
3.1.3
CLDバンド
単一の CLD パラメータが適用される 1 つ以上のハイブリッド サブバンド
3.1.4
チャネル予測係数
クリック単価
2 つのチャネルから 3 つのチャネルを再作成するために使用される予測係数
3.1.5
クリック単価バンド
単一の CPC パラメータが適用される 1 つ以上のハイブリッド サブバンド
3.1.6
ハイブリッドフィルターバンク
ハイブリッド フィルター バンク構造。QMF バンクと奇数変調されたナイキスト フィルター バンクで構成され、時間領域信号をハイブリッド サブバンド サンプルに変換するために使用されます。
3.1.7
ハイブリッドフィルタリング
QMF サブバンド信号のフィルタリング ステップにより、複数のハイブリッド サブバンドが生成されます。
注記 1: 結果として生じるハイブリッド・サブバンドは、周波数が連続しない場合があります。
3.1.8
ハイブリッドサブバンド
QMF サブバンドのハイブリッド フィルタリング後に取得されたサブバンド
注記 1:ハイブリッド・サブバンドは、QMF サブバンドと同じ時間/周波数分解能を持つことができます。
3.1.9
チャネル間の相関
ICC
2 つのチャネル間の相関または一貫性
3.1.10
ICCバンド
単一の IIC パラメータが適用される 1 つ以上のハイブリッド サブバンド
3.1.11
na
適用できない
3.1.12
MNM の構成
N 個のダウンミックスされたチャネルから M 個のチャネルを再作成する空間オーディオコーディングシステムの構成と、対応する空間パラメータ (例: 5-1-5 構成または 5-2-5 構成)
3.1.13
OTTボックス
1 つのチャンネルを入力として受け取り、2 つのチャンネルを出力として生成する概念的な 1 対 2 ボックス
3.1.14
パラメータバンド
1 つのパラメータに適用できる 1 つ以上のハイブリッド サブバンド
3.1.15
パラメータバンドの境界線
パラメータバンドデリミタ。特定のハイブリッドサブバンドとして表現されます。
3.1.16
パラメータのタイムスロット
パラメータが定義されている特定のタイムスロット
3.1.17
パラメータセット
特定のパラメータタイムスロットに関連付けられたパラメータ
3.1.18
パラメータのサブセット
特定のパラメータ タイムスロットおよび特定の OTT ボックスまたは TTT ボックスに関連付けられたパラメータ
3.1.19
処理テープ
パラメータによって制御できる最も細かい周波数分解能を定義する 1 つ以上のハイブリッド サブバンド
3.1.20
QMF銀行
複雑な指数関数的に変調されたフィルターのバンク
3.1.21
QMFサブバンド
時間領域信号の QMF フィルタリング後に、追加のハイブリッド フィルタリング ステージなしで取得されたサブバンド
3.1.22
S.A.C
空間オーディオコーダー
3.1.23
SACフレーム
対応する SpatialFrame() 構文要素で伝えられるデータに従って処理が適用される時間セグメント
3.1.24
時間セグメント
連続するタイムスロットのグループ
3.1.25
タイムスロット
SAC 時間境界に合わせた最高の解像度
注記 1: 1 つのタイムスロットは、ハイブリッド QMF ドメイン内の 1 つのサブサンプルに相当します。
3.1.26
TTTボックス
2 つのチャンネルを入力として受け取り、3 つのチャンネルを出力として生成する概念的な 2 対 3 ボックス
3.2 スコア
Spatial Audio Coder の説明では、次の表記が使用されます。
- •ベクトルは、太字の小文字名で示されます (例: Vector ) 。
- •行列 (およびベクトルのベクトル) は、太字の大文字 1 文字の名前 (例: M で示されます。
- •変数は斜体で示されます (例: variable ) 。
- •関数はfunc(x)として示されます。
- •実数はR で表されます。
- •複素数はC で表されます。
本文中の数式については、通常の数学的解釈が想定されます (明示的に記載されていない限り、四捨五入や切り捨ては行われません)フローチャートの場合は、明示的に指定しない限り、丸めや切り捨てを行わずに、通常の疑似コード解釈が想定されます。
3.3 操作
3.3.1 スカラー演算
X*はX の複素共役です。
y = IN, つまり x と同じ符号を持ち、絶対値がx の絶対値以下の整数への変換を表します。
y = log 2 ( x ) は、x の底 2 の対数です。
y = log 10 ( x ) は、x の底 2 の対数です。
y = min (,…,)引数リストの最小値。
y = max (,…,)引数リストの最大値。
y = mod( x, z ) は、モジュロ演算 y = (x - n*z) です。 where n = ceil(x/z)-1 は z ~= 0 に対して定義されます。
y =round ( x ) は、最も近い整数への丸めを表します。中途半端な場合はゼロから四捨五入されます。
y =sign( x )x の符号。したがって、 x の負の値の場合は -1, 正の値の場合は 1, 0 の場合は 0 として定義されます。
3.3.2 ベクトル演算
y =並べ替え( x ) y はソートされたベクトル x ここで, x の要素は昇順でソートされます。
y =長さ( x ) y はベクトル x の要素の数です。
3.4 定数
| ε | ゼロによる除算を避けるための定数、たとえば最大信号入力より 96 dB 低い値。 |
3.5 変数
| a m ( l ) | すべてのパラメータ タイム スロットl と、パラメータ帯域内の最後のサブバンド (周波数が最も高い) であるすべての QMF サブバンドm に対して定義されるエイリアシング条件ベクトル。 |
| ch | 現在のオーディオチャンネルです。 |
| D _ | は、任意のツリーのすべての OTT ボックス、すべてのパラメータ セット、およびM procバンドの任意のツリー データ、つまりマッピングされた CLD データを保持する 3 次元行列です。 |
| D CLD | は、すべての OTT ボックス、すべてのパラメータ セット、およびM procバンドの逆量子化およびマッピングされた CLD データを保持する 3 次元行列です。 |
| D _ | は、すべての OTT または TTT ボックス、すべてのパラメータ セット、およびM procバンドの逆量子化およびマッピングされた ICC データを保持する 3 次元行列です。 |
| D CPC_1 | は、すべての TTT ボックス、すべてのパラメータ セット、およびM procバンドの逆量子化およびマッピングされた最初の CPC データを保持する 3 次元行列です。 |
| D CPC_2 | は、すべての TTT ボックス、すべてのパラメータ セット、およびM procバンドの逆量子化およびマッピングされた 2 番目の CPC データを保持する 3 次元行列です。 |
| D CLD_1 | は、すべての TTT ボックス、すべてのパラメータ セット、およびM procバンドの逆量子化およびマッピングされた最初の CLD データを保持する 3 次元行列です。 |
| D CLD_2 | は、すべての TTT ボックス、すべてのパラメータ セット、およびM procバンドの逆量子化およびマッピングされた 2 番目の CLD データを保持する 3 次元行列です。 |
| は D YYYと同様の 3 次元行列で、データは D YYYと同様に逆量子化されますが、 M 個のパーバンドのデータがあります。 YYY には、CLD, ICC, CPC_1, CPC_2, CLD_1, CLD_2, または ATD のいずれかを指定できます。 |
| 環境比率 X | は、各チャネルX の GES エンベロープ データを含むベクトルです。 |
| Fs | 空間オーディオ ツールのサンプリング周波数です。 |
| G | は、すべての入力チャネル、パラメータ セット、およびMパーバンドの逆量子化およびマッピングされたゲイン補正データを保持する 3 次元行列です。 |
| G Q | は、すべての入力チャネル、パラメータ セット、 M par 、およびバンドの逆量子化されたゲイン補正データを保持する 3 次元行列です。 |
| idx XXX (,,) | は、ハフマン復号化インデックスとデルタ復号化インデックスを保持する 3 次元行列です。 XXX には、CLD, ICC, CPC_1, CPC_2, CLD_1, CLD_2, または ATD のいずれかを指定できます。 |
| K | ハイブリッドサブバンドの数、7 |
| K c | 低電力 MPEG サラウンドの複素 QMF サブバンドの数、 K c = |
| L | パラメータセットの数。 |
| Mプロセス | は処理バンドの数、28 です。 |
| 低電力 MPEG サラウンドの複雑な処理バンドの数、1 |
| M パー | bsFreqRes によって通知されるパラメータ バンドの数です。 |
| M QMF | は、6.3.3 項で定義されているサンプリング周波数に応じた QMF サブバンドの数です。 |
| m レスパー | は、各残差がカバーするパラメータ バンドの数を含むベクトルです。 |
| m resProc | は、各残差がカバーする処理バンドの数を含むベクトルです。 |
| m tttLowProc | は、TTT ボックスの低域の処理バンド数を含むベクトルです。 |
| m tttHighProc | は、TTT ボックスの高域の処理帯域数を含むベクトルです。 |
| は、すべてのタイムスロットn とすべてのハイブリッド サブバンドm に対して定義された、時間および周波数の変化のプリマトリックスです。 |
| は、すべてのタイムスロットn とすべてのハイブリッド サブバンドm に対して定義された、時間と周波数の変化の混合行列です。 |
| r m l ) | 入力ダウンミックス信号に基づく加重相関和。すべてのパラメーター タイム スロットと、隣接するパラメーター境界を持つすべての QMF サブバンドに対して定義され、低電力 MPEG サラウンドに使用されます。 |
| リセット | 特定のデータ要素が前のフレームから変更されている場合は変数 (エンコーダおよびデコーダ内) が 1 に設定され、そうでない場合は 0 に設定されます。 |
| S プロセス | すべてのパラメータ セットおよび処理帯域に対して平滑化が適用されるかどうかを示す行列。 |
| s _ | タイムスロットごとの平滑化フィルター係数を示すベクトル。 |
| t | 長さはL で、現在のフレーム内のすべての CLD, ICC, および CPC パラメータ セットのパラメータ タイム スロットが含まれます。 |
| ツリー ( ch 、 、 ) | 3 次元行列。任意ツリーへの入力チャネルごとに、OTT モジュールのインデックスを付けるサブツリーの各出力信号の列があり、入力信号が出力に到達する前に通過する必要があります。 |
| 木の 看板( ch 、 、 ) | 3 次元行列。任意ツリーへの入力チャネルごとに、サブツリーの各出力信号の列があり、出力信号に到達するために OTT モジュールの上位 (1) 出力または下位 (-1) 出力のどちらに従う必要があるかを示します。 |
| ツリーの 深さ( ch , ) | 任意ツリーへの入力チャネルごとに、出力チャネルごとに渡される OTT モジュールの数を含む行列。 |
| ツリー アウトちゃん( ch ) | はnumOutChan要素を持つベクトルで、各要素には各任意のサブツリーの出力チャネルの数が含まれます。 |
| v ,m | プリゲイン行列からのハイブリッド サブバンド出力を含むベクトルです 、すべてのタイムスロットn とすべてのハイブリッド サブバンドm に対して定義されます。 |
| w 、うーん | は、デコリレータからのハイブリッド サブバンド出力、プリゲイン行列、および残差 を含むベクトルで、すべてのタイム スロットn およびすべてのハイブリッド サブバンドm に対して定義されます。 |
| は、デコリレータからのハイブリッド サブバンド出力を含むベクトルであり、時間的整形が使用されるときに定義され、すべてのタイム スロットn とすべてのハイブリッド サブバンドm に対して定義されます。 |
| は、デコリレータからのハイブリッド サブバンド出力、プリゲイン行列および残差を含むベクトルであり、時間整形が使用される場合に定義され、すべてのタイム スロットn およびすべてのハイブリッド サブバンドm に対して定義されます。 |
| x ,m | は、ハイブリッド サブバンド入力信号 (ダウンミックスと残差) を含むベクトルで、すべてのタイム スロットn とすべてのハイブリッド サブバンドm に対して定義されます。 |
| y 、m | は、出力ハイブリッド サブバンド信号を含むベクトルであり、ハイブリッド合成フィルター バンクに供給され、すべてのタイム スロットn とすべてのハイブリッド サブバンドm に対して定義されます。 |
| は、出力信号の拡散部分の出力ハイブリッド サブバンド信号を含むベクトルであり、時間処理が適用されるときに定義され、すべてのタイム スロットn とすべてのハイブリッド サブバンドm に対して定義されます。 |
| は、出力信号の直接部分の出力ハイブリッド サブバンド信号を含むベクトルであり、時間処理が適用されるときに定義され、すべてのタイム スロットn とすべてのハイブリッド サブバンドm に対して定義されます。 |
3 Terms and definitions
3.1 Definitions
For the purpose of this document, the following terms and definitions apply.
3.1.1
channel
Table 1 — Channel abbreviation and loudspeaker position
| Channel abbreviation | Loudspeaker position |
|---|---|
| L | Left Front |
| R | Right Front |
| C | Center Front |
| LFE | Low Frequency Enhancement |
| Ls | Left Surround |
| Rs | Right Surround |
| Lc | Left Front Center |
| Rc | Right Front Center |
| Lsr | Rear Surround Left |
| Rsr | Rear Surround Right |
| cs | Rear Center |
| Lsd | Left Surround Direct |
| Rsd | Right Surround Direct |
| Lss | Left Side Surround |
| Rss | Right Side Surround |
| Lw | Left Wide Front |
| rw | Right Wide front |
| lv | Left Front Vertical Height |
| Rv | Right Front Vertical Height |
| cv | Center Front Vertical Height |
| Lvr | Left Surround Vertical Height Rear |
| Rvr | Right Surround Vertical Height Rear |
| Cvr | Center Vertical Height Rear |
| Lvss | Left Vertical Height Side Surround |
| Rvss | Right Vertical Height Side Surround |
| ts | Top Center Surround |
| LFE2 | Low Frequency Enhancement 2 |
Figure 1 — Loudspeaker positions

3.1.2
Channel Level Difference
CLD
energy difference between two channels
3.1.3
CLD band
one or more hybrid subbands for which a single CLD parameter applies
3.1.4
Channel Prediction Coefficient
CPC
prediction coefficient used for re-creating three channels from two channels
3.1.5
CPC band
one or more hybrid subbands for which a single CPC parameter applies
3.1.6
hybrid filterbank
hybrid filter bank structure, consisting of a QMF bank and oddly modulated Nyquist filter banks, used to transform time domain signals into hybrid subband samples
3.1.7
hybrid filtering
filtering step on a QMF subband signal resulting in multiple hybrid subbands
Note 1 to entry: The resulting hybrid subbands can be non-consecutive in frequency.
3.1.8
hybrid subband
subband obtained after hybrid filtering of a QMF subband
Note 1 to entry: The hybrid subband can have the same time/frequency resolution as a QMF subband.
3.1.9
Inter Channel Correlation
ICC
correlation or coherence between two channels
3.1.10
ICC band
one or more hybrid subbands for which a single IIC parameter applies
3.1.11
na
Not Applicable
3.1.12
M-N-M configuration
configuration of the spatial audio coding system that re-creates M channels from N downmixed channel and the corresponding spatial parameters, e.g. 5-1-5 configuration or 5-2-5 configuration
3.1.13
OTT box
conceptual one-to-two box that takes one channel as input and produces two channels as output
3.1.14
parameter band
one or more hybrid subbands applicable to one parameter
3.1.15
parameter band border
parameter band delimiter, expressed as a specific hybrid subband
3.1.16
parameter time slot
specific time slot for which the parameter is defined
3.1.17
parameter set
parameters associated with a specific parameter time slot
3.1.18
parameter subset
parameters associated with a specific parameter time slot and a specific OTT box or TTT box
3.1.19
processing band
one or more hybrid subbands defining the finest frequency resolution that could be controlled by the parameters
3.1.20
QMF bank
bank of complex exponentially modulated filters
3.1.21
QMF subband
subband obtained after QMF filtering of a time-domain signal, without any additional hybrid filtering stage
3.1.22
SAC
Spatial Audio Coder
3.1.23
SAC frame
time segment to which processing is applied according to the data conveyed in the corresponding SpatialFrame() syntax element
3.1.24
time segment
group of consecutive time slots
3.1.25
time slot
finest resolution in time for SAC time borders
Note 1 to entry: One time slot equals one subsample in the hybrid QMF domain.
3.1.26
TTT box
conceptual two-to-three box that takes two channels as input and produces three channels as output
3.2 Notation
The description of the Spatial Audio Coder uses the following notation:
- • Vectors are indicated by bold lower-case names, e.g. vector .
- • Matrices (and vectors of vectors) are indicated by bold upper-case single letter names, e.g. M .
- • Variables are indicated by italic, e.g. variable .
- • Functions are indicated as func(x).
- • Real numbers are denoted by R
- • Complex numbers are denoted by C
For equations in the text, normal mathematical interpretation is assumed (no rounding or truncation unless explicitly stated). For flowcharts, normal pseudo-code interpretation is assumed, with no rounding or truncation unless explicitly stated.
3.3 Operations
3.3.1 Scalar operations
X* is the complex conjugate of X .
y = INT ( x) represents truncation to integer (only keep the integer part), i.e., conversion to the integer number with the same sign as and with an absolute value smaller than or equal to the absolute value of x .
y = log2 ( x) is the base-2 logarithm of x .
y = log10 ( x) is the base-2 logarithm of x .
y = min (,…,) the minimum value in the argument list.
y = max (,…,) the maximum value in the argument list.
y = mod(x, z) is the modulo operation y = (x - n*z) where n = ceil(x/z)-1 defined for z ~= 0..
y = round (x) represents rounding to the nearest integer. Halfway cases are rounded away from zero.
y = sign(x) the sign of x , hence defined as -1 for negative values of x , 1 for positive values and 0 for 0.
3.3.2 Vector operations
y = sort ( x ). y is equal to the sorted vector x ここで, the elements of x are sorted in ascending order.
y = length( x ). y is the number of elements of the vector x .
3.4 Constants
| ε | A constant to avoid division by zero, e.g. 96 dB below maximum signal input. |
3.5 Variables
| a m (l ) | aliasing condition vector defined for every parameter time slot l and all QMF subbands m that are the last subband (highest in frequency) within a parameter band. |
| ch | is the current audio channel. |
| D ATD | is the three dimensional matrix holding arbitrary tree data, i.e. mapped CLD data, for every OTT box, every parameter set, and Mproc bands, for the arbitrary tree. |
| D CLD | is the three dimensional matrix holding the dequantized, and mapped CLD data for every OTT box, every parameter set, and Mproc bands. |
| D ICC | is the three dimensional matrix holding the dequantized, and mapped ICC data for every OTT or TTT box, every parameter set, and Mproc bands. |
| D CPC_1 | is the three dimensional matrix holding the dequantized, and mapped first CPC data for every TTT box, every parameter set, and Mproc bands. |
| D CPC_2 | is the three dimensional matrix holding the dequantized, and mapped second CPC data for every TTT box, every parameter set, and Mproc bands. |
| D CLD_1 | is the three dimensional matrix holding the dequantized, and mapped first CLD data for every TTT box, every parameter set, and Mproc bands. |
| D CLD_2 | is the three dimensional matrix holding the dequantized, and mapped second CLD data for every TTT box, every parameter set, and Mproc bands. |
| is a three dimensional matrix similar to D YYY , the data is dequantized as for D YYY , however it has Mpar bands of data. YYY can be any of CLD, ICC, CPC_1, CPC_2, CLD_1, CLD_2 or ATD. |
| envRatio X | is a vector with GES envelope data for each channel X . |
| Fs | is the sampling frequency of the Spatial Audio Tool. |
| G | is a three dimensional matrix holding the dequantized and mapped gain correction data for all input channels, parameter set, and Mpar bands. |
| G Q | is a three dimensional matrix holding the dequantized gain correction data for all input channels, parameter set, Mpar and bands. |
| idx XXX (,,) | is a three dimensional matrix holding the Huffman and delta decoded indices. XXX can be any of CLD, ICC, CPC_1, CPC_2, CLD_1, CLD_2 or ATD. |
| K | number of hybrid subbands, 71. |
| Kc | number of complex QMF subbands for Low Power MPEG Surround,Kc = 8. |
| L | number of parameter sets. |
| Mproc | is the number of processing bands, 28. |
| number of complex processing bands for Low Power MPEG Surround, 12. |
| Mpar | is the number of parameter bands signalled by bsFreqRes. |
| MQMF | is the number of QMF subbands depending on sampling frequency as defined in subclause 6.3.3. |
| m resPar | is a vector with the number of parameter bands that each residual cover. |
| m resProc | is a vector with the number of processing bands that each residual cover. |
| m tttLowProc | is a vector with the number of processing bands for the low range in the TTT boxes. |
| m tttHighProc | is a vector with the number of processing bands for the high range in the TTT boxes. |
| is the time and frequency variant pre- matrix, defined for all time slots n and all hybrid subbands m. |
| is the time and frequency variant mix-matrix, defined for all time slots n and all hybrid subbands m. |
| r m(l) | weighted correlation sum based on the input downmix signal, defined for every parameter time slot and all QMF subbands that have an adjoining parameter border, used for Low Power MPEG surround. |
| reset | a variable (in the encoder and the decoder) set to one if certain data elements have changed from the previous frame, otherwise set to zero. |
| S proc | a matrix indicating for every parameter set and processing band if smoothing is applied. |
| s delta | a vector indicating for every time-slot the smoothing filter coefficient. |
| t | is of length L and contains parameter time slots for all CLD, ICC, and CPC parameter sets in the current frame. |
| Tree (ch, , ) | a 3 dimensional matrix, which for each input channel to the Arbitrary Tree have a column for each output signal of the sub-tree indexing the OTT modules the input signal must pass before the output is reached. |
| Tree sign(ch, , ) | a 3 dimensional matrix, which for each input channel to the Arbitrary Tree have a column for each output signal of the sub-tree indicating whether the upper (1) or the lower (-1) output of an OTT module should be followed to reach the output signal. |
| Tree depth(ch, ) | a matrix which for each input channel to the Arbitrary Tree have the number of OTT modules that are passed for every output channel. |
| Tree outChan(ch ) | is a vector with numOutChan elements and each element contain the number of output channels for each Arbitrary Sub-tree. |
| v n,m | is a vector with the hybrid subband output from the pre gain matrix , defined for all time slots n and all hybrid subbands m . |
| w n,m | is a vector with the hybrid subband output from the decorrelators, the pre-gain matrix and residuals , defined for all time slots n and all hybrid subbands m . |
| is a vector with the hybrid subband output from the decorrelators, defined when temporal shaping is used, defined for all time slots n and all hybrid subbands m . |
| is a vector with the hybrid subband output from the decorrelators, the pre-gain matrix and residuals, defined when temporal shaping is used, defined for all time slots n and all hybrid subbands m . |
| x n,m | is a vector with the hybrid subband input signals (down-mix and residuals), defined for all time slots n and all hybrid subbands m. |
| y n,m | is a vector with the output hybrid subband signals, which are feed into the hybrid synthesis filter banks, defined for all time slots n and all hybrid subbands m . |
| is a vector with the output hybrid subband signals for the diffuse part of the output signal, which is defined when temporal processing is applied, defined for all time slots n and all hybrid subbands m . |
| is a vector with the output hybrid subband signals for the direct part of the output signal, which is defined when temporal processing is applied, defined for all time slots n and all hybrid subbands m . |




、すべてのタイムスロットn とすべてのハイブリッド サブバンドm に対して定義されます。


