ISO/IEC 14496-12:2020 情報技術—視聴覚オブジェクトのコーディング—パート12:ISOベースメディアファイル形式 | ページ 6

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

3 用語、定義および略語

3.1 用語と定義

このドキュメントでは、次の用語と定義が適用されます。

ISO と IEC は、次のアドレスで標準化に使用する用語データベースを維持しています。

3.1.1

一意の型識別子と長さによって定義されるオブジェクト指向のビルディング ブロック

注記 1: MP4 の最初の定義を含め、一部の仕様では「アトム」と呼ばれる。

3.1.2

かたまり

1 つのトラックのサンプルの連続セット

3.1.3

きれいな絞り

整数個のコーディング ブロックを持つなどのコーディング目的で導入された望ましくないピクセルがプレゼンテーション用に削除された、デコードされたビデオ イメージの一部。

3.1.4

コンテナボックス

関連するボックスのセットを入れてグループ化することのみを目的とするボックス

注記 1:通常、コンテナー ボックスはFullBoxから派生したものではありません。

3.1.5

ファイルレベル

ボックス構造に含まれていない ISO ベースのメディア ファイルのバイト位置

3.1.6

フルアパーチャ

プレゼンテーションに望ましくないピクセルが含まれている可能性がある、デコーダによる出力としてのデコードされたビデオ画像

3.1.7

トラックの後ろ

メディア データを含まないが、代わりに 1 つまたは複数のトラックをストリーミング チャネルにパッケージ化するための指示を含む特別なトラック

3.1.8

後ろ

メディアのみを含むファイルで実行されるツールで、ファイルに 1 つまたは複数のヒント トラックを追加してストリーミングを容易にする

3.1.9

索引ファイル

SegmentIndexBoxのみを含む ISO ベースのメディア ファイル

3.1.10

ISO ベースのメディア ファイル

このドキュメントで説明されているファイル形式に準拠したファイル (ムービー ファイル、メタデータ ファイル、セグメント ファイル、またはインデックス ファイルのいずれか)

3.1.11

アイテム

サンプルデータとは対照的に、時限処理を必要としないデータ

3.1.12

主要なサンプル

構成順で RAP の前にあり、RAP の直後にあるランダム アクセス ポイント (RAP) に関連付けられたサンプル、またはデコード順で先頭の別のサンプルであり、RAP からデコードを開始するときに正しくデコードできない可能性があるサンプル。

3.1.13

葉のサブセグメント

サブセグメントへのさらなる分割を可能にするインデックス情報を含まないサブセグメント

3.1.14

モデル

モジュロ演算子: (x mod y) = xy フロア (x/y)

3.1.15

メディアデータボックス

プレゼンテーション用の実際のメディア データを保持できるボックス ( 'mdat' )

3.1.16

メタデータ ファイル

トップレベルのMetaBoxを含む ISO ベースのメディア ファイル

注記 1:ムービー ファイルはメタデータ ファイルである場合もあり、その逆の場合もあります。

3.1.17

ムービーボックス

サブボックスがプレゼンテーションのメタデータを定義するコンテナー ボックス ( 'moov' )

3.1.18

動画ファイル

MovieBoxを含む ISO ベースのメディア ファイル

3.1.19

映画の断片

MovieFragmentBoxとその内容によって定義される、 MovieBoxに含まれる情報のフラグメント

3.1.20

ムービー フラグメントの相対アドレス指定

ムービー フラグメントの開始点に相対的なムービー フラグメント内のメディア データのオフセットのシグナリング。具体的には、フラグ base-data-offset-present を 0 に設定し、default-base-is-moof をTrackFragmentHeaderBoxesで 1 に設定します。

注記 1: default-base-is-moof フラグを 1 に設定することは、複数のトラック ラン (同じトラックまたは複数のトラック) を含むムービー フラグメントにのみ関連します。

3.1.21

ランダム アクセス ポイントを開く

その後、合成順序のすべてのサンプルを正しくデコードできますが、デコード順序でランダム アクセス ポイントに続き、構成順序でランダム アクセス ポイントの前にある一部のサンプルは、正しくデコードする必要はありません。

注記 1:例えば、ピクチャのオープン グループを開始するイントラ ピクチャの後に、合成順序でイントラ ピクチャに先行する (双方向) 予測ピクチャがデコード順で続く場合があります。イントラピクチャからデコードを開始すると正しくデコードできない可能性がありますが、必要ありません。

3.1.22

ピクセル縦横比

歪みのない画像を生成するために、デコーダの出力ピクセルに適用する必要があるスケーリング

注記 1: 「サンプル アスペクト比」という用語がこの用語に使用されることがありますが、この規格における「サンプル」には特定の意味があります。

3.1.23

プレゼンテーション

1 つまたは複数のモーション シーケンス。音声と組み合わせることも可能

3.1.24

発表時間

任意の編集リストによって調整される、サンプルの構成時間

3.1.25

ランダムアクセスポイント

ラップ

タイプ 1 または 2 または 3 の SAP の ISAU で始まるトラックのサンプル。非公式に、デコードが開始されたときに、サンプル自体と構成順に続くすべてのサンプルを正しくデコードできるサンプル。

注記 1: SAP の種類は、附属書 I で定義されています。

3.1.26

ランダム アクセス回復ポイント

タイプ 4 の SAP の TSAP に等しいプレゼンテーション時間のトラックでのサンプル。非公式に、デコード順序でこのサンプルの前にあるいくつかのサンプルをデコードした後に正しくデコードできるサンプル。段階的なデコード リフレッシュとも呼ばれます。

注記 1: SAP の種類は、附属書 I で定義されています。

3.1.27

サンプル

単一の時間に関連付けられたすべてのデータ

注記 1トラック内の 2 つのサンプルが同じデコード時間を共有することはできません。 2 つのサンプルで同じ作曲時間を共有することはできません。

注記 2:非ヒント トラックでは、サンプルは、たとえば、ビデオの個々のフレーム、デコード順の一連のビデオ フレーム、またはデコード順のオーディオの圧縮セクションです。ヒント トラックでは、サンプルが 1 つまたは複数のストリーミング パケットの形成を定義します。

3.1.28

サンプル概要

トラック内のいくつかのサンプルのフォーマットを定義および記述する構造

3.1.29

サンプルエントリータイプ

SampleDescriptionBoxに直接含まれるSampleEntryの format 値、またはOriginalFormatBoxdata_format 値である 4 文字のコード

3.1.30

変換されていないサンプル エントリ タイプ

変換されたメディア トラックに変換が実行されなかった場合に適用されるトラックのサンプル エントリ タイプ

エントリの注 1:これは、 SampleDescriptionBox に直接含まれるSampleEntryのフォーマット値となるサンプル エントリ タイプです

3.1.31

サンプル番号

最初のサンプルのサンプル番号が 1 である、指定されたサンプルの序数インデックス番号

3.1.32

サンプルテーブル

トラック内のサンプルのタイミングと物理レイアウトのパック ディレクトリ

3.1.33

同期サンプル

タイプ 1 または 2 の SAP の ISAU で始まるトラックのサンプル

注記 1: SAP の種類は、附属書 I で定義されています。

注記2:非公式に、サンプルの新しい独立シーケンスを開始するメディアサンプル。同期サンプルでデコードが開始される場合、それとデコード順で後続のサンプルはすべて正しくデコードされ、デコードされたサンプルの結果のセットは、最も早い構成時間を持つデコードされたサンプルで始まるメディアの正しいプレゼンテーションを形成します。メディア形式は、その形式の同期サンプルのより正確な定義を提供する場合があります。

3.1.34

セグメント

(a) 関連するメディア データ (存在する場合) およびその他の関連するボックスを含むMovieBox 、または (b) 関連するメディア データおよびその他の関連するボックスを含む 1 つ以上のMovieFragmentBoxのいずれかで構成されるムービー ファイルの一部

注記 1:関連するメディア データは、次のバイト オフセットで見つけることができますが、関連するボックスを見つけるプロセスは、この標準では指定されておらず、他の仕様から派生する可能性があります。

3.1.35

セグメントファイル

1 つ以上のセグメントを含む ISO ベースのメディア ファイル

3.1.36

サブセグメント

MovieFragmentBox es から形成されたセグメントの時間間隔。これも有効なセグメントです

3.1.37

サムネイル画像

画像の低解像度表現

3.1.38

トップレベルボックス

ファイルレベルで含まれるボックス

3.1.39

トラック

ISO ベースのメディア ファイル内の関連サンプル (qv) のタイミング シーケンス

注記1:メディアデータの場合,トラックは一連の画像またはサンプリングされた音声に対応する。ヒント トラックの場合、トラックはストリーミング チャネルに対応します。

3.2 略語

アルク非同期レイヤードコーディング
avc高度なビデオ コーディング
FDファイル配信
FDTファイル配信表
FEC前方誤り訂正
洪水一方向転送によるファイル配信
イアナインターネット割り当て番号機関
IETFインターネット エンジニアリング タスク フォース
LCTレイヤードコーディングトランスポート
MBMSマルチメディア ブロードキャスト/マルチキャスト サービス
MIME多目的インターネット メール拡張機能 (IETF RFC 2045 および IETF RFC 2046 で定義)
MVCマルチビュー ビデオ コーディング
SVCスケーラブルなビデオ コーディング
UUID普遍的に一意の識別子 (IETF RFC 4122 および ISO/IEC 9834-8 で定義)

参考文献

[1]3GPP TS 26.244, 3GPPファイル形式 (3GP)
[2]3GPP TS 26.346, マルチメディア ブロードキャスト/マルチキャスト サービス (MBMS)プロトコルとコーデック
[3]IETF RFC 3926, FLUTE — 単方向トランスポートによるファイル配信、2004 年 10 月
[4]IETF RFC 3450, Asynchronous Layered Coding (ALC) Protocol Instantiation, 2002 年 12 月
[5]IETF RFC 3451, レイヤード コーディング トランスポート (LCT) ビルディング ブロック、2002 年 12 月
[6]IETF RFC 3695, コンパクト前方誤り訂正 (FEC) 方式、2004 年 2 月
[7]IETF RFC 1864, Content-MD5 ヘッダー フィールド、1995 年 10 月
[8]IETF RFC 2616, ハイパーテキスト転送プロトコル—HTTP/1.1, 1999 年 6 月
[9]IETF RFC 3550, RTP: リアルタイム アプリケーションのトランスポート プロトコル、2003 年 7 月
[10]IETF RFC 3551, 最小限の制御による音声およびビデオ会議の RTP プロファイル、2003 年 7 月
[11]IETF RFC 4771, Integrity Transform Carrying Roll-Over Counter for the Secure Real-time Transport Protoco, 2007 年 1 月
[12]IETF RFC 5119, Society of Motion Picture and Television Engineers (SMPTE) の Uniform Resource Name (URN) 名前空間、2008 年 2 月
[13]ICC.1:2001-04, カラー プロファイルのファイル形式、国際カラー コンソーシアム
[14]SMPTE RP 177, 基本的なテレビ色方程式の導出。映画テレビ技術者協会 (SMPTE)、1993 年
[15]ISO/IEC 13818-1, 情報技術 — 動画および関連する音声情報の汎用コーディング — 1: システム
[16]ISO/IEC 14496-15, 情報技術 — 視聴覚オブジェクトのコーディング — 15:ISOベースのメディアファイル形式でのネットワーク抽象化レイヤー(NAL)ユニット構造化ビデオの運搬
[17]IETF RFC 5117, RTP トポロジ、2008 年 1 月
[18]IETF RFC 3986, Uniform Resource Identifier (URI): Generic Syntax, 2005 年 1 月
[19]IETF RFC 3987, 国際化リソース識別子 (IRI)、2005 年 1 月
[20]ISO/IEC 21000-17:2006, 情報技術 — マルチメディア フレームワーク (MPEG-21) — 17: MPEG リソースのフラグメント識別
[21]ISO/IEC 23009-1, 情報技術 — HTTP を介した動的適応ストリーミング (DASH) — 1: メディア プレゼンテーションの説明とセグメント形式
[22]ISO/IEC 14496-14, 情報技術 — 視聴覚オブジェクトのコーディング — 14:MP4ファイル形式
[23]ISO/IEC 15444-3, 情報技術 — JPEG 2000 画像符号化システム — 3:モーションJPEG2000
[24]Rec. ITU-R BS.1771-1, ラウドネスおよびトゥルーピーク表示メーターの要件
[25]EBU-Tech 3341, ラウドネス メータリング: EBU R128 に準拠したラウドネス正規化を補完する EBU モード メータリング
[26]EBU-Tech 3342, ラウドネス レンジ: EBU R 128 に従ってラウドネスの正規化を補足する手段
[27]ATSC Do A/52:2012, ATSC 規格: デジタル オーディオ圧縮 (AC-3, E-AC-3)
[28]ユニコードh http://www.unicode.org/versions/latest/
[29]IETF RFC 6381, 「バケット」メディア タイプの「コーデック」および「プロファイル」パラメータ、2011 年 8 月
[30]ISO/IEC 23000-11, 情報技術 — マルチメディア アプリケーション フォーマット (MPEG-A) — 11:立体映像の申請フォーマット
[31]ISO/IEC 23008-3, 情報技術 — 異種環境における高効率コーディングとメディア配信 — 3: 3D オーディオ
[32]ISO/IEC 23001-14, 情報技術 — MPEG システム技術 — 14: 部分的なファイル形式
[33]SMPTE ST 336, キー長値を使用したデータ エンコーディング プロトコル
[34]ISO/IEC 8859-1, 情報技術 — 8 ビットのシングルバイト コード化グラフィック文字セット — 1: ラテンアルファベット no. 1
[35]CTA 861-G, 非圧縮高速デジタル インターフェイス用の DTV プロファイル

3 Terms, definitions and abbreviated terms

3.1 Terms and definitions

For the purposes of this document, the following terms and definitions apply.

ISO and IEC maintain terminological databases for use in standardization at the following addresses:

3.1.1

box

object-oriented building block defined by a unique type identifier and length

Note 1 to entry: Called ‘atom’ in some specifications, including the first definition of MP4.

3.1.2

chunk

contiguous set of samples for one track

3.1.3

clean aperture

part of a decoded video image from which undesirable pixels introduced for coding purposes such as having integer number of coding blocks have been removed for presentation

3.1.4

container box

box whose sole purpose is to contain and group a set of related boxes

Note 1 to entry: Container boxes are normally not derived from FullBox.

3.1.5

file level

byte position in an ISO base media file not contained in a Box structure

3.1.6

full aperture

decoded video image as output by the decoder which may contain undesirable pixels for presentation

3.1.7

hint track

special track which does not contain media data, but instead contains instructions for packaging one or more tracks into a streaming channel

3.1.8

hinter

tool that is run on a file containing only media, to add one or more hint tracks to the file and so facilitate streaming

3.1.9

index file

ISO base media file containing only SegmentIndexBox

3.1.10

ISO base media file

file conforming to the file format described in this document (either a movie file, a metadata file, a segment file or an index file)

3.1.11

item

data which does not require timed processing, as opposed to sample data

3.1.12

leading sample

sample associated with a random access point (RAP) that precedes the RAP in composition order and immediately follows the RAP or another leading sample in decoding order, and which possibly cannot be correctly decoded when decoding starts from the RAP

3.1.13

leaf subsegment

subsegment that does not contain any indexing information that would enable its further division into subsegments

3.1.14

mod

modulo operator: (x mod y) = x-y floor (x/y)

3.1.15

media data box

box which can hold the actual media data for a presentation ('mdat')

3.1.16

metadata file

ISO base media file containing a top-level MetaBox

Note 1 to entry: A Movie File may also be a Metadata File, and vice-versa.

3.1.17

movie box

container box whose sub-boxes define the metadata for a presentation ('moov')

3.1.18

movie file

ISO base media file containing a MovieBox

3.1.19

movie fragment

fragment of the information contained in a MovieBox, defined by a MovieFragmentBox and its contents

3.1.20

movie-fragment relative addressing

signalling of offsets for media data in movie fragments that is relative to the start of those movie fragments, specifically setting the flags base-data-offset-present to 0 and default-base-is-moof to 1 in TrackFragmentHeaderBoxes

Note 1 to entry: Setting the default-base-is-moof flag to 1 is only relevant for movie fragments that contain more than one track run (either in the same or several tracks).

3.1.21

open random access point

sample after which all samples in composition order can be correctly decoded, but some samples following the random access point in decoding order and preceding the random access point in composition order need not be correctly decodable

Note 1 to entry: For example, an intra picture starting an open group of pictures can be followed in decoding order by (bi-)predicted pictures that however precede the intra picture in composition order; though they possibly cannot be correctly decoded if the decoding starts from the intra picture, they are not needed.

3.1.22

pixel aspect ratio

scaling required to be applied to the output pixel of a decoder to produce a non-distorted image

Note 1 to entry: The term"Sample Aspect Ratio" is sometimes used for this term, but"sample" in this standard has a specific meaning.

3.1.23

presentation

one or more motion sequences, possibly combined with audio

3.1.24

presentation time

composition time of a sample, as adjusted by any edit list

3.1.25

random access point

RAP

sample in a track that starts at the ISAU of a SAP of type 1 or 2 or 3; informally, a sample, from which when decoding starts, the sample itself and all samples following in composition order can be correctly decoded

Note 1 to entry: SAP types are defined in Annex I.

3.1.26

random access recovery point

sample in a track with presentation time equal to the TSAP of a SAP of type 4; informally, a sample, that can be correctly decoded after having decoded a number of samples that is before this sample in decoding order, sometimes known as gradual decoding refresh

Note 1 to entry: SAP types are defined in Annex I.

3.1.27

sample

all the data associated with a single time

Note 1 to entry: No two samples within a track can share the same decoding time; no two samples can share the same composition time.

Note 2 to entry: In non-hint tracks, a sample is, for example, an individual frame of video, a series of video frames in decoding order, or a compressed section of audio in decoding order; in hint tracks, a sample defines the formation of one or more streaming packets.

3.1.28

sample description

structure which defines and describes the format of some number of samples in a track

3.1.29

sample entry type

four-character code that is either a format value of a SampleEntry directly contained in SampleDescriptionBox or a data_format value of OriginalFormatBox

3.1.30

untransformed sample entry type

sample entry type of the track that would apply if no transformations had been performed to a transformed media track

Note 1 to entry: This is the sample entry type that would be the format value in a SampleEntry directly contained in the SampleDescriptionBox.

3.1.31

sample number

ordinal index number of a given sample where the first sample has sample number 1

3.1.32

sample table

packed directory for the timing and physical layout of the samples in a track

3.1.33

sync sample

sample in a track that starts at the ISAU of a SAP of type 1 or 2

Note 1 to entry: SAP types are defined in Annex I.

Note 2 to entry: Informally, a media sample that starts a new independent sequence of samples; if decoding starts at the sync sample, it and succeeding samples in decoding order can all be correctly decoded, and the resulting set of decoded samples forms the correct presentation of the media starting at the decoded sample that has the earliest composition time; a media format may provide a more precise definition of a sync sample for that format.

3.1.34

segment

portion of movie file, consisting of either (a) a MovieBox, with its associated media data (if any) and other associated boxes or (b) one or more MovieFragmentBoxes, with their associated media data, and other associated boxes

Note 1 to entry: The associated media data can be found by following byte offsets, but the process of finding associated boxes is not given in this standard and may be derived by other specifications.

3.1.35

segment file

ISO base media file containing one or more segment(s)

3.1.36

subsegment

time interval of a segment formed from MovieFragmentBoxes, that is also a valid segment

3.1.37

thumbnail image

smaller-resolution representation of an image

3.1.38

top-level box

box contained at file level

3.1.39

track

timed sequence of related samples (q.v.) in an ISO base media file

Note 1 to entry: For media data, a track corresponds to a sequence of images or sampled audio; for hint tracks, a track corresponds to a streaming channel.

3.2 Abbreviated terms

ALCasynchronous layered coding
AVCadvanced video coding
FDfile delivery
FDTfile delivery table
FECforward error correction
FLUTEfile delivery over unidirectional transport
IANAinternet assigned numbers authority
IETFInternet Engineering Task Force
LCTlayered coding transport
MBMSmultimedia broadcast/multicast service
MIMEmultipurpose internet mail extensions (as defined in IETF RFC 2045 and IETF RFC 2046)
MVCmultiview video coding
SVCscalable video coding
UUIDuniversally unique identifier (as defined in IETF RFC 4122 and ISO/IEC 9834-8)

Bibliography

[1]3GPP TS 26.244, 3GPP file format (3GP)
[2]3GPP TS 26.346, Multimedia Broadcast/Multicast Service (MBMS); Protocols and codecs
[3]IETF RFC 3926, FLUTE — File Delivery over Unidirectional Transport, October 2004
[4]IETF RFC 3450, Asynchronous Layered Coding (ALC) Protocol Instantiation, December 2002
[5]IETF RFC 3451, Layered Coding Transport (LCT) Building Block, December 2002
[6]IETF RFC 3695, Compact Forward Error Correction (FEC) Schemes, February 2004
[7]IETF RFC 1864, The Content-MD5 Header Field, October 1995
[8]IETF RFC 2616, Hypertext Transfer Protocol — HTTP/1.1, June 1999
[9]IETF RFC 3550, RTP: A Transport Protocol for Real-Time Applications, July 2003
[10]IETF RFC 3551, RTP Profile for Audio and Video Conferences with Minimal Control, July 2003
[11]IETF RFC 4771, Integrity Transform Carrying Roll-Over Counter for the Secure Real-time Transport Protocol (SRTP), January 2007
[12]IETF RFC 5119, A Uniform Resource Name (URN) Namespace for the Society of Motion Picture and Television Engineers (SMPTE), February 2008
[13]ICC.1:2001-04, File format for color profiles, International Color Consortium
[14]SMPTE RP 177, Derivation of Basic Television Color Equations; Society of Motion Picture and Television Engineers (SMPTE), 1993
[15]ISO/IEC 13818-1, Information technology — Generic coding of moving pictures and associated audio information — 1: Systems
[16]ISO/IEC 14496-15, Information technology — Coding of audio-visual objects — 15: Carriage of network abstraction layer (NAL) unit structured video in the ISO base media file format
[17]IETF RFC 5117, RTP Topologies, January 2008
[18]IETF RFC 3986, Uniform Resource Identifier (URI): Generic Syntax, January 2005
[19]IETF RFC 3987, Internationalized Resource Identifiers (IRIs), January 2005
[20]ISO/IEC 21000-17:2006, Information technology — Multimedia framework (MPEG-21) — 17: Fragment Identification of MPEG Resources
[21]ISO/IEC 23009-1, Information technology — Dynamic adaptive streaming over HTTP (DASH) — 1: Media presentation description and segment formats
[22]ISO/IEC 14496-14, Information technology — Coding of audio-visual objects — 14: MP4 file format
[23]ISO/IEC 15444-3, Information technology — JPEG 2000 image coding system — 3: Motion JPEG 2000
[24]Rec. ITU-R BS.1771-1, Requirements for loudness and true-peak indicating meters
[25]EBU-Tech 3341, Loudness Metering: EBU mode metering to supplement loudness normalization in accordance with EBU R128
[26]EBU-Tech 3342, Loudness Range: A measure to supplement loudness normalisation in accordance with EBU R 128
[27]ATSC Doc. A/52:2012, ATSC Standard: Digital Audio Compression (AC-3, E-AC-3)
[28]The Unicode Standard. http://www.unicode.org/versions/latest/
[29]IETF RFC 6381, The ‘Codecs’ and ‘Profiles’ Parameters for “Bucket” Media Types, August 2011
[30]ISO/IEC 23000-11, Information technology — Multimedia application format (MPEG-A) — 11: Stereoscopic video application format
[31]ISO/IEC 23008-3, Information technology — High efficiency coding and media delivery in heterogeneous environments — 3: 3D audio
[32]ISO/IEC 23001-14, Information technology — MPEG systems technologies — 14: Partial file format
[33]SMPTE ST 336, Data Encoding Protocol Using Key-Length-Value
[34]ISO/IEC 8859-1, Information technology — 8-bit single-byte coded graphic character sets — 1: Latin alphabet No. 1
[35]CTA 861-G, A DTV Profile for Uncompressed High Speed Digital Interface