※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。
序文
ISO (国際標準化機構) と IEC (国際電気標準会議) は、世界標準化のための専門システムを形成しています。 ISO または IEC のメンバーである各国団体は、特定の技術活動分野に対処するためにそれぞれの組織によって設立された技術委員会を通じて国際規格の開発に参加しています。 ISO と IEC の技術委員会は、相互に関心のある分野で協力します。政府および非政府の他の国際機関も、ISO および IEC と連携してこの作業に参加しています。情報技術の分野では、ISO と IEC は共同技術委員会 ISO/IEC JTC 1 を設立しました。
国際規格は、ISO/IEC 指令Part 3 部に規定されている規則に従って草案されています。
合同技術委員会の主な任務は、国際規格を作成することです。合同技術委員会によって採択された国際規格草案は、投票のために各国機関に配布されます。国際規格として発行するには、投票を行っている国家機関の少なくとも 75% による承認が必要です。
ISO/IEC 15938-4 は、合同技術委員会 ISO/IEC JTC 1, 情報技術、分科会 SC 29, オーディオ、画像、マルチメディアおよびハイパーメディア情報のコーディングによって作成されました。
ISO/IEC 15938は、「情報技術 — マルチメディア コンテンツ記述インターフェイス」という一般タイトルのもと、次の部分で構成されています。
- Part 1: システム
- Part 2: 記述定義言語
- Part 3: ビジュアル
- Part 4: オーディオ
- Part 5: マルチメディア記述スキーム
- Part 6: リファレンス ソフトウェア
- Part 7: 適合テスト
- Part 8: MPEG-7 記述の抽出と使用
ISO/IEC 15938 のこの部分の付録 A および B は情報提供のみを目的としています。
序章
「マルチメディア コンテンツ記述インターフェイス」としても知られるこの標準は、マルチメディア コンテンツを記述するための標準化された一連のテクノロジを提供します。この規格は、マルチメディア コンテンツの機能を記述するためのメタデータ システムを提供することにより、幅広いマルチメディア アプリケーションと要件に対応します。
この規格では次のことが指定されています。
- 記述スキーム (DS) は、 マルチメディア コンテンツに関連するエンティティまたは関係を記述します。記述スキームは、記述スキーム、記述子、またはデータ型などのコンポーネントの構造とセマンティクスを指定します。
- 記述子 (D) は、 マルチメディア コンテンツの機能、属性、または属性のグループを記述します。
- データ型は 、記述スキームと記述子で使用される基本的な再利用可能なデータ型です。
- 記述定義言語 (DDL) は、 構文を指定することによって記述スキーム、記述子、およびデータ型を定義し、それらの拡張を許可します。
- システム ツールは、 説明の配信、マルチメディア コンテンツとの説明の多重化、同期、ファイル形式などをサポートします。
この規格は 8 つの部分に分かれています。
Part 1 - システム : 効率的な転送と保存のために説明を準備し、説明を圧縮し、コンテンツと説明の間の同期を可能にするためのツールを指定します。
Part 2 - 記述定義言語 : 記述ツールの標準セット (DS, D, およびデータ型) を定義するための言語と、新しい記述ツールを定義するための言語を指定します。
Part 3 - Visual : ビジュアル コンテンツに関連する説明ツールを指定します。
Part 4 - オーディオ : オーディオ コンテンツに関連する説明ツールを指定します。
Part 5 - マルチメディア記述スキーム : オーディオおよびビジュアル コンテンツを含むマルチメディアに関連する一般的な記述ツールを指定します。
Part 6 - リファレンス ソフトウェア : 標準のソフトウェア実装を提供します。
Part 7 - 適合性テスト : 標準の実装の適合性をテストするためのガイドラインと手順を指定します。
Part 8 - MPEG-7 記述の抽出と使用 : 記述の抽出と使用のガイドラインと例を示します。
1 スコープ
1.1 範囲の定義
この国際標準は、マルチメディア コンテンツ記述インターフェイスを定義し、異なるシステムがマルチメディア コンテンツに関する情報を交換できるようにする、システムからアプリケーション レベルまでの一連のインターフェイスを指定します。システムのアーキテクチャ、拡張機能と特定のアプリケーション用の言語、オーディオとビジュアルのドメインの記述ツール、およびオーディオとビジュアルのドメインに固有ではないツールについて説明します。前述のすべてのコンポーネントを包含するこの国際規格は、全体として「MPEG-7」として知られています。 MPEG-7 は 8 つの部分に分かれています (序文で定義されているとおり)
MPEG-7 標準のこの部分 ( Part 4: オーディオ) は、オーディオ ドメインのマルチメディアに関連する記述ツールを指定します。詳しい申請内容は下記をご覧ください。
MPEG-7 標準のこの部分は、標準の他の部分と組み合わせて実装されることを目的としています。特に、MPEG-7 Part 4: オーディオは、記述子と記述スキームの標準的な構文定義において、 Part 2: 記述定義言語 (DDL) の知識を前提としています。標準のこの部分は、 Part 5: マルチメディア記述スキーム、つまり DDL の基本型機能を拡張する基本的な記述スキームの多くの条項にも依存しています。
MPEG-7 は拡張可能な規格です。標準で提供されている記述スキームを超えて標準を拡張する方法は、DDL で新しい記述スキームを定義し、それらの DS をインスタンス化された記述で使用できるようにすることです。詳細については、 Part 2 を参照してください。標準の他の部分との機能の重複を避けるために、DDL が提供される唯一の拡張機能です。
1.2 応用分野
MPEG-7 Part 4: オーディオは、あらゆる形式のオーディオ コンテンツに適用されます。当該音声の符号化形式や媒体は特に限定されず、磁気テープや光学フィルム等のアナログ媒体に記録された音声も含まれる。オーディオのコンテンツは、音楽、音声、効果音、サウンドトラック、またはそれらの混合の有無に制限されません。
国際規格のこの部分にリストされているツールは、単独のオーディオとビデオに関連するオーディオの両方に適用できます。
標準のオーディオ部分で提供される特定のツールは、オーディオとビデオの両方に適用されるマルチメディア記述スキームと連携して動作するように設計されています。標準の「ツールボックス」の性質により、DDL の制約内で、標準のさまざまな部分からの最も適切なツールが混在する場合があります。
MPEG-7 オーディオ ツールは、2 つの一般的な領域に適用できます。オーディオ フレームワーク (第 5 条) の場合は低レベルのオーディオ記述、高レベル ツール (第 6 条) の場合はアプリケーション駆動型の記述です。
オーディオ フレームワーク ツールは、エンコードされた信号によって伝送される特定のコンテンツに関係なく、一般的なオーディオに適用できます。スケーラブル シリーズは、マルチレベルのサンプリング データに対する一般的な機能を提供します。オーディオ記述フレームワークは、スケーラブル シリーズまたはオーディオ セグメントで使用する特定の記述子を定義します。オーディオ セグメントには、規格のマルチメディア記述スキーム部分で説明されている一般セグメントから継承されたプロパティがあります。無音記述子はセグメント記述子と連携して動作し、考えられるすべてのオーディオ信号に適用できます。
高レベルの説明ツールは、オーディオ内の特定の種類のコンテンツに適用できます。特定のドメインについては、各下位条項の導入部分で詳しく説明されています。さまざまな MPEG-7 オーディオ ツールに含まれるオーディオ ドメインは、音声、音響効果、楽器、音楽内のメロディー、および一般的な音声認識です。これらの特殊なツールは、標準内の他のツールと組み合わせて使用できます。
2 用語と定義
ISO/IEC 15938 のこの部分の目的のために、次の用語と定義が適用されます。
2.1
フレーム
x ( f , t ) = s ( t ) × h ( t − f × S )
ここで、 S ホップ サイズです2.2
ホップサイズ
ホップ サイズは、2 つの連続する分析間の時間的距離を定義します。
2.3
ウィンドウ分析の実行
ランニング ウィンドウ分析は、ホップ サイズと呼ばれるパラメーターの整数倍だけ時間とともにシフトされるウィンドウ関数を信号に乗算することによって得られる分析です。窓関数h ( t ) およびホップ サイズS の場合、窓のf th シフトはh ( t − fS ) に等しくなります。
2.4
瞬時値
(Timbre) 記述子ベースのピーク推定の瞬時値は、フレーム レベルでの分析の結果として定義されます。ピーク推定に基づく (音色) 記述子のグローバル値は、瞬間値のセグメントのすべてのフレームにわたる平均として定義されます。
Foreword
ISO (the International Organization for Standardization) and IEC (the International Electrotechnical Commission) form the specialized system for worldwide standardization. National bodies that are members of ISO or IEC participate in the development of International Standards through technical committees established by the respective organization to deal with particular fields of technical activity. ISO and IEC technical committees collaborate in fields of mutual interest. Other international organizations, governmental and non-governmental, in liaison with ISO and IEC, also take part in the work. In the field of information technology, ISO and IEC have established a joint technical committee, ISO/IEC JTC 1.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 3.
The main task of the joint technical committee is to prepare International Standards. Draft International Standards adopted by the joint technical committee are circulated to national bodies for voting. Publication as an International Standard requires approval by at least 75 % of the national bodies casting a vote.
ISO/IEC 15938-4 was prepared by Joint Technical Committee ISO/IEC JTC 1, Information technology, Subcommittee SC 29, Coding of audio, picture, multimedia and hypermedia information.
ISO/IEC 15938 consists of the following parts, under the general title Information technology — Multimedia content description interface:
- Part 1: Systems
- Part 2: Description definition language
- Part 3: Visual
- Part 4: Audio
- Part 5: Multimedia description schemes
- Part 6: Reference software
- Part 7: Conformance testing
- Part 8: Extraction and use of MPEG-7 descriptions
Annexes A and B of this part of ISO/IEC 15938 are for information only.
Introduction
This standard, also known as"Multimedia Content Description Interface," provides a standardized set of technologies for describing multimedia content. The standard addresses a broad spectrum of multimedia applications and requirements by providing a metadata system for describing the features of multimedia content.
The following are specified in this standard:
- Description Schemes (DS) describe entities or relationships pertaining to multimedia content. Description Schemes specify the structure and semantics of their components, which may be Description Schemes, Descriptors, or datatypes.
- Descriptors (D) describe features, attributes, or groups of attributes of multimedia content.
- Datatypes are the basic reusable datatypes employed by Description Schemes and Descriptors
- Description Definition Language (DDL) defines Description Schemes, Descriptors, and Datatypes by specifying their syntax, and allows their extension.
- Systems tools support delivery of descriptions, multiplexing of descriptions with multimedia content, synchronization, file format, and so forth.
This standard is subdivided into eight parts:
Part 1 - Systems : specifies the tools for preparing descriptions for efficient transport and storage, compressing descriptions, and allowing synchronization between content and descriptions.
Part 2 - Description definition language : specifies the language for defining the standard set of description tools (DSs, Ds, and datatypes) and for defining new description tools.
Part 3 - Visual : specifies the description tools pertaining to visual content.
Part 4 - Audio : specifies the description tools pertaining to audio content.
Part 5 - Multimedia description schemes : specifies the generic description tools pertaining to multimedia including audio and visual content.
Part 6 - Reference software : provides a software implementation of the standard.
Part 7 - Conformance testing : specifies the guidelines and procedures for testing conformance of implementations of the standard.
Part 8 - Extraction and use of MPEG-7 descriptions : provides guidelines and examples of the extraction and use of descriptions.
1 Scope
1.1 Definition of Scope
This International Standard defines a Multimedia Content Description Interface, specifying a series of interfaces from system to application level to allow disparate systems to interchange information about multimedia content. It describes the architecture for systems, a language for extensions and specific applications, description tools in the audio and visual domains, as well as tools that are not specific to audio-visual domains. As a whole, this International Standard encompassing all of the aforementioned components is known as “MPEG-7.” MPEG-7 is divided into eight parts (as defined in the Foreword).
This part of the MPEG-7 Standard (Part 4: Audio) specifies description tools that pertain to multimedia in the audio domain. See below for further details of application.
This part of the MPEG-7 Standard is intended to be implemented in conjunction with other parts of the standard. In particular, MPEG-7 Part 4: Audio assumes knowledge of Part 2: Description Definition Language (DDL) in its normative syntactic definitions of Descriptors and Description Schemes. This part of the standard also has dependencies upon clauses in Part 5: Multimedia Description Schemes, namely many of the fundamental Description Schemes that extend the basic type capabilities of the DDL.
MPEG-7 is an extensible standard. The method to extend the standard beyond the Description Schemes provided in the standard is to define new ones in the DDL, and to make those DSs available with the instantiated descriptions. Further details are available in Part 2. To avoid duplicate functionality with other parts of the standard, the DDL is the only extension facility provided.
1.2 Fields of application
MPEG-7 Part 4: Audio is applicable to all forms of audio content. The encoding format or medium of the said audio is not limited in any way, and may include audio held in an analogue medium such as magnetic tape or optical film. The content of the audio is not limited within or without music, speech, sound effects, soundtracks, or any mixtures thereof.
The tools listed in this part of the International Standard are applicable to both audio in isolation and to audio associated with video.
The specific tools provided within the Audio portion of the standard are designed to work in conjunction with the Multimedia Description Schemes that apply to both audio and video. Because of the “toolbox” nature of the standard, the most appropriate tools from the different parts of the standard may be mixed, within the constraints of the DDL.
The MPEG-7 Audio tools are applicable to two general areas: low-level audio description, in the case of the Audio Framework (clause 5), and application-driven description, in the case of the High Level Tools (clause 6).
The Audio Framework tools are applicable to general audio, without regard to the specific content carried by the encoded signal. The Scalable Series provides general capabilities for multi-level sampled data. The Audio Description Framework defines specific descriptors for use with the Scalable Series or with Audio Segments, which has properties inherited from the general Segment described in the Multimedia Description Schemes part of the standard. The Silence Descriptor works with the Segment descriptor, and is applicable across all possible audio signals.
The high level description tools are applicable to specific types of content within audio. The specific domains are well documented within the introduction to each sub-clause. The audio domains encompassed by the various MPEG-7 Audio tools are speech, sound effects, musical instruments, melodies within music and general audio recognition. These specialised tools may be employed in conjunction with the other tools within the standard.
2 Terms and definitions
For the purposes of this part of ISO/IEC 15938, the following terms and definitions apply.
2.1
Frame
x( f ,t) = s(t)× h(t − f × S)
where S is the hop size2.2
Hop size
The hop size defines the temporal distance between two successive analyses
2.3
Running window analysis
A running window analysis is an analysis obtained by multiplying the signal by a window function which is shifted along time by integer multiple of a parameter called the hop size. For a window function h(t), and a hop size S, the fth shifting of the window is equal to h(t − fS).
2.4
Instantaneous values
The instantaneous value of a (Timbre) descriptor based peak estimation is defined to be the result of analysis on a frame level. The global value of a (Timbre) descriptor based on peak estimation is defined to be the average over all frames of the segment of the instantaneous value.