ISO/IEC 15938-13:2015 情報技術—マルチメディアコンテンツ記述インターフェース—パート13:視覚探索のためのコンパクトな記述子 | ページ 2

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

序文

ISO (国際標準化機構) と IEC (国際電気標準会議) は、世界標準化のための専門システムを形成しています。 ISO または IEC のメンバーである国家機関は、技術活動の特定の分野を扱うために、それぞれの組織によって設立された技術委員会を通じて、国際規格の開発に参加しています。 ISO と IEC の技術委員会は、相互に関心のある分野で協力しています。 ISO および IEC と連携して、政府および非政府の他の国際機関もこの作業に参加しています。情報技術の分野では、ISO と IEC が合同技術委員会 ISO/IEC JTC 1 を設立しました。

この文書の開発に使用された手順と、今後の維持のために意図された手順は、ISO/IEC 指令で説明されています。 1. 特に、さまざまなタイプの文書に必要なさまざまな承認基準に注意する必要があります。この文書は、ISO/IEC 指令の編集規則に従って作成されました。 2 ( www.iso.org/directives を参照)

このドキュメントの要素の一部が特許権の対象となる可能性があることに注意してください。 ISO および IEC は、そのような特許権の一部またはすべてを特定する責任を負わないものとします。ドキュメントの開発中に特定された特許権の詳細は、序文および/または受信した特許宣言の ISO リストに記載されます ( www.iso.org/patents を参照)

このドキュメントで使用されている商号は、ユーザーの便宜のために提供された情報であり、保証を構成するものではありません。

適合性評価に関連する ISO 固有の用語および表現の意味に関する説明、および技術的貿易障壁 (TBT) における ISO の WTO 原則への準拠に関する情報については、次の URL を参照して ください 。

この文書を担当する委員会は、ISO/IEC JTC 1, 情報技術、SC 29, オーディオ、画像、マルチメディア、およびハイパーメディア情報のコーディングです

ISO/IEC 15938 は、次の部分で構成され、一般的なタイトルは「情報技術 - マルチメディア コンテンツ記述インターフェイス」です。

  • Part 1: システム
  • Part 2: 記述定義言語
  • Part 3: ビジュアル
  • Part 4: オーディオ
  • Part 5: マルチメディア記述方式
  • Part 6: リファレンス ソフトウェア
  • Part 7: 適合性テスト
  • Part 8: MPEG-7 記述の抽出と使用
  • Part 9: プロファイルとレベル
  • Part 10: スキーマ定義
  • Part 11: MPEG-7 プロファイル スキーム
  • Part 12: クエリ形式
  • Part 13: ビジュアル検索用のコンパクト記述子

序章

「マルチメディア コンテンツ記述インターフェイス」とも呼ばれるこの国際標準は、マルチメディア コンテンツを記述するための標準化された一連の技術を提供します。マルチメディア コンテンツの機能を記述するためのメタデータ システムを提供することで、幅広いマルチメディア アプリケーションと要件に対応します。

以下は、この国際規格で指定されています。

  • 記述スキーム (DS) は、マルチメディア コンテンツに関するエンティティまたは関係を記述します。記述スキームは、記述スキーム、記述子、またはデータ型であるコンポーネントの構造とセマンティクスを指定します。
  • 記述子 (D) は、マルチメディア コンテンツの機能、属性、または属性のグループを記述します。
  • データ 型は、記述スキームと記述子で使用される基本的な再利用可能なデータ型です。
  • システム ツール は、説明の配信、マルチメディア コンテンツとの説明の多重化、同期、ファイル形式などをサポートします。

この国際規格は、13 の部分に細分化されています。

  • Part 1 — システム : 効率的な転送と保存のために記述を準備し、記述を圧縮し、コンテンツと記述の間の同期を可能にするためのツールを指定します。
  • Part 2 — 記述定義言語 : 記述ツール (DS, D, およびデータ型) の国際標準セットを定義し、新しい記述ツールを定義するための言語を指定します。
  • Part 3 — ビジュアル : ビジュアル コンテンツに関する説明ツールを指定します。
  • Part 4 — オーディオ : オーディオ コンテンツに関する説明ツールを指定します。
  • Part 5 — マルチメディア記述方式 : オーディオおよびビジュアル コンテンツを含むマルチメディアに関する一般的な記述ツールを指定します。
  • Part 6 — リファレンス ソフトウェア : 国際規格のソフトウェア実装を提供します。
  • Part 7 — 適合性テスト : 国際規格の実装の適合性をテストするためのガイドラインと手順を指定します。
  • Part 8 — MPEG-7 記述 の抽出と使用: 記述の抽出と使用のガイドラインと例を提供します。
  • Part 9 — プロファイルとレベル : ガイドラインと標準プロファイルを提供します。
  • Part 10 — スキーマ定義 : 記述定義言語を使用してスキーマを指定します。
  • Part 11 — プロファイル スキーマ : 記述定義言語を使用したプロファイル スキーマのリスト。
  • Part 12 — クエリ形式 : MPEG クエリ形式 (MPQF) のツールが含まれています。
  • Part 13 — ビジュアル検索用のコンパクト記述子 : ビジュアル検索アプリケーション用の画像記述ツールを指定します。

1 スコープ

ISO/IEC 15938 のこの部分の構成は次のとおりです。箇条 2 および 3 は、国際規格で使用される用語、略語、記号、および規則を指定します。条項 4 では、CDVS イメージ記述子のバイナリ表現の構文と記述子コンポーネントのセマンティクスを指定します。第 5 節では、CDVS イメージ記述子の抽出およびエンコード プロセスを指定します。附属書 AJ は、条項 5 の符号化プロセスに関連する情報を指定します。附属書 K には、CDVS 画像記述子の復号化プロセスに関する有益な説明が含まれています。

MPEG-7 標準のこの部分は、効率的で相互運用可能なビジュアル検索アプリケーションを可能にするように設計された画像記述ツールを指定し、画像内のビジュアル コンテンツ マッチングを可能にします。ビジュアル コンテンツ マッチングには、オブジェクト、ランドマーク、および印刷されたドキュメントのビューのマッチングが含まれますが、視点、カメラ パラメーター、および照明条件の変化だけでなく、部分的なオクルージョンに対してもロバストです。

2 用語と定義

このドキュメントでは、次の用語と定義が適用されます。

2.1

イメージ記述子

1 つの画像から抽出された記述子

2.2

イメージ記述子の長さ

イメージ記述子のバイト単位のサイズ

注記 1この国際規格は,6 つの平均的な(すなわち多数の画像にわたる)画像記述子の長さ,すなわち 512 バイト,1024 バイト,2048 バイト,4096 バイト,8192 バイト,および 16384 バイトと,それぞれの符号化プロセスを規定している.イメージ記述子の長さ。

2.3

元の画像

画像記述子エンコーダへの入力画像

2.4

画像

元の画像の空間的にリサンプリングされたバージョンであり、そこから画像記述子が抽出される画像

2.5

ピクセル

空間座標と輝度値を含む、元の画像または変換された画像のインデックス可能な要素

2.6

関心点

透視変換、画像スケールの変化、照明の変化など、画像ドメイン内の局所的および全体的な摂動下での検出の安定性を示す画像内のポイント

2.7

地域

局所特徴記述子を生成するために使用される、関心点の近傍にある画像内の領域

2.8

細胞

ローカル リージョンの 4x4 サブディビジョンのそれぞれ

2.9

セル ヒストグラム

セルから計算された勾配のヒストグラム

2.10

ローカル機能記述子

セル ヒストグラムから計算された局所領域の記述子

2.11

グローバル記述子

画像のコンパクトな表現への局所特徴記述子の集約

2.12

圧縮されたローカル特徴記述子

ローカル特徴記述子の圧縮表現

2.13

関心点の座標

最も近い整数に丸められた、変換された画像解像度での関心点の位置を示す水平および垂直ピクセル座標

2.14

位置量子化係数

量子化された関心点座標の値を取得するために、変換された画像の上に重ねられる空間グリッドのブロックのサイズ

2.15

ヒストグラム マップ

変換された画像の上に空間グリッドを重ね合わせて生成された各ビンに少なくとも 1 つの関心点が設定されているかどうかを示す、位置の量子化係数によって縮小された変換された画像のバイナリ表現

2.16

ヒストグラム数

変換された画像の上に空間グリッドを重ね合わせて生成された、空でない各ビンに入力される関心点の数を示すベクトル

Foreword

ISO (the International Organization for Standardization) and IEC (the International Electrotechnical Commission) form the specialized system for worldwide standardization. National bodies that are members of ISO or IEC participate in the development of International Standards through technical committees established by the respective organization to deal with particular fields of technical activity. ISO and IEC technical committees collaborate in fields of mutual interest. Other international organizations, governmental and non-governmental, in liaison with ISO and IEC, also take part in the work. In the field of information technology, ISO and IEC have established a joint technical committee, ISO/IEC JTC 1.

The procedures used to develop this document and those intended for its further maintenance are described in the ISO/IEC Directives, 1. In particular the different approval criteria needed for the different types of document should be noted. This document was drafted in accordance with the editorial rules of the ISO/IEC Directives, 2 (see www.iso.org/directives ).

Attention is drawn to the possibility that some of the elements of this document may be the subject of patent rights. ISO and IEC shall not be held responsible for identifying any or all such patent rights. Details of any patent rights identified during the development of the document will be in the Introduction and/or on the ISO list of patent declarations received (see www.iso.org/patents ).

Any trade name used in this document is information given for the convenience of users and does not constitute an endorsement.

For an explanation on the meaning of ISO specific terms and expressions related to conformity assessment, as well as information about ISO's adherence to the WTO principles in the Technical Barriers to Trade (TBT) see the following URL: Foreword - Supplementary information

The committee responsible for this document is ISO/IEC JTC 1, Information technology, SC 29, Coding of audio, picture, multimedia and hypermedia information.

ISO/IEC 15938 consists of the following parts, under the general title Information technology — Multimedia content description interface:

  • Part 1: Systems
  • Part 2: Description definition language
  • Part 3: Visual
  • Part 4: Audio
  • Part 5: Multimedia description schemes
  • Part 6: Reference software
  • Part 7: Conformance testing
  • Part 8: Extraction and use of MPEG-7 descriptions
  • Part 9: Profiles and levels
  • Part 10: Schema definition
  • Part 11: MPEG-7 profile schemas
  • Part 12: Query format
  • Part 13: Compact descriptors for visual search

Introduction

This International Standard, also known as"Multimedia Content Description Interface," provides a standardized set of technologies for describing multimedia content. It addresses a broad spectrum of multimedia applications and requirements by providing a metadata system for describing the features of multimedia content.

The following are specified in this International Standard:

  • Description schemes (DS) describe entities or relationships pertaining to multimedia content. Description schemes specify the structure and semantics of their components, which may be Description Schemes, descriptors, or datatypes.
  • Descriptors (D) describe features, attributes, or groups of attributes of multimedia content.
  • Datatypes are the basic reusable datatypes employed by description schemes and descriptors.
  • Systems tools support delivery of descriptions, multiplexing of descriptions with multimedia content, synchronization, file format, and so forth.

This International Standard is subdivided into 13 parts:

  • Part 1 — Systems : specifies the tools for preparing descriptions for efficient transport and storage, compressing descriptions, and allowing synchronization between content and descriptions.
  • Part 2 — Description definition language : specifies the language for defining the International Standard set of description tools (DSs, Ds, and datatypes) and for defining new description tools.
  • Part 3 — Visual : specifies the description tools pertaining to visual content.
  • Part 4 — Audio : specifies the description tools pertaining to audio content.
  • Part 5 — Multimedia description schemes : specifies the generic description tools pertaining to multimedia including audio and visual content.
  • Part 6 — Reference software : provides a software implementation of the International Standard.
  • Part 7 — Conformance testing : specifies the guidelines and procedures for testing conformance of implementations of the International Standard.
  • Part 8 — Extraction and use of MPEG-7 descriptions : provides guidelines and examples of the extraction and use of descriptions.
  • Part 9 — Profiles and levels : provides guidelines and standard profiles.
  • Part 10 — Schema definition : specifies the schema using description definition language.
  • Part 11 — Profile Schemas : listing of profile schemas using description definition language.
  • Part 12 — Query format : contains the tools of the MPEG Query Format (MPQF).
  • Part 13 — Compact descriptors for visual search : specifies an image description tool for visual search applications.

1 Scope

The structure of this part of ISO/IEC 15938 is as follows. Clauses 2 and 3 specify the terms, abbreviations, symbols, and conventions used in the International Standard. Clause 4 specifies the binary representation syntax and descriptor component semantics for a CDVS image descriptor. Clause 5 specifies the extraction and encoding process for a CDVS image descriptor. Annexes A-J specify information relevant to the encoding process of Clause 5. Annex K contains an informative description of the decoding process of a CDVS image descriptor.

This part of the MPEG-7 standard specifies an image description tool designed to enable efficient and interoperable visual search applications, allowing visual content matching in images. Visual content matching includes matching of views of objects, landmarks, and printed documents, while being robust to partial occlusions as well as changes in viewpoint, camera parameters, and lighting conditions.

2 Terms and definitions

For the purposes of this document, the following terms and definitions apply.

2.1

image descriptor

descriptor extracted from one image

2.2

image descriptor length

size of an image descriptor in bytes

Note 1 to entry: This International Standard specifies six average (i.e. over a large number of images) image descriptor lengths, i.e. 512 bytes, 1024 bytes, 2048 bytes, 4096 bytes, 8192 bytes, and 16384 bytes, and the encoding process for each image descriptor length.

2.3

original image

input image to the image descriptor encoder

2.4

converted image

image which is a spatially resampled version of the original image and from which the image descriptor is extracted

2.5

pixel

indexable element of the original image or the converted image, comprising spatial coordinates and a luminance value

2.6

interest point

point in an image showing detection stability under local and global perturbations in the image domain, including perspective transformations, changes in image scale, and illumination variations

2.7

local region

area in an image in the neighbourhood of an interest point, used to generate local feature descriptors

2.8

cell

each of the 4x4 subdivisions of a local region

2.9

cell histogram

histogram of gradients computed from the cell

2.10

local feature descriptor

descriptor of a local region, computed from the cell histograms

2.11

global descriptor

aggregation of local feature descriptors into a compact representation of the image

2.12

compressed local feature descriptor

compressed representation of a local feature descriptor

2.13

interest point coordinate

horizontal and vertical pixel coordinates indicating the position of an interest point in the converted image resolution, rounded to the nearest integer

2.14

location quantization factor

size of the blocks of the spatial grid superimposed on top of the converted image in order to obtain quantized interest point coordinates' values

2.15

histogram map

binary representation of the converted image scaled down by the location quantization factor, indicating whether each bin generated through the superimposition of the spatial grid on top of the converted image is populated with at least one interest point

2.16

histogram count

vector indicating the number of interest points that populate each non-empty bin generated through the superimposition of a spatial grid on top of the converted image