ISO/IEC 29199-2:2020 情報技術— JPEG XR画像コーディングシステム—パート2:画像コーディング仕様 | ページ 3

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

導入

この文書は、JPEG XR と呼ばれる形式で保存および交換するためのデジタル画像の圧縮表現に関する要件と実装ガイドラインを指定します。 JPEG XR 設計は、優れた圧縮能力と重要な追加機能を備えた、幅広いアプリケーションに実用的なコーディング テクノロジを提供します。通常、入力画像はエンコーダーによって処理されて、JPEG XR コード化画像が作成されます。次に、デコーダは、コード化された画像を処理して、入力画像を正確に再構成した、または近似的に再構成した出力画像を生成します。

JPEG XR の主な用途は、写真画像などの連続階調静止画像の表現です。圧縮された画像データの表現方法とそれに伴う復号化処理が指定されます。これらのプロセスと表現は汎用的です。つまり、通信およびコンピュータ システム、およびモバイル デバイスを含む組み込みアプリケーション内で、圧縮されたカラーおよびグレースケール イメージを使用する幅広いアプリケーションに適用できます。

2008 年現在、最も広く使用されているデジタル写真形式は、ITU-T 勧告 T.81 | で指定されている最初の JPEG コーディング形式の名目上の実装です。 ISO/IEC 10918-このエンコードでは、3 つのチャネルのそれぞれに 8 のビット深度が使用され、チャネルごとに 256 個の表現可能な値 (合計 16 777 216 個の表現可能なカラー値) が得られます。

より要求の厳しいアプリケーションでは、ビット深度 16 が必要になる場合があり、各チャネルに 65,536 個の表現可能な値が提供され、結果として 2.8 * 10 14を超える色値が得られます。追加のシナリオでは、さらに大きなビット深度とサンプル表現形式が必要になる場合があります。メモリまたは処理能力が重視される場合、チャネルあたりわずか 5 ビットまたは 6 ビットが使用される場合があります。

JPEG XR 仕様により、アプリケーション要件の多様化に合わせて圧縮画像をより効果的に使用できるようになります。 JPEG 主な目標は、エンコーダとデコーダの実装要件をシンプルに保ちながら、幅広いアプリケーションに適した圧縮形式仕様を提供することです。設計の特別な焦点は、新たなハイ ダイナミック レンジ (HDR) 画像アプリケーションのサポートです。

JPEG XR は、最適化された画質と圧縮効率の利点と、複雑さの少ないエンコードおよびデコードの実装要件を組み合わせています。また、次のような広範な追加機能も提供します。

  • 高い圧縮能力。
  • 計算リソースとメモリリソースの要件が低い。
  • 可逆圧縮および非可逆圧縮。
  • ランダムアクセスと大きな画像フォーマットのための画像タイルセグメンテーション。
  • 複雑さの低い圧縮ドメイン画像操作のサポート。
  • 埋め込みサムネイル画像とプログレッシブ解像度の改良のサポート。
  • 画像解像度と忠実度の両方に対する埋め込みコードストリームのスケーラビリティ。
  • アルファプレーンのサポート。
  • 固定および浮動小数点イメージ形式のビット正確なデコーダ結果。

重要な詳細な設計プロパティには次のものがあります。

  • 高性能で組み込みシステムに優しい圧縮。
  • メモリ使用量が小さい。
  • 除算を行わない整数のみの演算。
  • 並列処理に非常に適した信号処理構造。
  • 可逆圧縮操作と非可逆圧縮操作の両方に同じ信号処理操作を使用します。
  • 幅広いデコードされたサンプル形式のサポート (その多くはハイ ダイナミック レンジ画像をサポートしています):
    • モノクロ、RGB, CMYK, または n コンポーネントの画像表現。
    • 8 ビットまたは 16 ビットの符号なし整数。
    • 16 ビットまたは 32 ビットの固定小数点。
    • 16 ビットまたは 32 ビット浮動小数点。
    • いくつかのパックされたビット形式。
    • モノクロではサンプルあたり 1 ビット。
    • RGB サンプルあたり 5 または 10 ビット。
    • 輝度RGB

このアルゴリズムは、可逆階層リフティングベースのラップ双直交変換を使用します。この変換にはロスレス画像表現機能があり、エンコードとデコードの両方に少数の整数処理操作のみが必要です。処理は変換ドメインの 16 × 16 マクロブロックに基づいており、空間ドメインのオーバーラップ領域に影響を与える場合としない場合があります (オーバーラップ プロパティはエンコーダーの制御下で選択されます)この設計により、組み込み実装に適した最小限のメモリ使用量でエンコードとデコードが可能になります。

このアルゴリズムは、可逆色変換を使用して、RGB と CMYK の両方のカラー フォーマットを内部輝度優位フォーマットに変換することで、両方のカラー タイプをネイティブ サポートします。さらに、YUV, モノクロ、および任意の n チャネル カラー形式もサポートされています。

使用される変換は可逆的です。可逆操作と非可逆操作の両方が、同じアルゴリズムを使用してサポートされます。両方のタイプの操作に同じアルゴリズムを使用すると、実装が簡素化されます。これは、組み込みアプリケーションにとって特に重要です。

複数のビット深度での幅広い数値エンコードがサポートされています。8 ビットおよび 16 ビット形式、および追加の特殊なパック ビット形式が、非可逆圧縮と可逆圧縮の両方でサポートされています。 (32 ビット形式は非可逆圧縮を使用してサポートされます。) さまざまな変換を通じて最大 24 ビットが保持されます。内部処理には整数演算のみが使用されますが、可逆符号化と非可逆符号化は、浮動小数点および固定小数点の画像データ、および整数画像形式に対してサポートされています。

このドキュメントの本文では、JPEG XR コード化イメージの構文とセマンティクス、およびコード化イメージから出力イメージを生成する関連するデコード プロセスを指定します。付属書 A は、そのようなコード化された画像の保存と交換のためのタグベースのファイル保存形式を指定します。付属書 B は、エンコーダおよびデコーダのクラスの適合要件を決定するプロファイルとレベルを指定します。カラー画像表現とカラー管理の側面については付録 C で説明します。一般的な予想されるエンコード プロセスは付録 D で説明されています。付録 E には、さまざまなインターネット プロトコルで使用するために、付録 A で指定されているタグベースの形式に従ってエンコードされた画像のメディア タイプ仕様が含まれています。付属書 F では、ISO/IEC 23008-12 と、JPEG XR コード化画像および画像シーケンスの保存および交換用の関連メディア タイプ仕様に基づく代替ファイル ストレージ形式を指定します。付録 A, B, E, および F はこの文書の不可欠な部分であり、規範的な仕様が含まれています。

国際標準化機構 (ISO) および国際電気標準会議 (IEC) は、この文書への準拠には特許の使用が含まれる可能性があると主張されているという事実に注意を促しています。

ISO および IEC は、これらの特許権の証拠、有効性、および範囲に関していかなる立場もとりません。

これらの特許権の保有者は、ISO および IEC に対して、世界中の出願人と合理的で非差別的な条件に基づいてライセンスを交渉する用意があることを保証しました。この点に関して、これらの特許権者の声明は ISO および IEC に登録されています。情報は、 www.iso.org/patents で利用可能な特許データベースから入手できます。

本書の要素の一部は、特許データベース以外の特許権の対象となる可能性があることに注意してください。 ISO および IEC は、そのような特許権の一部またはすべてを特定する責任を負わないものとします。

Introduction

This document specifies requirements and implementation guidelines for the compressed representation of digital images for storage and interchange in a form referred to as JPEG XR. The JPEG XR design provides a practical coding technology for a broad range of applications with excellent compression capability and important additional functionalities. An input image is typically operated on by an encoder to create a JPEG XR coded image. The decoder then operates on the coded image to produce an output image that is either an exact or approximate reconstruction of the input image.

The primary intended application of JPEG XR is the representation of continuous-tone still images such as photographic images. The manner of representation of the compressed image data and the associated decoding process are specified. These processes and representations are generic, that is, they are applicable to a broad range of applications using compressed colour and grayscale images in communications and computer systems and within embedded applications, including mobile devices.

As of 2008, the most widely used digital photography format is a nominal implementation of the first JPEG coding format as specified in ITU-T Recommendation T.81 | ISO/IEC 10918-1. This encoding uses a bit depth of 8 for each of three channels, resulting in 256 representable values per channel (a total of 16 777 216 representable colour values).

More demanding applications may require a bit depth of 16, providing 65 536 representable values for each channel, and resulting in over 2.8 * 1014 colour values. Additional scenarios may necessitate even greater bit depths and sample representation formats. When memory or processing power is at a premium, as few as five or six bits per channel may be used.

The JPEG XR specification enables greater effective use of compressed imagery with this broadened diversity of application requirements. JPEG XR supports a wide range of colour encoding formats including monochrome, RGB, CMYK and n-component encodings using a variety of unsigned integer, fixed point, and floating point decoded numerical representations with a variety of bit depths. The primary goal is to provide a compressed format specification appropriate for a wide range of applications while keeping the implementation requirements for encoders and decoders simple. A special focus of the design is support for emerging high dynamic range (HDR) imagery applications.

JPEG XR combines the benefits of optimized image quality and compression efficiency together with low-complexity encoding and decoding implementation requirements. It also provides an extensive set of additional functionalities, including:

  • high compression capability;
  • low computational and memory resource requirements;
  • lossless and lossy compression;
  • image tile segmentation for random access and large image formats;
  • support for low-complexity compressed-domain image manipulations;
  • support for embedded thumbnail images and progressive resolution refinement;
  • embedded codestream scalability for both image resolution and fidelity;
  • alpha plane support;
  • bit-exact decoder results for fixed and floating point image formats.

Important detailed design properties include:

  • high performance, embedded system friendly compression;
  • small memory footprint;
  • integer-only operations with no divides;
  • a signal processing structure that is highly amenable to parallel processing;
  • use of the same signal processing operations for both lossless and lossy compression operation;
  • support for a wide range of decoded sample formats (many of which support high dynamic range imagery):
    • monochrome, RGB, CMYK or n-component image representation;
    • 8- or 16-bit unsigned integer;
    • 16- or 32-bit fixed point;
    • 16- or 32-bit floating point;
    • several packed bit formats;
    • 1-bit per sample monochrome;
    • 5- or 10-bit per sample RGB;
    • radiance RGBE.

The algorithm uses a reversible hierarchical lifting-based lapped biorthogonal transform. The transform has lossless image representation capability and requires only a small number of integer processing operations for both encoding and decoding. The processing is based on 16 × 16 macroblocks in the transform domain, which may or may not affect overlapping areas in the spatial domain (with the overlapping property selected under the control of the encoder). The design provides encoding and decoding with a minimal memory footprint suitable for embedded implementations.

The algorithm provides native support for both RGB and CMYK colour types by converting these colour formats to an internal luma-dominant format through the use of a reversible colour transform. In addition, YUV, monochrome and arbitrary n-channel colour formats are supported.

The transforms employed are reversible; both lossless and lossy operations are supported using the same algorithm. Using the same algorithm for both types of operation simplifies implementation, which is especially important for embedded applications.

A wide range of numerical encodings at multiple bit depths are supported: 8-bit and 16-bit formats, as well as additional specialized packed bit formats, are supported for both lossy and lossless compression. (32-bit formats are supported using lossy compression.) Up to 24 bits are retained through the various transforms. While only integer arithmetic is used for internal processing, lossless and lossy coding are supported for floating point and fixed point image data – as well as for integer image formats.

The main body of this document specifies the syntax and semantics of JPEG XR coded images and the associated decoding process that produces an output image from a coded image. Annex A specifies a tag-based file storage format for storage and interchange of such coded images. Annex B specifies profiles and levels, which determine conformance requirements for classes of encoders and decoders. Aspects of colour imagery representations and colour management are discussed in Annex C. The typical expected encoding process is described in Annex D. Annex E contains a media type specification for images encoded according to the tag-based format specified in Annex A for use in various internet protocols. Annex F specifies an alternative file storage format based on ISO/IEC 23008-12 and associated media type specifications for the storage and interchange of JPEG XR coded images and image sequences. Annexes A, B, E, and F are an integral part of this document and contain normative specifications.

The International Organization for Standardization (ISO) and International Electrotechnical Commission (IEC) draw attention to the fact that it is claimed that compliance with this document may involve the use of patents.

ISO and IEC take no position concerning the evidence, validity and scope of these patent rights.

The holders of these patent rights have assured ISO and IEC that they are willing to negotiate licences under reasonable and non-discriminatory terms and conditions with applicants throughout the world. In this respect, the statements of the holders of these patent rights are registered with ISO and IEC. Information may be obtained from the patent database available at www.iso.org/patents .

Attention is drawn to the possibility that some of the elements of this document may be the subject of patent rights other than those in the patent database. ISO and IEC shall not be held responsible for identifying any or all such patent rights.