ISO/IEC 23092-1:2025 情報技術 — ゲノム情報の表現 — 第 1 部:ゲノム情報の輸送と保存 | ページ 2

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

序文

ISO (国際標準化機構) と IEC (国際電気標準会議) は、世界標準化のための専門システムを形成しています。 ISO または IEC のメンバーである各国団体は、特定の技術活動分野に対処するためにそれぞれの組織によって設立された技術委員会を通じて国際規格の開発に参加しています。 ISO と IEC の技術委員会は、相互に関心のある分野で協力します。政府および非政府の他の国際機関も、ISO および IEC と連携してこの作業に参加しています。

この文書の作成に使用される手順と、そのさらなる保守を目的とした手順は、ISO/IEC 指令第 1 Part に記載されています。特に、さまざまなタイプの文書に必要なさまざまな承認基準に注意する必要があります。この文書は、ISO/IEC 指令Part 2 部の編集規則に従って起草されました ( www.iso.org/directives or www.iec.ch/members_experts/refdocs を 参照)

ISO および IEC は、この文書の実装に特許の使用が含まれる可能性があることに注意を促しています。 ISO および IEC は、請求された特許権の証拠、有効性、または適用性に関していかなる立場もとりません。この文書の発行日の時点で、ISO および IEC は、この文書の実装に必要となる可能性のある特許の通知を受領しています。ただし、実装者は、これが www.iso.org/patents および https://patents.iec.ch で入手可能な特許データベースから取得できる最新情報を表していない可能性があることに注意してください。 ISO および IEC は、そのような特許権の一部またはすべてを特定する責任を負わないものとします。

本書で使用されている商号は、ユーザーの便宜のために提供された情報であり、推奨を構成するものではありません。

規格の自主的な性質の説明、適合性評価に関連する ISO 固有の用語と表現の意味、および貿易の技術的障壁 (TBT) における世界貿易機関 (WTO) 原則への ISO の準拠に関する情報については、 www を 参照してください。 .iso.org/iso/foreword.html IEC については、 www.iec.ch/ Understanding-standards を参照してください。

この文書は、ISO/IEC JTC 1 合同技術委員会、情報技術、小委員会 SC 29, オーディオ、画像、マルチメディアおよびハイパーメディア情報のコーディングによって作成されました。

この第 3 版は、技術的に改訂された第 2 版 (ISO/IEC 23092-1:2020) を廃止し、置き換えるものです。

主な変更点は以下のとおりです。

  • 6.1 項のデータ構造の全体的な階層とボックスの順序を更新しました。
  • 下位互換性を維持しながら ISO/IEC 23092-6:2023 仕様をサポートする、ゲノム シーケンシング データに加えてゲノム アノテーション データの転送と保存のための拡張機能。以下が含まれます。
    • ゲノムアノテーションデータレコードの概要は第 5.2 項にあり、詳細な形式はPart 6 部で指定されています。
    • データセット ヘッダー内の基本的なアノテーション テーブル情報 (6.4.3.2 項で指定)、およびデータセット パラメーター セット内のアノテーション エンコーディング パラメーター (6.4.3.7 項で指定)
    • 注釈テーブル (6.4.6 項で指定されている atcn)、属性グループ (6.4.7 項で指定されている agcn)、注釈アクセス ユニット (6.4.8 項で指定されている aauc)、AAU ブロックなどの追加のデータ構造(副節 6.4.9 で指定)、属性データ バイト オフセット (adbo, 副節で指定) 6.5.2.3) および注釈テーブルインデックス (6.5.2.4 項で指定されている atix)
    • 6.7.2項のゲノムアノテーションデータのトランスポート形式からファイル形式への変換に関する参照手順
    • B ツリー インデックス作成のためのデータ構造 (8.1 項で規定) およびゲノム アノテーション データの選択的アクセス戦略 (付録 C で規定)
  • ISO/IEC 23092-3:2022 をサポートする拡張機能には次のものが含まれます。

    • メトリクス メタデータ用の新しいコンテナ ボックス: DT_metric, DT_CD, および AT_CDL (atcd, サブ条項 6.4 で指定) 6.4) 、外部データソースへのリンクを確立し、個々のサンプルの臨床データへのアクセスを可能にします。
  • FM-Index ベースのエントロピー コーディング アルゴリズム (第 7 項で指定) を組み込み、圧縮ドメインでの文字列検索機能を提供します。

ISO/IEC 23092 シリーズのすべての部品のリストは、ISO および IEC の Web サイトでご覧いただけます。

Foreword

ISO (the International Organization for Standardization) and IEC (the International Electrotechnical Commission) form the specialized system for worldwide standardization. National bodies that are members of ISO or IEC participate in the development of International Standards through technical committees established by the respective organization to deal with particular fields of technical activity. ISO and IEC technical committees collaborate in fields of mutual interest. Other international organizations, governmental and non-governmental, in liaison with ISO and IEC, also take part in the work.

The procedures used to develop this document and those intended for its further maintenance are described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types of document should be noted. This document was drafted in accordance with the editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives or www.iec.ch/members_experts/refdocs ).

ISO and IEC draw attention to the possibility that the implementation of this document may involve the use of (a) patent(s). ISO and IEC take no position concerning the evidence, validity or applicability of any claimed patent rights in respect thereof. As of the date of publication of this document, ISO and IEC had received notice of (a) patent(s) which may be required to implement this document. However, implementers are cautioned that this may not represent the latest information, which may be obtained from the patent database available at www.iso.org/patents and https://patents.iec.ch . ISO and IEC shall not be held responsible for identifying any or all such patent rights.

Any trade name used in this document is information given for the convenience of users and does not constitute an endorsement.

For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions related to conformity assessment, as well as information about ISO's adherence to the World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT) see www.iso.org/iso/foreword.html . In the IEC, see www.iec.ch/understanding-standards .

This document was prepared by Joint Technical Committee ISO/IEC JTC 1, Information technology, Subcommittee SC 29, Coding of audio, picture, multimedia and hypermedia information.

This third edition cancels and replaces the second edition (ISO/IEC 23092-1:2020), which has been technically revised.

The main changes are as follows:

  • Updates to the overall hierarchy of data structures and box order in subclause 6.1
  • Extensions for the transport and storage of genomic annotation data, in addition to genomic sequencing data, in support of ISO/IEC 23092-6:2023 specifications while maintaining backward compatibility, which include:
    • An overview of genomic annotation data records in subclause 5.2, with detailed formats specified in Part 6
    • Basic annotation table information in dataset header (as specified in subclause 6.4.3.2) and annotation encoding parameters in dataset parameter set (as specified in subclause 6.4.3.7)
    • Additional data structures such as annotation table (atcn, as specified in subclause 6.4.6), attribute group (agcn, as specified in subclause 6.4.7), annotation access unit (aauc, as specified in subclause 6.4.8), AAU block (as specified in subclause 6.4.9), attribute data byte offset (adbo, as specified in subclause 6.5.2.3) and annotation table index (atix, as specified in subclause 6.5.2.4)
    • The reference procedure for conversion from transport format to file format for genomic annotation data in subclause 6.7.2
    • Data structure for B-Tree indexing (as specified in subclause 8.1) and selective access strategies for genomic annotation data (as specified in Annex C)
  • Extensions in support of ISO/IEC 23092-3:2022 which include:

    • New container boxes for metrics metadata: DT_metrics (dtmt, as specified in subclause 6.4.3.4) and AU_metrics (aumt, as specified in subclause 6.4.4.5), containing statistical information (with detailed formats specified in Part 3), which allows for fast and direct extraction of statistics associated with the dataset and access unit content
    • New container boxes for clinical data linkage (CDL) metadata: DG_CDL (dgcd, as specified in subclause 6.4.2.7), DT_CDL (dtcd, as specified in subclause 6.4.3.5) and AT_CDL (atcd, as specified in subclause 6.4.6.4), for establishing linkages to external data sources, which enables access to the clinical data of individual samples
  • The inclusion of FM-Index-based entropy coding algorithm (as specified in Clause 7), which provides string search capabilities in the compressed domain

A list of all parts in the ISO/IEC 23092 series can be found on the ISO and IEC websites.