この規格 プレビューページの目次
※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。
導入
ハイスループットシークエンシング(HTS)技術の出現により、生物学研究から診療所での個別化ゲノム医療に至るまで、日常診療におけるゲノム情報の導入が促進される可能性があります。その結果、生成されるデータの量はここ数年で劇的に増加しており、近い将来さらに顕著な増加が予想されます。
現時点では、ゲノム情報は主に、アラインメントされていないシーケンシングリードの場合は FASTA/FASTQ, アラインメントされたリードの場合は SAM/BAM/CRAM など、さまざまなデータ形式を通じて交換されます。このような形式に関して、ISO/IEC 23092 シリーズは、以下によってゲノム配列情報の表現と圧縮のための新しいソリューションを提供します。
- 直接実装による特定の形式ではなく、シーケンス データの抽象表現を指定します。
- テクノロジーとユースケースがより成熟した時点で設計されています。これにより、テキスト SAM フォーマットの 1 つの制限に対処することができます。この制限に対して、長年にわたり機能がアドホックに追加され、全体的に冗長で不必要に複雑な次善のフォーマットが生成されてしまいました。
- 明確なセマンティクスを持たない自由フィールドのユーザー定義情報をゲノム データ表現から分離します。これにより、異なるデータ作成者間で完全に相互運用可能な自動的な情報交換が可能になります。
- データとメタデータは異なる概念レベルで分割されているため、関連するメタデータ情報をデータと多重化できます。
- 過去 30 年間、トランスポート形式、ファイル形式、圧縮表現、およびアプリケーション プログラム インターフェイスのデジタル メディアの分野で成功を収めてきたことが証明されている、厳密で監視された開発プロセスに従っています。
ISO/IEC 23092 シリーズは、コミュニティがゲノム情報処理の分野で新規の相互運用可能なソリューションのエコシステムを構築できるようにする技術を提供します。特に以下を提供します。
- シーケンスおよびアライメント情報を保存するための、一貫性があり、一般的で適切に設計されたフォーマット定義とデータ構造。さまざまな圧縮アルゴリズムを実装するための基盤として使用できる堅牢なフレームワーク。
- 新しく設計されたデータ クラスタリングと最適化されたストレージ手法により、コード化されたデータへの選択的アクセスにおける速度と柔軟性が向上します。
- リアルタイム アプリケーション ドメインからインスピレーションを得た伝送プロトコルに基づいて、データ伝送の低遅延と、遠隔地での一貫した高速可用性を実現します。
- データ階層のすべての層でカスタマイズ可能で安全なアクセスを可能にする柔軟なフレームワークにより、プライバシーと機密情報の保護が組み込まれています。
- 徹底的なデータセットに基づいてこの文書への適合性を評価する手順が提供されているため、テクノロジーの信頼性とツールおよびシステム間の相互運用性。
- ISO/IEC 23092 シリーズ全体をカバーする規範的な参照実装の利用可能性を通じて、準拠したデバイスとアプリケーションの完全なエコシステムの実装をサポートします。
ISO/IEC 23092 シリーズのデータ表現の基本構造はゲノム レコードです。ゲノムレコードは、単一のシーケンスリードまたはペアのシーケンスリードと、それに関連するシーケンス情報およびアライメント情報で構成されるデータ構造です。これには、詳細なマッピングおよびアライメント データ、単一またはペアの読み取り識別子 (読み取り名)、および品質値が含まれる場合があります。
従来のアプローチを壊すことなく、ISO/IEC 23092 シリーズで導入されたゲノム レコードは、単純な配列データから高度なアライメント情報まで、単一の DNA テンプレートに関連するすべての情報をグループ化する、よりコンパクトでシンプルで管理しやすいデータ構造を提供します。
ゲノム記録は、コード化された情報の相互作用や操作には適切な論理データ構造ですが、圧縮には適切なアトミック データ構造ではありません。高い圧縮率を達成するには、ゲノム記録をクラスターにグループ化し、同じタイプの情報を同種のブロックに構造化された記述子のセットに変換する必要があります。さらに、選択的なデータアクセスを扱う場合、ゲノム記録は単位が小さすぎるため、効果的かつ迅速な情報検索が可能になりません。
これらの理由から、この文書では、圧縮ドメイン内の情報のコーディングとアクセスのための基本構造であるアクセス ユニットの概念を導入します。
アクセス ユニットは、ISO/IEC 23092-2 に準拠したデコーダでデコードできる最小のデータ構造です。アクセスユニットは、ゲノムレコードの情報を表すために使用される記述子ごとに 1 つのブロックで構成されます。したがって、ブロック ペイロードは、クラスター内の同じタイプのすべてのデータ (つまり、記述子) のコード化された表現です。
アクセスユニットに圧縮されたゲノムレコードのクラスターに加えて、リードはさらに 6 つのデータクラスに分類されます。5 つのクラスは、1 つ以上の参照配列に対するアライメントの結果に従って定義されます。 6 番目のクラスには、マッピングできなかったリードまたは生のシーケンス データが含まれます。シーケンスリードをクラスに分類することで、強力な選択的データアクセスの開発が可能になります。実際、アクセスユニットは、それらを構成するゲノムレコードから特定のデータ特性 (例: クラス P の完全一致、クラス M の置換、クラス I のインデル、クラス HM のハーフマップリード) を継承し、したがって、次のようなデータ構造を構成します。多くの異なるユースケースを効率的にサポートするための強力なフィルタリング機能を提供します。
アクセス ユニットは、コンテンツ保護およびメタデータの関連付けの観点から、基本的で最も粒度の細かいデータ構造です。言い換えれば、各アクセスユニットを個別かつ独立して保護することができます。図 1 は、ISO/IEC 23092 シリーズのデータ構造においてアクセス ユニット、ブロック、ゲノム レコードがどのように相互に関連しているかを示しています。
図 1 —アクセスユニット、ブロック、ゲノムレコード
図 2 —高レベルのデータ構造: データセットとデータセット グループ
データセットは、ヘッダーと 1 つ以上のアクセス ユニットを含むコード化されたデータ構造です。たとえば、典型的なデータセットには、個人の完全な配列決定またはその一部が含まれる場合があります。他のデータセットには、たとえば参照ゲノムやその染色体のサブセットが含まれる可能性があります。図 2 に示すように、データセットはデータセット グループにグループ化されます。
データセットのデコード プロセスの簡略図を図 3 に示します。
図3 —デコードプロセス
この文書は、ゲノム情報の転送と保存の両方のためのデータ形式の構文とセマンティクスを定義します。この文書によれば、圧縮されたシーケンスデータは、典型的なネットワークプロトコルを介したリアルタイムトランスポートのパケット化に適したビットストリームに多重化することができる。ストレージのユースケースでは、コーディングされたデータをファイル形式にカプセル化して、記述子ストリームごとまたはアクセスユニットごとにブロックを編成することが可能で、さまざまなアプリケーションシナリオで必要なデータアクセスのタイプに対する選択的アクセスパフォーマンスをさらに最適化できます。このドキュメントはさらに、トランスポート ストリームをファイル形式に変換する、またはその逆の変換を行うための参照プロセスを提供します。
Introduction
The advent of high-throughput sequencing (HTS) technologies has the potential to boost the adoption of genomic information in everyday practice, ranging from biological research to personalized genomic medicine in clinics. As a consequence, the volume of generated data has increased dramatically during the last few years, and an even more pronounced growth is expected in the near future.
At the moment, genomic information is mostly exchanged through a variety of data formats, such as FASTA/FASTQ for unaligned sequencing reads and SAM/BAM/CRAM for aligned reads. With respect to such formats, the ISO/IEC 23092 series provides a new solution for the representation and compression of genome sequencing information by:
- Specifying an abstract representation of the sequencing data rather than a specific format with its direct implementation.
- Being designed at a time point when technologies and use cases are more mature. This permits addressing one limitation of the textual SAM format, for which the incremental ad-hoc addition of features followed along the years, resulting in an overall redundant and suboptimal format which was unnecessarily complicated.
- Separating free-field user-defined information with no clear semantics from the genomic data representation. This allows a fully interoperable and automatic exchange of information between different data producers.
- Allowing multiplexing of relevant metadata information with the data since data and metadata are partitioned at different conceptual levels.
- Following a strict and supervised development process which has proven successful in the last 30 years in the domain of digital media for the transport format, the file format, the compressed representation and the application program interfaces.
The ISO/IEC 23092 series provides the enabling technology that will allow the community to create an ecosystem of novel, interoperable, solutions in the field of genomic information processing. In particular it offers:
- Consistent, general and properly designed format definitions and data structures to store sequencing and alignment information. A robust framework which can be used as a foundation to implement different compression algorithms.
- Speed and flexibility in the selective access to coded data, by means of newly-designed data clustering and optimized storage methodologies.
- Low latency in data transmission and consequent fast availability at remote locations, based on transmission protocols inspired by real-time application domains.
- Built-in privacy and protection of sensitive information, thanks to a flexible framework which allows customizable, secured access at all layers of the data hierarchy.
- Reliability of the technology and interoperability among tools and systems, owing to the provision of a procedure to assess conformance to this document on an exhaustive dataset.
- Support to the implementation of a complete ecosystem of compliant devices and applications, through the availability of a normative reference implementation covering the totality of the ISO/IEC 23092 series.
The fundamental structure of the ISO/IEC 23092 series data representation is the genomic record. The genomic record is a data structure consisting of either a single sequence read, or a paired sequence read, and its associated sequencing and alignment information; it may contain detailed mapping and alignment data, a single or paired read identifier (read name) and quality values.
Without breaking traditional approaches, the genomic record introduced in the ISO/IEC 23092 series provides a more compact, simpler and manageable data structure grouping all the information related to a single DNA template, from simple sequencing data to sophisticated alignment information.
The genomic record, although it is an appropriate logic data structure for interaction and manipulation of coded information, is not a suitable atomic data structure for compression. To achieve high compression ratios, it is necessary to group genomic records into clusters and to transform the information of the same type into sets of descriptors structured into homogeneous blocks. Furthermore, when dealing with selective data access, the genomic record is a too small unit to allow effective and fast information retrieval.
For these reasons, this document introduces the concept of access unit, which is the fundamental structure for coding and access to information in the compressed domain.
The access unit is the smallest data structure that can be decoded by a decoder compliant with ISO/IEC 23092-2. An access unit is composed of one block for each descriptor used to represent the information of its genomic records; therefore, a block payload is the coded representation of all the data of the same type (i.e. a descriptor) in a cluster.
In addition to clusters of genomic records compressed into access units, reads are further classified in six data classes: five classes are defined according to the result of their alignment against one or more reference sequences; the sixth class contains either reads that could not be mapped or raw sequencing data. The classification of sequence reads into classes enables the development of powerful selective data access. In fact, access units inherit a specific data characterization (e.g. perfect matches in Class P, substitutions in Class M, indels in Class I, half-mapped reads in Class HM) from the genomic records composing them, and thus constitute a data structure capable of providing powerful filtering capability for the efficient support of many different use cases.
Access units are the fundamental, finest grain data structure in terms of content protection and in terms of metadata association. In other words, each access unit can be protected individually and independently. Figure 1 shows how access units, blocks and genomic records relate to each other in the ISO/IEC 23092 series data structure.
Figure 1 — Access units, blocks and genomic records
Figure 2 — High-level data structure: datasets and dataset group
A dataset is a coded data structure containing headers and one or more access units. Typical datasets could, for example, contain the complete sequencing of an individual, or a portion of it. Other datasets could contain, for example, a reference genome or a subset of its chromosomes. Datasets are grouped in dataset groups, as shown in Figure 2.
A simplified diagram of the dataset decoding process is shown in Figure 3.
Figure 3 — Decoding process
This document defines the syntax and semantics of the data formats for both transport and storage of genomic information. According to this document, the compressed sequencing data can be multiplexed into a bitstream suitable for packetization for real-time transport over typical network protocols. In storage use cases, coded data can be encapsulated into a file format with the possibility to organize blocks per descriptor stream or per access units, to further optimize the selective access performance to the type of data access required by the different application scenarios. This document further provides a reference process to convert a transport stream into a file format and vice versa.