この規格 プレビューページの目次
※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。
3 用語と定義
この文書の目的上、次の用語と定義が適用されます。
ISO と IEC は、標準化に使用する用語データベースを次のアドレスで維持しています。
3.1
アクセスユニット
ビットストリームへのアクセスと操作を容易にするためのゲノム情報のコード化表現を含む論理データ構造
3.2
アクセスユニット開始位置
鎖に関係なく、アクセスユニットに含まれるすべてのゲノムレコードの最初のアラインメントのうち、最も左にマップされた塩基の位置
3.3
アクセスユニット終了位置
鎖に関係なく、アクセスユニットに含まれるすべてのゲノムレコードの最初のアラインメントのうち、最も右側にマップされた塩基の位置
3.4
アクセスユニット範囲
アクセスユニットの開始位置と、アクセスユニットに含まれるすべてのゲノムレコードの右端のゲノムレコード位置との間に含まれるゲノム範囲
3.5
アクセスユニットのカバー領域
アクセスユニットの開始位置とアクセスユニットの終了位置を含むゲノム範囲
3.6
アライメント
配列(通常はシーケンシングリード)と参照配列(たとえば、参照ゲノム)の間の類似性を説明する情報
注記 1: アライメントは、参照内の位置、参照のストランド、およびアラインメントに必要な一連の編集操作 (一致、不一致、挿入と削除、配列末端のクリッピング、およびスプライシング情報) に関して記述されます。最初のシーケンスを 2 番目のシーケンスに変換します。
3.7
対立遺伝子
ゲノムセグメントの 1 つまたは複数の代替配列のそれぞれ
注記 1: ゲノムには同じゲノム物質のほぼ同一のコピーが複数含まれているため (ヒトの場合は 1 から 22 までのすべての染色体に対して 2 つ)、および/または 1 つであるため、複数存在する可能性があります。集団の中の複数の個人とみなされます。
3.8
注釈レコード
記録
注釈情報のタプルを表すデータ構造 (例、バリアント、ゲノム特徴、または一般的な範囲に関連付けられたプロパティ。データが行列形式である場合に「行」を識別するためにも使用されます)
3.9
ベース
塩基対
ヌクレオチドと同義
3.10
ベースポジション
塩基と、同じゲノムセグメントに属するマッピングされた一番左の塩基との間の塩基の数。
3.11
シガーストリング
葉巻
位置合わせをテキストで表現する方法
注 1:いくつかの定義がさまざまなプログラムで使用されていますが、ここで参照されているものは SAM フォーマットで使用されているものです。シーケンスリードをリファレンスに変換するために必要な一連の編集操作 (一致、不一致、挿入と削除、シーケンス末端のクリッピング、およびスプライシング情報) をエンコードします。
3.12
クラスター
ゲノム記録の集約
3.13
クラスター署名
サイン
クラスターに属するほとんどまたはすべてのゲノム記録に共通するヌクレオチドの配列
3.14
コンティグ
配列決定され組み立てられた、DNAのコンセンサス領域を表す重複するDNAセグメントのセット
注記 1: 「contig」という用語は、「contiguous」に由来します。
3.15
データセット
圧縮単位には以下のうちの 1 つ以上が含まれます。読み取りのシーケンス。とアライメント情報
注記 1:データセットは ISO/IEC 23092-1 で指定されています。
3.16
削除
ゲノム配列からの 1 つ以上の塩基の連続した除去
3.17
電子シガー
CIGAR 構文のスーパーセットとして指定された拡張 CIGAR 構文
注記 1: とりわけ、E-CIGAR は、置換、スプライスリード、スプライスストランドネスの明確な表現を可能にします。
3.18
編集操作
置換、欠失、挿入、またはクリップによるヌクレオチド配列の修飾
3.19
ファスタ
各シーケンスリードの名前とヌクレオチド配列を含む GIR
注記 1: 追加情報は通常、バイオインフォマティクスツールによって読み取り識別子にエンコードされます (データベース情報、塩基呼び出し情報など)
3.20
ファストQ
FASTA および品質値を含む GIR
3.21
最初の端
終わり1
1を読む
ペアエンド テンプレートの最初のセグメント
注記 1: Illumina プラットフォームは、通常、第 1 端と第 2 端を 2 つの別個のファイルに同じ順序で保存します。つまり、最初の FASTQ ファイルの n 番目の読み取りと 2 番目の FASTQ ファイルの n 番目の読み取りは、同じテンプレートに属します。 。
3.22
ゲノム記述子
ディスクリプタ
ゲノムシーケンシングリードの特徴、またはアライメント情報や品質値などの関連情報を表すために使用される構文の要素
3.23
ゲノム情報表現
シーケンスとそれに関連する情報を記述する方法
注記 1:どの情報が表現されるかは GIR によって異なります。
3.24
ゲノムの位置
位置
参照配列内のヌクレオチドのゼロから始まる位置を表す整数
3.25
ゲノム範囲
範囲
開始位置 s と終了位置 e によって指定される参照シーケンス上の位置の間隔 (s ≤ e)
注記 1:ゲノム範囲の開始位置と終了位置は常にその範囲に含まれます。
3.26
ゲノム記録
記録
オプションでアライメント情報、読み取り識別子、および品質値に関連付けられたタプルを表すデータ構造
3.27
ゲノム記録インデックス
アクセスユニットでエンコードされたゲノムレコードのシーケンスにおけるゲノムレコードの位置
3.28
ゲノム記録の位置
ゲノム レコードに含まれる最初のアライメントの参照ゲノム上のマップされた左端の塩基の 0 ベースの位置
注記 1: アラインメントされたリードに存在し、参照配列 (挿入) には存在しない塩基、およびアラインメントプロセスによって保存されているが参照配列 (ソフトクリップ) にマッピングされていない塩基には、マッピング位置がありません。
3.29
ゲノムリファレンス
参照
参照配列のコレクション
注記 1:典型的な例は、参照ゲノムまたは参照トランスクリプトームです。
3.30
ゲノムセグメント
セグメント
ヌクレオチドの連続した配列
注記 1:通常、配列決定プロセスの出力であり、テンプレートの 1 つの鎖から配列決定されます。
3.31
ゲノムバリアント
変異体
ゲノムセグメントに複数の対立遺伝子が存在する場合、そのセグメントの可能な配列の 1 つ
注記 1: 変異体は 1 ヌクレオチド (通常は一塩基多型と呼ばれます) またはそれ以上にわたる場合があります (構造変異体には、数千以上の連続する塩基の変化が含まれる場合があります)バリアントはインデルで構成されます。
3.32
遺伝子型
ゲノムセグメントの複数の対立遺伝子が存在する場合は常に、ゲノムまたは個体の指定されたコピーのゲノムセグメントの配列
3.33
遺伝子型マトリックス
ゲノムまたは個体の各コピーにどの遺伝子型が存在するかを指定するメトリクス
3.34
ハードクリップ
もともとリードのどちらかの側に存在し、アライメント後にそこから削除された 1 つ以上の塩基
注記 1: 読み取り配列には塩基が存在しません。
3.35
インデル
2つの配列を整列させるときに、2つの配列を同じにするために一方の配列に挿入されるか、あるいはもう一方の配列から削除される連続したヌクレオチドのストレッチ
注1: 「挿入または削除」から。
3.36
挿入
ゲノム配列への1つまたは複数の塩基の連続した追加
3.37
左端の読み取り終了
左端の読み取り
ペアエンドシーケンシングの実行によって生成されたリードと、ペア内の他のリードのマッピング位置よりも小さい参照配列上の位置にマッピングされたシーケンシング
3.38
マップされたベース
参照配列上の対応する塩基と一致する、または置換によって参照配列上の対応する塩基に変換できる、アラインメントされたリードの塩基。
3.39
ヌクレオチド
DNAやRNAなどの核酸ポリマーのモノマー
注1:ヌクレオチドは文字で表される(「A」はアデニン、「C」はシトシン、「G」はグアニン、「T」はDNA内にのみ存在するチミン、「U」はDNA内にのみ存在するウラシルを表す) RNA)。特定の DNA または RNA 分子の化学式は、そのヌクレオチドの配列によって与えられます。ヌクレオチドの配列は、次の場合、アルファベット上の文字列 (「A」、「C」、「G」、「T」) として表すことができます。 DNA, RNA の場合はアルファベット上の文字列 (「A」、「C」、「G」、「U」)分子組成が不明な塩基は「N」で示されます。
3.40
注釈レコードを出力する
注釈テーブルまたはその一部のデコードプロセスの出力として生成される注釈レコード
3.41
ペアエンド読み取り
ペアエンドテンプレート
2 つのセグメントで構成されるタプル
注記 1:通常、セグメントは同じ核酸分子の始まりと終わりに対応します。
3.42
パイルアップ
参照配列にアラインメントされたシーケンシングリードのテキスト表現
3.43
倍数性
ゲノムの各位置に存在する同等の対立遺伝子の数
3.44
段階的ジェノタイピング
複数の対立遺伝子が存在する場合に、ゲノムの異なるコピー (または異なる個体) に関する情報を個別に保持する、ゲノムに沿った連続する遺伝子型に関する情報
3.45
品質の価値
品質スコア
自動配列決定プロセスで各ヌクレオチド塩基コールに割り当てられる番号
注記 1:品質値は、塩基呼び出しの精度、すなわち、配列内のヌクレオチドが誤って決定される確率 (または関連する尺度) を表します。
3.46
読書グループ
共通のプロパティを持つ一連の読み取り
3.47
読み取り識別子
ヘッダーの読み取り
読み取り名
FASTA, FASTQ, SAM などの GIR に保存された各シーケンシングリードに関連付けられたテキスト文字列
注記 1: 読み取り識別子は通常、そのデータセット内で一意であり、バイオインフォマティクスツールによってエンコードされた追加情報 (データベース情報、塩基呼び出し情報など) を含む場合があります。
3.48
参照ゲノム
種の遺伝物質の配列の代表的な例
注記 1:その種の典型的な細胞に存在する DNA 分子の配列の代表。
3.49
参照配列
生物学的関連性のある核酸配列
注記 1:各参照配列は 1 次元の整数座標系によってインデックス付けされており、範囲内の各整数は単一のヌクレオチドを識別します。座標値は 0 以上のみです。この標準の文脈における座標系はゼロベースであり (つまり、最初のヌクレオチドの座標は 0 であり、位置 0 にあると言われます)、文字列内で左から右に直線的に増加します。
3.50
右端の読み取り終了
右端の読み取り
ペアエンドシーケンシングの実行と、ペア内の他のリードのマッピング位置よりも大きい参照配列上の位置にマップされたシーケンシングによって生成されたリード
3.51
サム
人間が判読可能で、FASTQ に加えてアライメントおよび分析情報が含まれる GIR
注記 1: 「シーケンス アラインメント/マップ形式」より。 SAM は 1000 ゲノム配列決定プロジェクトに由来します。これはプレーン ASCII で表現され、ユーザーによる拡張が可能で、配列、品質、アライメント、分析情報が含まれます。
3.52
第二の端
2を読む
ペアエンド テンプレートの 2 番目のセグメント
注記 1:シーケンシングプラットフォームは通常、第 1 末端と第 2 末端を 2 つの別個のファイルに同じ順序で保存します。つまり、最初の FASTQ ファイルのn 番目の読み取りと 2 番目の FASTQ ファイルのn 番目の読み取りは同じテンプレートに属します。 。
3.53
シーケンス読み取り
読む
有機サンプルから抽出されたヌクレオチドのセグメントの連続部分を、多かれ少なかれエラーが発生しやすい特定の技術によって読み出すこと
3.54
シングルエンド読み取り
1 つのセグメントで構成されるタプル
3.55
SNP
一塩基多型
ゲノム変異体:ゲノム内の特定の位置にある 1 つの塩基が変化したものとして定義される
3.56
ソフトクリップ
ソフトクリップベース
read アライメントプロセス中に無視されたリードの両側の 1 つ以上の塩基
注記 1:塩基は読み取り配列内にまだ存在します。
3.57
接合された読み取り
生物学的スプライシングの結果として、生物学的スプライシングの結果である参照ゲノムの不連続部分をカバーするアラインメントリード。
注記 1:リードは RNA シークエンシングから得られ、2 つの連続するエクソン間のジャンクションを少なくとも 1 つ含みます。
3.58
スプリットアライメント
両端が 2 つの異なるゲノム レコードにエンコードされている、位置合わせされたペアエンド リード
3.59
テンプレート
配列決定装置によって単一ユニットとして生成されるゲノム配列
注記 1:テンプレートは 1 つ以上のセグメントで構成できます (セグメントが 1 つしかない場合はシングルエンドシーケンシング リードと呼ばれ、セグメントが 2 つある場合はペアエンドシーケンシング リードと呼ばれます。通常、テンプレートは先頭と先頭の両方をキャプチャします)核酸分子の末端)。
3.60
タイル
注釈ファイルが 2 次元行列として見られる場合に、元の(x,y)座標の観点から AU レイアウトを記述する非構文概念
3.61
タプル
1 つ以上のセグメントのコレクション
注記 1:各セグメントは以下のことが可能です。マップ解除。一度マッピングされます。または複数回マッピングされます。
3.62
変数
構文フィールドから推論されるか、プロセスの説明でローカルに定義されるパラメーター
3.63
VCF
GIR は人間が読み取り可能で、SNP, 挿入、欠失、DNA の構造的変異などのデータ (注釈を含む) を保存します。
参考文献
| 1 | ISO/IEC 23092-3, 情報技術 — ゲノム情報表現 — Part 3: メタデータおよびアプリケーション プログラミング インターフェイス (API) |
| 2 | IETF RFC 8478, Zstandard 圧縮と application/zstd メディア タイプ |
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
3.1
access unit
logical data structure containing a coded representation of genomic information to facilitate bit stream access and manipulation
3.2
access unit start position
position of the leftmost mapped base among the first alignments of all genomic records contained in the access unit, irrespective of the strand
3.3
access unit end position
position of the rightmost mapped base among the first alignments of all genomic records contained in the access unit, irrespective of the strand
3.4
access unit range
genomic range comprised between the access unit start position and the rightmost genomic record position among all genomic records contained in the access unit
3.5
access unit covered region
genomic range comprised between the access unit start position and the access unit end position inclusive
3.6
alignment
information describing the similarity between a sequence (typically a sequencing read) and a reference sequence (for instance, a reference genome)
Note 1 to entry: An alignment is described in terms of a position within the reference, the strand of the reference, and a set of edit operations (matches, mismatches, insertions and deletions, clipping of the sequence ends and splicing information) needed to turn the first sequence into the second.
3.7
allele
each of one or more alternative sequences for a genomic segment
Note 1 to entry: There can be more than one either because the genome contains more than one, almost identical, copies of the same genomic material (2 in the case of humans for all chromosomes from 1 to 22), and/or because one is considering more than one individual in the population.
3.8
annotation record
record
data structure representing a tuple of annotation information (e.g. the properties associated to a variant, a genomic feature or a generic range; it is used also to identify a ”row” when data have matrix format)
3.9
base
base pair
synonymous of nucleotide
3.10
base position
number of bases between a base and the leftmost mapped base belonging to the same genomic segment.
3.11
CIGAR string
CIGAR
textual way of representing an alignment
Note 1 to entry: Several definitions have been used by different programs, the ones referred to here is the one used in the SAM format. It encodes a set of edit operations (matches, mismatches, insertions and deletions, clipping of the sequence ends and splicing information) needed to turn the sequencing read into the reference.
3.12
cluster
aggregation of genomic records
3.13
cluster signature
signature
sequence of nucleotides that is common to most or all genomic records belonging to a cluster
3.14
contig
set of overlapping DNA segments, sequenced and assembled, that together represent a consensus region of DNA
Note 1 to entry: the term “contig” derives from “contiguous”.
3.15
dataset
compression unit containing one or more of: reference sequences; sequencing reads; and alignment information
Note 1 to entry: Datasets are specified in ISO/IEC 23092-1.
3.16
deletion
contiguous removal of one or more bases from a genomic sequence
3.17
E-CIGAR
extended CIGAR syntax specified as a superset of the CIGAR syntax
Note 1 to entry: Among other things, E-CIGAR enables the unambiguous representation of substitutions, spliced reads and splice strandedness.
3.18
edit operation
modification of a sequence of nucleotides by means of a substitution, deletion, insertion or clip
3.19
FASTA
GIR that includes a name and a nucleotide sequence for each sequencing read
Note 1 to entry: Additional information is usually encoded in the read identifier by bioinformatics tools (such as database information, and base calling information).
3.20
FASTQ
GIR that includes FASTA and quality values
3.21
first end
end 1
read 1
first segment of a paired-end template
Note 1 to entry: Illumina platforms usually store first and second ends in two separate files and in the same order – i.e. the n-th read of the first FASTQ file and the n-th read of the second FASTQ file belong to the same template.
3.22
genomic descriptor
descriptor
element of the syntax used to represent a feature of a genomic sequencing read or associated information such as alignment information or quality values
3.23
genomic information representation
way to describe a sequence and some information associated with it
Note 1 to entry: Which information is represented varies depending on the GIR.
3.24
genomic position
position
integer number representing the zero-based position of a nucleotide within a reference sequence
3.25
genomic range
range
interval of positions on a reference sequence specified by a start position s and an end position e such that s ≤ e
Note 1 to entry: The start and the end positions of a genomic range are always included in the range.
3.26
genomic record
record
data structure representing a tuple optionally associated with alignment information, read identifier and quality values
3.27
genomic record index
position of a genomic record in the sequence of genomic records encoded in an access unit
3.28
genomic record position
0-based position of the leftmost mapped base on the reference genome of the first alignment contained in a genomic record
Note 1 to entry: A base present in the aligned read and not present in the reference sequence (insertion) and bases preserved by the alignment process but not mapped on the reference sequence (soft clips) do not have mapping positions.
3.29
genomic reference
reference
collection of reference sequences
Note 1 to entry: Typical examples are a reference genome or a reference transcriptome.
3.30
genomic segment
segment
contiguous sequence of nucleotides
Note 1 to entry: Typically output of the sequencing process, and sequenced from one strand of a template.
3.31
genomic variant
variant
one of the possible sequences for a genomic segment whenever more than one allele for that segment is present
Note 1 to entry: The variant can span one nucleotide (and is then usally called single nucleotide polymorphism) or more (structural variants can involve changes in thousands of contiguous bases or more). A variant can consist of an indel.
3.32
genotype
sequence of a genomic segment for a specified copy of the genome or individual whenever more than one allele for that segment is present
3.33
genotype matrix
metrix specifying which genotype is present in each copy of the genome or individual
3.34
hard clip
one or more bases originally present at either side of a read, and removed from it following alignment
Note 1 to entry: The bases are no longer present in the sequence of the read.
3.35
indel
contiguous stretch of nucleotides that, when aligning two sequences, are inserted into one sequence, or alternatively deleted from the other, in order to make the two sequences the same
Note 1 to entry: From “insertion or deletion”.
3.36
insertion
contiguous addition of one or more bases into a genomic sequence
3.37
leftmost read end
leftmost read
sequencing read generated by a paired-end sequencing run and mapped at a position on the reference sequence which is smaller than the mapping position of the other read in the pair
3.38
mapped base
base of the aligned read that either matches the corresponding base on the reference sequence or can be turned into the corresponding base on the reference sequence via a substitution
3.39
nucleotide
monomer of a nucleic acid polymer such as DNA or RNA
Note 1 to entry: Nucleotides are denoted as letters (‘A’ for adenine; ‘C’ for cytosine; ‘G’ for guanine; ‘T’ for thymine which only occurs in DNA; and ‘U’ for uracil which only occurs in RNA). The chemical formula for a specific DNA or RNA molecule is given by the sequence of its nucleotides, which can be represented as a string over the alphabet (‘A’, ’C’, ’G’, ‘T’) in the case of DNA, and a string over the alphabet (‘A’, ‘C’, ‘G’, ‘U’) in the case of RNA. Bases with unknown molecular composition are denoted with ‘N’.
3.40
output annotation record
annotation record produced as output of the decoding process of an annotation table or a portion of it
3.41
paired-end reads
paired-end template
tuple made of two segments
Note 1 to entry: Typically, the segments correspond to the beginning and the end of the same nucleic acid molecule.
3.42
pileup
textual representation of sequencing reads aligned to a reference sequence
3.43
ploidy
number of equivalent alleles present at each position of the genome
3.44
phased genotyping
information about consecutive genotypes along the genome which keeps information about the different copies of the genome (or different individuals) separate, whenever multiple alleles are present
3.45
quality value
quality score
number assigned to each nucleotide base call in automated sequencing processes
Note 1 to entry: Quality values express the base-call accuracy, i.e. the probability (or a related measure) for a nucleotide in the sequence to have been incorrectly determined.
3.46
read group
set of reads having some property in common
3.47
read identifier
read header
read name
text string associated with each sequencing read stored in GIRs such as FASTA, FASTQ and SAM
Note 1 to entry: The read identifier is usually unique within its dataset, and may contain additional information as encoded by bioinformatics tools (such as database information, and base calling information).
3.48
reference genome
representative example of the sequences for a species’ genetic material
Note 1 to entry: Representative of the sequences of the DNA molecules present in a typical cell of that species.
3.49
reference sequence
nucleic acid sequence with biological relevance
Note 1 to entry: Each reference sequence is indexed by a one-dimensional integer coordinate system whereby each integer within range identifies a single nucleotide. Coordinate values can only be equal to or larger than zero. The coordinate system in the context of this standard is zero-based (i.e. the first nucleotide has coordinate 0 and it is said to be at position 0) and linearly increasing within the string from left to right.
3.50
rightmost read end
rightmost read
sequencing read generated by a paired-end sequencing run and mapped at a position on the reference sequence which is greater than the mapping position of the other read in the pair
3.51
SAM
GIR that is human readable and includes FASTQ plus alignment and analysis information
Note 1 to entry: From “Sequence Alignment/Map format”. SAM originates from the 1000 Genome Sequencing Project. It is represented in plain ASCII, extensible by users and includes sequence, quality, alignment and analysis information.
3.52
second end
read 2
second segment of a paired-end template
Note 1 to entry: Sequencing platforms usually store first and second ends in two separate files and in the same order – i.e. the n-th read of the first FASTQ file and the n-th read of the second FASTQ file belong to the same template.
3.53
sequencing read
read
readout, by a specific technology more or less prone to errors, of a continuous part of a segment of nucleotides extracted from an organic sample
3.54
single-end read
tuple made of one segment
3.55
SNP
single-nucleotide polymorphism
genomic variant defined as one changed base at a specific position in the genome
3.56
soft clip
soft clipped bases
readone or more bases at either side of the read that have been ignored during the alignment process
Note 1 to entry: The bases are still present in the sequence of the read.
3.57
spliced read
aligned read which, as a consequence of biological splicing, covers non-continuous portions of the reference genome being the result of biological splicing
Note 1 to entry: The read comes from RNA-sequencing and contains at least one junction between two consecutive exons.
3.58
split alignment
aligned paired-end read whose ends are encoded in two different genomic records
3.59
template
genomic sequence that is produced by a sequencing machine as a single unit
Note 1 to entry: A template can be made of one or more segments (being called single-end sequencing read when it only has one segment, and paired-end sequencing read when it has two segments – typically they capture both the beginning and the end of a nucleic acid molecule).
3.60
tile
non-syntactic concept describing the AU layout in terms of the original (x,y) coordinates when an annotation file is seen as a bi-dimensional matrix
3.61
tuple
collection of one or more segments
Note 1 to entry: Each segment can be: unmapped; mapped once; or mapped more than once.
3.62
variable
parameter either inferred from syntax fields or locally defined in a process description
3.63
VCF
GIR that is human readable and stores data such as SNPs, insertions, deletions and structural variants of DNA, including annotations.
Bibliography
| 1 | ISO/IEC 23092-3, Information technology — Genomic information representation — Part 3: Metadata and application programming interfaces (APIs) |
| 2 | IETF RFC 8478, Zstandard Compression and the application/zstd Media Type |