ISO/IEC 23092-6:2023 情報技術 | ページ 6

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

3 用語と定義

この文書の目的上、次の用語と定義が適用されます。

ISO と IEC は、標準化に使用する用語データベースを次のアドレスで維持しています。

3.1

アクセスユニット

ビットストリームへのアクセスと操作を容易にするためのゲノム情報のコード化表現を含む論理データ構造

3.2

アクセスユニット開始位置

鎖に関係なく、アクセスユニットに含まれるすべてのゲノムレコードの最初のアラインメントのうち、最も左にマップされた塩基の位置

3.3

アクセスユニット終了位置

鎖に関係なく、アクセスユニットに含まれるすべてのゲノムレコードの最初のアラインメントのうち、最も右側にマップされた塩基の位置

3.4

アクセスユニット範囲

アクセスユニットの開始位置と、アクセスユニットに含まれるすべてのゲノムレコードの右端のゲノムレコード位置との間に含まれるゲノム範囲

3.5

アクセスユニットのカバー領域

アクセスユニットの開始位置とアクセスユニットの終了位置を含むゲノム範囲

3.6

アライメント

配列(通常はシーケンシングリード)と参照配列(たとえば、参照ゲノム)の間の類似性を説明する情報

注記 1: アライメントは、参照内の位置、参照のストランド、およびアラインメントに必要な一連の編集操作 (一致、不一致、挿入と削除、配列末端のクリッピング、およびスプライシング情報) に関して記述されます。最初のシーケンスを 2 番目のシーケンスに変換します。

3.7

対立遺伝子

ゲノムセグメントの 1 つまたは複数の代替配列のそれぞれ

注記 1: ゲノムには同じゲノム物質のほぼ同一のコピーが複数含まれているため (ヒトの場合は 1 から 22 までのすべての染色体に対して 2 つ)、および/または 1 つであるため、複数存在する可能性があります。集団の中の複数の個人とみなされます。

3.8

注釈レコード

記録

注釈情報のタプルを表すデータ構造 (例、バリアント、ゲノム特徴、または一般的な範囲に関連付けられたプロパティ。データが行列形式である場合に「行」を識別するためにも使用されます)

3.9

ベース

塩基対

ヌクレオチドと同義

3.10

ベースポジション

塩基と、同じゲノムセグメントに属するマッピングされた一番左の塩基との間の塩基の数。

3.11

シガーストリング

葉巻

位置合わせをテキストで表現する方法

注 1:いくつかの定義がさまざまなプログラムで使用されていますが、ここで参照されているものは SAM フォーマットで使用されているものです。シーケンスリードをリファレンスに変換するために必要な一連の編集操作 (一致、不一致、挿入と削除、シーケンス末端のクリッピング、およびスプライシング情報) をエンコードします。

3.12

クラスター

ゲノム記録の集約

3.13

クラスター署名

サイン

クラスターに属するほとんどまたはすべてのゲノム記録に共通するヌクレオチドの配列

3.14

コンティグ

配列決定され組み立てられた、DNAのコンセンサス領域を表す重複するDNAセグメントのセット

注記 1: 「contig」という用語は、「contiguous」に由来します。

3.15

データセット

圧縮単位には以下のうちの 1 つ以上が含まれます。読み取りのシーケンス。とアライメント情報

注記 1:データセットは ISO/IEC 23092-1 で指定されています。

3.16

削除

ゲノム配列からの 1 つ以上の塩基の連続した除去

3.17

電子シガー

CIGAR 構文のスーパーセットとして指定された拡張 CIGAR 構文

注記 1: とりわけ、E-CIGAR は、置換、スプライスリード、スプライスストランドネスの明確な表現を可能にします。

3.18

編集操作

置換、欠失、挿入、またはクリップによるヌクレオチド配列の修飾

3.19

ファスタ

各シーケンスリードの名前とヌクレオチド配列を含む GIR

注記 1: 追加情報は通常、バイオインフォマティクスツールによって読み取り識別子にエンコードされます (データベース情報、塩基呼び出し情報など)

3.20

ファストQ

FASTA および品質値を含む GIR

3.21

最初の端

終わり1

1を読む

ペアエンド テンプレートの最初のセグメント

注記 1: Illumina プラットフォームは、通常、第 1 端と第 2 端を 2 つの別個のファイルに同じ順序で保存します。つまり、最初の FASTQ ファイルの n 番目の読み取りと 2 番目の FASTQ ファイルの n 番目の読み取りは、同じテンプレートに属します。 。

3.22

ゲノム記述子

ディスクリプタ

ゲノムシーケンシングリードの特徴、またはアライメント情報や品質値などの関連情報を表すために使用される構文の要素

3.23

ゲノム情報表現

シーケンスとそれに関連する情報を記述する方法

注記 1:どの情報が表現されるかは GIR によって異なります。

3.24

ゲノムの位置

位置

参照配列内のヌクレオチドのゼロから始まる位置を表す整数

3.25

ゲノム範囲

範囲

開始位置 s と終了位置 e によって指定される参照シーケンス上の位置の間隔 (s ≤ e)

注記 1:ゲノム範囲の開始位置と終了位置は常にその範囲に含まれます。

3.26

ゲノム記録

記録

オプションでアライメント情報、読み取り識別子、および品質値に関連付けられたタプルを表すデータ構造

3.27

ゲノム記録インデックス

アクセスユニットでエンコードされたゲノムレコードのシーケンスにおけるゲノムレコードの位置

3.28

ゲノム記録の位置

ゲノム レコードに含まれる最初のアライメントの参照ゲノム上のマップされた左端の塩基の 0 ベースの位置

注記 1: アラインメントされたリードに存在し、参照配列 (挿入) には存在しない塩基、およびアラインメントプロセスによって保存されているが参照配列 (ソフトクリップ) にマッピングされていない塩基には、マッピング位置がありません。

3.29

ゲノムリファレンス

参照

参照配列のコレクション

注記 1:典型的な例は、参照ゲノムまたは参照トランスクリプトームです。

3.30

ゲノムセグメント

セグメント

ヌクレオチドの連続した配列

注記 1:通常、配列決定プロセスの出力であり、テンプレートの 1 つの鎖から配列決定されます。

3.31

ゲノムバリアント

変異体

ゲノムセグメントに複数の対立遺伝子が存在する場合、そのセグメントの可能な配列の 1 つ

注記 1: 変異体は 1 ヌクレオチド (通常は一塩基多型と呼ばれます) またはそれ以上にわたる場合があります (構造変異体には、数千以上の連続する塩基の変化が含まれる場合があります)バリアントはインデルで構成されます。

3.32

遺伝子型

ゲノムセグメントの複数の対立遺伝子が存在する場合は常に、ゲノムまたは個体の指定されたコピーのゲノムセグメントの配列

3.33

遺伝子型マトリックス

ゲノムまたは個体の各コピーにどの遺伝子型が存在するかを指定するメトリクス

3.34

ハードクリップ

もともとリードのどちらかの側に存在し、アライメント後にそこから削除された 1 つ以上の塩基

注記 1: 読み取り配列には塩基が存在しません。

3.35

インデル

2つの配列を整列させるときに、2つの配列を同じにするために一方の配列に挿入されるか、あるいはもう一方の配列から削除される連続したヌクレオチドのストレッチ

注1: 「挿入または削除」から。

3.36

挿入

ゲノム配列への1つまたは複数の塩基の連続した追加

3.37

左端の読み取り終了

左端の読み取り

ペアエンドシーケンシングの実行によって生成されたリードと、ペア内の他のリードのマッピング位置よりも小さい参照配列上の位置にマッピングされたシーケンシング

3.38

マップされたベース

参照配列上の対応する塩基と一致する、または置換によって参照配列上の対応する塩基に変換できる、アラインメントされたリードの塩基。

3.39

ヌクレオチド

DNAやRNAなどの核酸ポリマーのモノマー

注1:​​ヌクレオチドは文字で表される(「A」はアデニン、「C」はシトシン、「G」はグアニン、「T」はDNA内にのみ存在するチミン、「U」はDNA内にのみ存在するウラシルを表す) RNA)。特定の DNA または RNA 分子の化学式は、そのヌクレオチドの配列によって与えられます。ヌクレオチドの配列は、次の場合、アルファベット上の文字列 (「A」、「C」、「G」、「T」) として表すことができます。 DNA, RNA の場合はアルファベット上の文字列 (「A」、「C」、「G」、「U」)分子組成が不明な塩基は「N」で示されます。

3.40

注釈レコードを出力する

注釈テーブルまたはその一部のデコードプロセスの出力として生成される注釈レコード

3.41

ペアエンド読み取り

ペアエンドテンプレート

2 つのセグメントで構成されるタプル

注記 1:通常、セグメントは同じ核酸分子の始まりと終わりに対応します。

3.42

パイルアップ

参照配列にアラインメントされたシーケンシングリードのテキスト表現

3.43

倍数性

ゲノムの各位置に存在する同等の対立遺伝子の数

3.44

段階的ジェノタイピング

複数の対立遺伝子が存在する場合に、ゲノムの異なるコピー (または異なる個体) に関する情報を個別に保持する、ゲノムに沿った連続する遺伝子型に関する情報

3.45

品質の価値

品質スコア

自動配列決定プロセスで各ヌクレオチド塩基コールに割り当てられる番号

注記 1:品質値は、塩基呼び出しの精度、すなわち、配列内のヌクレオチドが誤って決定される確率 (または関連する尺度) を表します。

3.46

読書グループ

共通のプロパティを持つ一連の読み取り

3.47

読み取り識別子

ヘッダーの読み取り

読み取り名

FASTA, FASTQ, SAM などの GIR に保存された各シーケンシングリードに関連付けられたテキスト文字列

注記 1: 読み取り識別子は通常、そのデータセット内で一意であり、バイオインフォマティクスツールによってエンコードされた追加情報 (データベース情報、塩基呼び出し情報など) を含む場合があります。

3.48

参照ゲノム

種の遺伝物質の配列の代表的な例

注記 1:その種の典型的な細胞に存在する DNA 分子の配列の代表。

3.49

参照配列

生物学的関連性のある核酸配列

注記 1:各参照配列は 1 次元の整数座標系によってインデックス付けされており、範囲内の各整数は単一のヌクレオチドを識別します。座標値は 0 以上のみです。この標準の文脈における座標系はゼロベースであり (つまり、最初のヌクレオチドの座標は 0 であり、位置 0 にあると言われます)、文字列内で左から右に直線的に増加します。

3.50

右端の読み取り終了

右端の読み取り

ペアエンドシーケンシングの実行と、ペア内の他のリードのマッピング位置よりも大きい参照配列上の位置にマップされたシーケンシングによって生成されたリード

3.51

サム

人間が判読可能で、FASTQ に加えてアライメントおよび分析情報が含まれる GIR

注記 1: 「シーケンス アラインメント/マップ形式」より。 SAM は 1000 ゲノム配列決定プロジェクトに由来します。これはプレーン ASCII で表現され、ユーザーによる拡張が可能で、配列、品質、アライメント、分析情報が含まれます。

3.52

第二の端

2を読む

ペアエンド テンプレートの 2 番目のセグメント

注記 1:シーケンシングプラットフォームは通常、第 1 末端と第 2 末端を 2 つの別個のファイルに同じ順序で保存します。つまり、最初の FASTQ ファイルのn 番目の読み取りと 2 番目の FASTQ ファイルのn 番目の読み取りは同じテンプレートに属します。 。

3.53

シーケンス読み取り

読む

有機サンプルから抽出されたヌクレオチドのセグメントの連続部分を、多かれ少なかれエラーが発生しやすい特定の技術によって読み出すこと

3.54

シングルエンド読み取り

1 つのセグメントで構成されるタプル

3.55

SNP

一塩基多型

ゲノム変異体:ゲノム内の特定の位置にある 1 つの塩基が変化したものとして定義される

3.56

ソフトクリップ

ソフトクリップベース

read アライメントプロセス中に無視されたリードの両側の 1 つ以上の塩基

注記 1:塩基は読み取り配列内にまだ存在します。

3.57

接合された読み取り

生物学的スプライシングの結果として、生物学的スプライシングの結果である参照ゲノムの不連続部分をカバーするアラインメントリード。

注記 1:リードは RNA シークエンシングから得られ、2 つの連続するエクソン間のジャンクションを少なくとも 1 つ含みます。

3.58

スプリットアライメント

両端が 2 つの異なるゲノム レコードにエンコードされている、位置合わせされたペアエンド リード

3.59

テンプレート

配列決定装置によって単一ユニットとして生成されるゲノム配列

注記 1:テンプレートは 1 つ以上のセグメントで構成できます (セグメントが 1 つしかない場合はシングルエンドシーケンシング リードと呼ばれ、セグメントが 2 つある場合はペアエンドシーケンシング リードと呼ばれます。通常、テンプレートは先頭と先頭の両方をキャプチャします)核酸分子の末端)。

3.60

タイル

注釈ファイルが 2 次元行列として見られる場合に、元の(x,y)座標の観点から AU レイアウトを記述する非構文概念

3.61

タプル

1 つ以上のセグメントのコレクション

注記 1:各セグメントは以下のことが可能です。マップ解除。一度マッピングされます。または複数回マッピングされます。

3.62

変数

構文フィールドから推論されるか、プロセスの説明でローカルに定義されるパラメーター

3.63

VCF

GIR は人間が読み取り可能で、SNP, 挿入、欠失、DNA の構造的変異などのデータ (注釈を含む) を保存します。

参考文献

1ISO/IEC 23092-3, 情報技術 — ゲノム情報表現 — Part 3: メタデータおよびアプリケーション プログラミング インターフェイス (API)
2IETF RFC 8478, Zstandard 圧縮と application/zstd メディア タイプ

3 Terms and definitions

For the purposes of this document, the following terms and definitions apply.

ISO and IEC maintain terminology databases for use in standardization at the following addresses:

3.1

access unit

logical data structure containing a coded representation of genomic information to facilitate bit stream access and manipulation

3.2

access unit start position

position of the leftmost mapped base among the first alignments of all genomic records contained in the access unit, irrespective of the strand

3.3

access unit end position

position of the rightmost mapped base among the first alignments of all genomic records contained in the access unit, irrespective of the strand

3.4

access unit range

genomic range comprised between the access unit start position and the rightmost genomic record position among all genomic records contained in the access unit

3.5

access unit covered region

genomic range comprised between the access unit start position and the access unit end position inclusive

3.6

alignment

information describing the similarity between a sequence (typically a sequencing read) and a reference sequence (for instance, a reference genome)

Note 1 to entry: An alignment is described in terms of a position within the reference, the strand of the reference, and a set of edit operations (matches, mismatches, insertions and deletions, clipping of the sequence ends and splicing information) needed to turn the first sequence into the second.

3.7

allele

each of one or more alternative sequences for a genomic segment

Note 1 to entry: There can be more than one either because the genome contains more than one, almost identical, copies of the same genomic material (2 in the case of humans for all chromosomes from 1 to 22), and/or because one is considering more than one individual in the population.

3.8

annotation record

record

data structure representing a tuple of annotation information (e.g. the properties associated to a variant, a genomic feature or a generic range; it is used also to identify a ”row” when data have matrix format)

3.9

base

base pair

synonymous of nucleotide

3.10

base position

number of bases between a base and the leftmost mapped base belonging to the same genomic segment.

3.11

CIGAR string

CIGAR

textual way of representing an alignment

Note 1 to entry: Several definitions have been used by different programs, the ones referred to here is the one used in the SAM format. It encodes a set of edit operations (matches, mismatches, insertions and deletions, clipping of the sequence ends and splicing information) needed to turn the sequencing read into the reference.

3.12

cluster

aggregation of genomic records

3.13

cluster signature

signature

sequence of nucleotides that is common to most or all genomic records belonging to a cluster

3.14

contig

set of overlapping DNA segments, sequenced and assembled, that together represent a consensus region of DNA

Note 1 to entry: the term “contig” derives from “contiguous”.

3.15

dataset

compression unit containing one or more of: reference sequences; sequencing reads; and alignment information

Note 1 to entry: Datasets are specified in ISO/IEC 23092-1.

3.16

deletion

contiguous removal of one or more bases from a genomic sequence

3.17

E-CIGAR

extended CIGAR syntax specified as a superset of the CIGAR syntax

Note 1 to entry: Among other things, E-CIGAR enables the unambiguous representation of substitutions, spliced reads and splice strandedness.

3.18

edit operation

modification of a sequence of nucleotides by means of a substitution, deletion, insertion or clip

3.19

FASTA

GIR that includes a name and a nucleotide sequence for each sequencing read

Note 1 to entry: Additional information is usually encoded in the read identifier by bioinformatics tools (such as database information, and base calling information).

3.20

FASTQ

GIR that includes FASTA and quality values

3.21

first end

end 1

read 1

first segment of a paired-end template

Note 1 to entry: Illumina platforms usually store first and second ends in two separate files and in the same order – i.e. the n-th read of the first FASTQ file and the n-th read of the second FASTQ file belong to the same template.

3.22

genomic descriptor

descriptor

element of the syntax used to represent a feature of a genomic sequencing read or associated information such as alignment information or quality values

3.23

genomic information representation

way to describe a sequence and some information associated with it

Note 1 to entry: Which information is represented varies depending on the GIR.

3.24

genomic position

position

integer number representing the zero-based position of a nucleotide within a reference sequence

3.25

genomic range

range

interval of positions on a reference sequence specified by a start position s and an end position e such that s ≤ e

Note 1 to entry: The start and the end positions of a genomic range are always included in the range.

3.26

genomic record

record

data structure representing a tuple optionally associated with alignment information, read identifier and quality values

3.27

genomic record index

position of a genomic record in the sequence of genomic records encoded in an access unit

3.28

genomic record position

0-based position of the leftmost mapped base on the reference genome of the first alignment contained in a genomic record

Note 1 to entry: A base present in the aligned read and not present in the reference sequence (insertion) and bases preserved by the alignment process but not mapped on the reference sequence (soft clips) do not have mapping positions.

3.29

genomic reference

reference

collection of reference sequences

Note 1 to entry: Typical examples are a reference genome or a reference transcriptome.

3.30

genomic segment

segment

contiguous sequence of nucleotides

Note 1 to entry: Typically output of the sequencing process, and sequenced from one strand of a template.

3.31

genomic variant

variant

one of the possible sequences for a genomic segment whenever more than one allele for that segment is present

Note 1 to entry: The variant can span one nucleotide (and is then usally called single nucleotide polymorphism) or more (structural variants can involve changes in thousands of contiguous bases or more). A variant can consist of an indel.

3.32

genotype

sequence of a genomic segment for a specified copy of the genome or individual whenever more than one allele for that segment is present

3.33

genotype matrix

metrix specifying which genotype is present in each copy of the genome or individual

3.34

hard clip

one or more bases originally present at either side of a read, and removed from it following alignment

Note 1 to entry: The bases are no longer present in the sequence of the read.

3.35

indel

contiguous stretch of nucleotides that, when aligning two sequences, are inserted into one sequence, or alternatively deleted from the other, in order to make the two sequences the same

Note 1 to entry: From “insertion or deletion”.

3.36

insertion

contiguous addition of one or more bases into a genomic sequence

3.37

leftmost read end

leftmost read

sequencing read generated by a paired-end sequencing run and mapped at a position on the reference sequence which is smaller than the mapping position of the other read in the pair

3.38

mapped base

base of the aligned read that either matches the corresponding base on the reference sequence or can be turned into the corresponding base on the reference sequence via a substitution

3.39

nucleotide

monomer of a nucleic acid polymer such as DNA or RNA

Note 1 to entry: Nucleotides are denoted as letters (‘A’ for adenine; ‘C’ for cytosine; ‘G’ for guanine; ‘T’ for thymine which only occurs in DNA; and ‘U’ for uracil which only occurs in RNA). The chemical formula for a specific DNA or RNA molecule is given by the sequence of its nucleotides, which can be represented as a string over the alphabet (‘A’, ’C’, ’G’, ‘T’) in the case of DNA, and a string over the alphabet (‘A’, ‘C’, ‘G’, ‘U’) in the case of RNA. Bases with unknown molecular composition are denoted with ‘N’.

3.40

output annotation record

annotation record produced as output of the decoding process of an annotation table or a portion of it

3.41

paired-end reads

paired-end template

tuple made of two segments

Note 1 to entry: Typically, the segments correspond to the beginning and the end of the same nucleic acid molecule.

3.42

pileup

textual representation of sequencing reads aligned to a reference sequence

3.43

ploidy

number of equivalent alleles present at each position of the genome

3.44

phased genotyping

information about consecutive genotypes along the genome which keeps information about the different copies of the genome (or different individuals) separate, whenever multiple alleles are present

3.45

quality value

quality score

number assigned to each nucleotide base call in automated sequencing processes

Note 1 to entry: Quality values express the base-call accuracy, i.e. the probability (or a related measure) for a nucleotide in the sequence to have been incorrectly determined.

3.46

read group

set of reads having some property in common

3.47

read identifier

read header

read name

text string associated with each sequencing read stored in GIRs such as FASTA, FASTQ and SAM

Note 1 to entry: The read identifier is usually unique within its dataset, and may contain additional information as encoded by bioinformatics tools (such as database information, and base calling information).

3.48

reference genome

representative example of the sequences for a species’ genetic material

Note 1 to entry: Representative of the sequences of the DNA molecules present in a typical cell of that species.

3.49

reference sequence

nucleic acid sequence with biological relevance

Note 1 to entry: Each reference sequence is indexed by a one-dimensional integer coordinate system whereby each integer within range identifies a single nucleotide. Coordinate values can only be equal to or larger than zero. The coordinate system in the context of this standard is zero-based (i.e. the first nucleotide has coordinate 0 and it is said to be at position 0) and linearly increasing within the string from left to right.

3.50

rightmost read end

rightmost read

sequencing read generated by a paired-end sequencing run and mapped at a position on the reference sequence which is greater than the mapping position of the other read in the pair

3.51

SAM

GIR that is human readable and includes FASTQ plus alignment and analysis information

Note 1 to entry: From “Sequence Alignment/Map format”. SAM originates from the 1000 Genome Sequencing Project. It is represented in plain ASCII, extensible by users and includes sequence, quality, alignment and analysis information.

3.52

second end

read 2

second segment of a paired-end template

Note 1 to entry: Sequencing platforms usually store first and second ends in two separate files and in the same order – i.e. the n-th read of the first FASTQ file and the n-th read of the second FASTQ file belong to the same template.

3.53

sequencing read

read

readout, by a specific technology more or less prone to errors, of a continuous part of a segment of nucleotides extracted from an organic sample

3.54

single-end read

tuple made of one segment

3.55

SNP

single-nucleotide polymorphism

genomic variant defined as one changed base at a specific position in the genome

3.56

soft clip

soft clipped bases

readone or more bases at either side of the read that have been ignored during the alignment process

Note 1 to entry: The bases are still present in the sequence of the read.

3.57

spliced read

aligned read which, as a consequence of biological splicing, covers non-continuous portions of the reference genome being the result of biological splicing

Note 1 to entry: The read comes from RNA-sequencing and contains at least one junction between two consecutive exons.

3.58

split alignment

aligned paired-end read whose ends are encoded in two different genomic records

3.59

template

genomic sequence that is produced by a sequencing machine as a single unit

Note 1 to entry: A template can be made of one or more segments (being called single-end sequencing read when it only has one segment, and paired-end sequencing read when it has two segments – typically they capture both the beginning and the end of a nucleic acid molecule).

3.60

tile

non-syntactic concept describing the AU layout in terms of the original (x,y) coordinates when an annotation file is seen as a bi-dimensional matrix

3.61

tuple

collection of one or more segments

Note 1 to entry: Each segment can be: unmapped; mapped once; or mapped more than once.

3.62

variable

parameter either inferred from syntax fields or locally defined in a process description

3.63

VCF

GIR that is human readable and stores data such as SNPs, insertions, deletions and structural variants of DNA, including annotations.

Bibliography

1ISO/IEC 23092-3, Information technology — Genomic information representation — Part 3: Metadata and application programming interfaces (APIs)
2IETF RFC 8478, Zstandard Compression and the application/zstd Media Type