この規格 プレビューページの目次
※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。
3 用語と定義
この文書の目的上、次の用語と定義が適用されます。
ISO と IEC は、標準化に使用する用語データベースを次のアドレスで維持しています。
3.1
アクセスユニット
ビットストリームへのアクセスと操作を容易にするためのゲノム情報のコード化表現を含む論理データ構造
3.2
アクセスユニットのカバー領域
アクセスユニットの開始位置とアクセスユニットの終了位置の間に含まれるゲノム範囲(両端を含む)
3.3
アクセスユニット開始位置
鎖に関係なく、アクセスユニットに含まれるすべてのゲノムレコードの最初のアラインメントのうち、最も左にマップされた塩基の位置
3.4
アクセスユニット終了位置
鎖に関係なく、アクセスユニットに含まれるすべてのゲノムレコードの最初のアラインメントのうち、最も右にマップされた塩基の位置
3.5
アクセスユニット範囲
アクセスユニットの開始位置と、アクセスユニットに含まれるすべてのゲノムレコードの右端のゲノムレコード位置との間に含まれるゲノム範囲
3.6
アライメント
配列(通常はシーケンシングリード)と参照配列(たとえば、参照ゲノム)の間の類似性を説明する情報
3.7
箱
一意の型識別子と長さによって定義されるオブジェクト指向の構築単位
3.8
クラスター
ゲノム記録の集約
3.9
クラスター署名
サイン
クラスターに属するほとんどまたはすべてのゲノム記録に共通するヌクレオチドの配列
3.10
コンテナボックス
ボックス (3.8) その唯一の目的は、関連するボックスのセットを含めてグループ化することです。
3.11
データストリーム
同じデータタイプを転送する パケットのセット (3.20)
3.12
拡張アクセスユニットの開始位置
鎖に関係なく、アクセスユニットに含まれるすべてのゲノムレコードのすべてのアラインメントのうち、最も左にマップされた塩基の位置
3.13
拡張アクセスユニットの終了位置
鎖に関係なく、アクセスユニットに含まれるすべてのゲノムレコードのすべてのアラインメントの中で最も右にマップされた塩基の位置
3.14
ファイル形式
コード化された情報を保存するためのデータ構造のセット
3.15
ゲノムの位置
位置
参照配列内のヌクレオチドのゼロから始まる位置を表す整数
3.16
ゲノム領域
地域
開始ヌクレオチド位置と終了ヌクレオチド位置の間のゲノム間隔 (両端を含む)
3.17
ゲノム範囲
範囲
開始位置s と終了位置e によって定義される参照シーケンス上の位置の間隔 ( s ≤ e 。ゲノム範囲の開始位置と終了位置は常に範囲に含まれます。
3.18
マップされたベース
参照配列上の対応する塩基と一致する、または置換によって参照配列上の対応する塩基に変換できる、アラインメントされたリードの塩基。
3.19
パケット
この文書で定義されているデータ構造のセグメントを転送する送信ユニット
3.20
参照ゲノム
種の遺伝物質の配列の代表的な例
注記 1: 遺伝物質とは、その種の典型的な細胞に存在する DNA 分子の配列を意味する。
3.21
参照配列
生物学的関連性のある核酸配列
注記 1:各参照配列は 1 次元の整数座標系によってインデックス付けされており、範囲内の各整数は単一のヌクレオチドを識別します。座標値は 0 以上のみです。この標準の文脈における座標系はゼロベースであり (つまり、最初のヌクレオチドの座標は 0 であり、位置 0 にあると言われます)、文字列内で左から右に直線的に増加します。
3.22
ゲノムセグメント
セグメント
ヌクレオチドの連続配列。通常は配列決定プロセスの出力であり、テンプレートの 1 つの鎖から配列決定されます。
3.23
シーケンスリード
読む
有機サンプルから抽出された核酸分子の連続部分を、多かれ少なかれエラーが発生しやすい特定の技術によって読み出すこと
3.24
構文フィールド
データ形式で表されるデータの要素
3.25
テンプレート
配列決定装置によって単一ユニットとして生成されるゲノム配列
注記 1:テンプレートは 1 つ以上のセグメントで構成でき、セグメントが 1 つしかない場合はシングルエンド シーケンシング リードと呼ばれ、セグメントが 2 つある場合はペアエンド シーケンシング リードと呼ばれます。
3.26
トランスポートフォーマット
コード化された情報を転送するためのデータ構造のセット
3.27
変数
構文フィールドから推論されるか、プロセスの説明でローカルに定義されるパラメーター
参考文献
| 1 | IETF RFC 5234, 構文仕様の拡張 BNF: ABNF |
| 2 | FASTA NCBI フォーマット仕様、 https://www.ncbi.nlm.nih.gov/BLAST/fasta.shtml |
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
3.1
access unit
logical data structure containing a coded representation of genomic information to facilitate bit stream access and manipulation
3.2
access unit covered region
genomic range comprised between the access unit start position and the access unit end position, inclusive
3.3
access unit start position
position of the left-most mapped base among the first alignments of all genomic records contained in the access unit, irrespective of the strand
3.4
access unit end position
position of the right-most mapped base among the first alignments of all genomic records contained in the access unit, irrespective of the strand
3.5
access unit range
genomic range comprised between the access unit start position and the right-most genomic record position among all genomic records contained in the access unit
3.6
alignment
information describing the similarity between a sequence (typically a sequencing read) and a reference sequence (for instance, a reference genome)
3.7
box
object-oriented building unit defined by a unique type identifier and length
3.8
cluster
aggregation of genomic records
3.9
cluster signature
signature
sequence of nucleotides that is common to most or all genomic records belonging to a cluster
3.10
container box
box (3.8) whose sole purpose is to contain and group a set of related boxes
3.11
data stream
set of packets (3.20) transporting the same data type
3.12
extended access unit start position
position of the left-most mapped base among all alignments of all genomic records contained in the access unit, irrespective of the strand
3.13
extended access unit end position
position of the right-most mapped base among all alignments of all genomic records contained in the access unit, irrespective of the strand
3.14
file format
set of data structures for the storage of coded information
3.15
genomic position
position
integer number representing the zero-based position of a nucleotide within a reference sequence
3.16
genomic region
region
genomic interval between a start nucleotide position and an end nucleotide position, inclusive
3.17
genomic range
range
interval of positions on a reference sequence defined by a start position s and an end position e such that s ≤ e; the start and the end positions of a genomic range are always included in the range
3.18
mapped base
base of the aligned read that either matches the corresponding base on the reference sequence or can be turned into the corresponding base on the reference sequence via a substitution
3.19
packet
transmission unit transporting segments of any of the data structures defined in this document
3.20
reference genome
representative example of the sequences for a species’ genetic material
Note 1 to entry: Genetic material meaning the sequences of the DNA molecules present in a typical cell of that species.
3.21
reference sequence
nucleic acid sequence with biological relevance
Note 1 to entry: Each reference sequence is indexed by a one-dimensional integer coordinate system whereby each integer within range identifies a single nucleotide. Coordinate values can only be equal to or larger than zero. The coordinate system in the context of this standard is zero-based (i.e. the first nucleotide has coordinate 0 and it is said to be at position 0) and linearly increasing within the string from left to right.
3.22
genomic segment
segment
contiguous sequence of nucleotides, typically output of the sequencing process and sequenced from one strand of a template
3.23
sequence read
read
readout, by a specific technology more or less prone to errors, of a continuous part of a nucleic acid molecule extracted from an organic sample
3.24
syntax field
element of data represented in the data format
3.25
template
genomic sequence that is produced by a sequencing machine as a single unit
Note 1 to entry: A template can be made of one or more segments, being called single-end sequencing read when it only has one segment and paired-end sequencing read when it has two segments.
3.26
transport format
set of data structures for the transport of coded information
3.27
variable
parameter either inferred from syntax fields or locally defined in a process description
Bibliography
| 1 | IETF RFC 5234, Augmented BNF for Syntax Specifications: ABNF |
| 2 | FASTA NCBI format specification, https://www.ncbi.nlm.nih.gov/BLAST/fasta.shtml |