ISO/TS 8392:2023 ゲノミクス情報学 — 遺伝子検出製品およびサービスのためのゲノムデータの記述ルール | ページ 2

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

序文

ISO (国際標準化機構) は、国家標準化団体 (ISO メンバー団体) の世界的な連合体です。国際規格の作成作業は通常、ISO 技術委員会を通じて行われます。技術委員会が設立された主題に関心のある各会員団体は、その委員会に代表される権利を有します。政府および非政府の国際機関も ISO と連携してこの作業に参加しています。 ISO は、電気技術の標準化に関するあらゆる事項について国際電気標準会議 (IEC) と緊密に協力しています。

この文書の作成に使用される手順と、そのさらなる保守を目的とした手順は、ISO/IEC 指令Part 1 部に記載されています。特に、さまざまなタイプの ISO 文書に必要なさまざまな承認基準に注意する必要があります。この文書は、ISO/IEC 指令Part 2 部の編集規則に従って起草されました ( www.iso.org/directives を参照)

この文書の要素の一部が特許権の対象となる可能性があることに注意してください。 ISO は、かかる特許権の一部またはすべてを特定する責任を負わないものとします。文書の作成中に特定された特許権の詳細は、序論および/または受け取った特許宣言の ISO リストに記載されます ( www.iso.org/patents を 参照)

本書で使用されている商号は、ユーザーの便宜のために提供された情報であり、推奨を構成するものではありません。

規格の自主的な性質、適合性評価に関連する ISO 固有の用語と表現の意味、および貿易の技術的障壁 (TBT) における世界貿易機関 (WTO) 原則への ISO の準拠に関する情報については、以下を参照してください。 www.iso.org/iso/foreword.html

この文書は、ISO/TC 215 技術委員会、健康情報学、小委員会 SC 1, ゲノミクス情報学によって作成されました。

序章

配列決定のコストの低下とゲノミクスの段階的な詳細な研究により、ますます多くのゲノムデータが生成されていますが、ゲノミクスのデータ品質は最適ではありません。データレベルの側面から見ると、データの完全性が欠如しており、医療情報は意味上の不統一という問題に直面しています。これらの問題は、下流のアプリケーションに大きな障害を引き起こしています。

データの標準化は、データ資産管理、データ ストレージおよびアプリケーションの前提条件であり、これにより、ゲノム データのストレージを改善し、精密医療で使用されるゲノム データを拡大できます。

このドキュメントは、業界のデータ作成の実際の状況と、上流および下流の業界ユーザーのニーズを組み合わせたものです。また、利害関係者による使用と、すべての一般的な種類のゲノム データの使いやすさも考慮されています。データのスコープとセマンティックの統一の問題を解決すると、データ関連付け機能が強化され、情報交換が確実になり、データ フローが改善され、データの完全性とデータの有効性の側面からデータの品質が向上し、その後のデータ ストレージとデータ アプリケーションのための良好な基盤が構築されます。そしてデータ共有。

1 スコープ

この文書は、ゲノムデータの内容構造、データフォーマットの属性と記述規則、データフォーマットの編集規則など、ゲノムデータのカテゴリー定義と品質評価に関する要件を規定する。

この文書は、ヒトの遺伝子検出製品およびサービスに使用されるすべてのゲノムデータに適用されます。

この文書は、ゲノムデータの処理と分析、およびゲノムデータの品質評価/評価に適用されます。

2 規範的参照

この文書には規範的な参照はありません。

3 用語と定義

この文書の目的上、次の用語と定義が適用されます。

ISO と IEC は、標準化に使用する用語データベースを次のアドレスで維持しています。

3.1

アライメントシーケンスコード

同じシリーズ内のオブジェクトの連続コーディングと拡張スペースの予約

3.2

コード

文字、単語、フレーズなどの情報を別の形式で、通常はより簡潔に表現すること

3.3

コード構造

完全なコードの構成と長さの表現

3.4

等しい長さのコード

すべてのコーディングオブジェクトが同じ長さを持つコーディングシステム

3.5

データ識別子

火曜日

あるデータセットを他のすべてのデータセットから一意に区別する識別子

3.6

レイヤーコード

コード化されたオブジェクトのメンバーシップ順序から構成される階層コード

3.7

シーケンシャルコード

アラビア数字または文字を自然な順序で表すコード

3.8

可変長コード

コードの長さがまったく同じではないコード体系

3.9

バージョン識別子

vi

提出されたゲノムデータのバージョンを識別するために割り当てられる固有の番号

参考文献

1ISO 860, 日付と時刻 — 情報交換の表現
2ISO/IEC 11179-1, 情報技術 — メタデータ レジストリ (MDR) — Part 1: フレームワーク
3ISO/IEC 11179-5, 情報技術 — メタデータ レジストリ (MDR) — Part 5: 命名原則

Foreword

ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies (ISO member bodies). The work of preparing International Standards is normally carried out through ISO technical committees. Each member body interested in a subject for which a technical committee has been established has the right to be represented on that committee. International organizations, governmental and non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.

The procedures used to develop this document and those intended for its further maintenance are described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types of ISO documents should be noted. This document was drafted in accordance with the editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives ).

Attention is drawn to the possibility that some of the elements of this document may be the subject of patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of any patent rights identified during the development of the document will be in the Introduction and/or on the ISO list of patent declarations received (see www.iso.org/patents ).

Any trade name used in this document is information given for the convenience of users and does not constitute an endorsement.

For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions related to conformity assessment, as well as information about ISO's adherence to the World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www.iso.org/iso/foreword.html .

This document was prepared by Technical Committee ISO/TC 215, Health informatics, Subcommittee SC 1, Genomics informatics.

Introduction

The decreasing cost of sequencing and the gradual in-depth study of genomics have led to the generation of more and more genomic data, but the data quality in genomics is not optimal. From the dimension of data level, there is a lack of data integrity, and medical information has been facing a problem of semantic disunity. These problems have caused great obstacles to downstream applications.

Standardization of data is a prerequisite for data asset management and data storage and applications, which can give better storage for genomic data and enlarge these genomic data used in precision medicine.

This document is based on the actual situation of industry data production, combined with the needs of upstream and downstream industry users. It also takes into account the use made by stakeholders and user friendliness for all common types of genomic data. Solving the problem of data scope and semantic unification can enhance the data association ability, ensure information exchange, improve data flow, improve the data quality from the aspects of data integrity and data validity, and lay a good foundation for subsequent data storage, data application and data sharing.

1 Scope

This document specifies requirements on the category definition and quality assessment of genomic data, including the content structure, attribute and description rules of data format, and the compilation rules of data format.

This document applies to all the genomic data used for human genetic detection products and services.

This document applies to genomic data processing and analysis, and to the quality evaluation/assessment of genomic data.

2 Normative references

There are no normative references in this document.

3 Terms and definitions

For the purposes of this document, the following terms and definitions apply.

ISO and IEC maintain terminology databases for use in standardization at the following addresses:

3.1

alignment-sequence code

continuous coding of objects in the same series, and reserving of extended space

3.2

code

representation of a piece of information such as a letter, word or phrase in another form, usually briefer

3.3

code structure

representation of the composition and length of a complete code

3.4

equal length code

coding system in which all coding objects have the same length

3.5

data identifier

DI

identifier that uniquely distinguishes one set of data from all others

3.6

layer code

hierarchical code consisting of membership order of coded objects

3.7

sequential code

code that represents in the natural order of Arabic numerals, or letters

3.8

variable-length code

code system in which the length of code is not exactly the same

3.9

version identifier

vi

unique number assigned to identify a version of submitted genomic data

Bibliography

1ISO 8601 (all parts), Date and time — Representations for information interchange
2ISO/IEC 11179-1, Information technology — Metadata registries (MDR) — Part 1: Framework
3ISO/IEC 11179-5, Information technology — Metadata registries (MDR) — Part 5: Naming principles