ISO 25720:2009 健康情報学—ゲノム配列変動マークアップ言語(GSVML) | ページ 3

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

導入

現在の電子世界では、図 1 に示すように、医療用の複数の異なる種類のデータが存在します。臨床データや画像データに加えて、このポストゲノム時代に移行するにつれて、国際的に見て圧倒的な量のゲノムデータが作成されています。国際標準開発組織は、これらのデータの標準を開発しています。 Health Level Seven は臨床データの標準を開発し、DICOM と JPEG は画像データの標準を開発します。ゲノム配列変異マークアップ言語 (GSVML) は、ゲノム データ、特にヒト関連の DNA 変異データの標準を定義します。 GSVML の中心的なターゲットは一塩基多型 (SNP) です。

図 1 —ヘルスケアの主なデータの種類

図1

このポストゲノム時代において、健康関連データの管理は、ゲノム研究とゲノムベースの医療の両方にとってますます重要になっています (参考文献 [1] を参照)臨床データ、画像データ、ゲノムデータの管理に対する情報的アプローチは、基礎的なベンチトップ研究と同じくらいの価値を持ち始めています。現在、世界中にはさまざまなオミクスデータが存在し、人々の健康への有効活用が待たれています。この目標を達成するために乗り越えなければならないハードルは、オミクスデータの交換をサポートするデータ形式とメッセージ標準の開発です。ゲノム データには、ゲノム配列、DNA 配列変異、および発現データ、プロテオミクス データ、分子ネットワークなどのその他のゲノムベースのデータが含まれます。この国際規格は、入り口として DNA 配列変異に焦点を当てています。 DNA配列変異のうちSNPを中心対象として選択したのは、以下の3つの理由による。

  • a) SNP は、人間の健康に関して最も研究されている配列変異です。
  • b)現在の状況では、膨大な量の SNP データがさまざまなタイプのデータ形式で世界中に存在しています。最近の SNP 研究の爆発的な増加により、膨大な量の実験データがさまざまな種類のデータ形式で多くのデータベースに蓄積されています。これらのデータは、創薬、臨床診断、臨床研究への活用が待たれています。
  • c) SNP データは、遺伝子に基づく医療や薬理ゲノミクスなどのヒトへの応用にすでに大きな影響を与えています。

この状況を考慮して、国際社会は SNP データを交換するための相互運用可能な形式を必要としています。標準化の開発に先立って、さまざまな種類のデータ形式を持つ人間の健康関連施設間でのデータ交換の必要性を明らかにしました。

現時点では、SNP は、あらゆる種類のエイリアンの侵入、治療、環境相互作用などの外部刺激に対する人間の反応を理解するための鍵となると期待されています (参考文献 [2] を参照)細菌感染はエイリアンの侵入の一例であり、感染症に対する反応は個人によって異なります。治療法に応じて、薬の副作用は患者さんごとに異なります。これらの反応も環境によって異なります。

マークアップ言語は、文書のマークアップを行うときに使用する一連の記号と規則です (参考文献 [3] を参照)最初に標準化されたマークアップ言語は Standard Generalized Markup Languag, および Simple Object Access Protocol (SOAP) [9] などのシステム インタラクションの標準化された定義の基礎として機能します。対照的に、テキストのレイアウトやセマンティクスは、ほとんどのワード プロセッサのファイル形式と同様に、純粋に機械が解釈可能な形式で定義されることがよくあります (参考文献 [10] を参照)

XML に基づく生物医学分野用のマークアップ言語は、研究者間のデータ交換を強化するために数十年にわたって開発されてきました。バイオインフォマティック シーケンス マークアップ言語 (BSML) (参考文献 [11] を参照)、システム生物学マークアップ言語 (SBML) [12] 、セル マークアップ言語 (Cell ML) [13] 、およびニューロ マークアップ言語 (Neuro-ML) [14] は次のとおりです。マークアップ言語の例。多型マイニングおよびアノテーション プログラム (PolyMAPr) [15] は SNP を中心としており、dbSNP [16] やがん遺伝子解剖プロジェクト (CGAP) などの公共データベースのマイニング、アノテーション、機能分析を実現しようとしています (参考文献 [17] を参照) 、および日本語の一塩基多型 (JSNP) (参考文献 [18] を参照) をプログラミングを通じて解析します。

世界中の多くの施設で蓄積されたSNPデータを活用するには、SNPデータを交換するための基準を定義する必要があります。必要な標準には、データ形式の定義とメッセージの交換が含まれます。マークアップ言語は、このニーズに対処するための合理的な選択肢です。ゲノムデータメッセージの処理に関しては、Health Level Seven Clinical Genomics Special Interest Group [19] が一般的なゲノムデータの臨床ユースケースをまとめています。 GSVML プロジェクトはこれらの取り組みに貢献しました。さらに、この作業には日本のミレニアム プロジェクトに基づいたユースケースが組み込まれています[20] 。これらの背景と調査に基づいて、この国際規格は GSVML のニーズと要件を明らかにし、国際標準化のための GSVML の仕様を提案します。

重要 — 本書の電子ファイルには、本書を正しく理解するために役立つと考えられる色が含まれています。したがって、ユーザーはこのドキュメントをカラー プリンタを使用して印刷することを検討する必要があります。

Introduction

In the current electronic world, there are multiple different types of data for healthcare, as shown in Figure 1. Besides clinical data and image data, as we move into this post genomic era, we are creating, internationally, overwhelming amounts of genomic data. The International Standards developing organizations are developing standards for these data; Health Level Seven develops standards for clinical data, DICOM and JPEG develop standards for image data. Genomic Sequence Variation Markup Language (GSVML) defines a standard for genomic data, especially human-related DNA variation data. The core target for the GSVML is the Single Nucleotide Polymorphism (SNP).

Figure 1 — Major data types of health care

Figure_1

In this post genomic era, the management of health-related data is becoming increasingly important to both genomic research and genome-based medicine (see reference [1]). Informational approaches to the management of clinical, image and genomic data are beginning to have as much worth as basic, bench top research. Nowadays there are many kinds of -omics data around the world awaiting effective utilization for human health. The hurdle that must be overcome to achieve this goal is the development of data format and message standards to support the interchange of -omics data. Genomic data include genome sequence, DNA sequence variation and other genome-based data such as expression data, proteomics data, molecular network, etc. As an entry point, this International Standard focuses on the DNA sequence variation. Among the DNA sequence variation, the SNP is selected as the core object because of the following three reasons.

  • a) SNP is the most researched sequence variation for human health.
  • b) In the current context, vast amounts of SNP data exist around the world in various types of data formats. As a result of the recent explosion in SNP research, the vast amounts of experimental data have been accumulating in many databases in various types of data formats. These data await utilization in drug discovery, clinical diagnosis and clinical research.
  • c) SNP data already have a great impact for human applications such as gene-based medicine and pharmacogenomics.

With a view to this context, the international community requires an interoperable format for the interchange of SNP data. Prior to the standardization development, we elucidated the need for data exchange among the human health-related facilities that have various types of data formats.

In the present circumstances, SNP is expected to be a key to understanding human response to external stimuli such as any kind of alien invasions, therapies, and the environmental interactions (see reference [2]). Bacterial infection is an example of alien invasion, and the responses to the infections are different amongst individuals. According to the therapy, the side effects to a drug are different amongst the patients. These responses are also different in various environments.

The Markup Language is a set of symbols and rules for their use when doing a markup of a document (see reference [3]). The first standardized markup language was Standard Generalized Markup Language (SGML), [4] which has strong similarities with troff and nroff text layout languages supplied with Unix systems. Hypertext Markup Language (HTML) is based on SGML [5] . Extensible Markup Language (XML) is a pared-down version of SGML, designed especially for Web documents (see reference [6]). XML acts as the basis for Extensible HTML (XHTML) [7] and Wireless Markup Language (WML) (see reference [8]) and for standardized definitions of system interaction such as Simple Object Access Protocol (SOAP) [9] . By contrast, text layout or semantics are often defined in a purely machine-interpretable form, as in most word processor file formats (see reference [10]).

Markup Language for the biomedical field, based on XML, has been in development for several decades to enhance the exchange data among researchers. Bioinformatic Sequence Markup Language (BSML) (see reference [11]), Systems Biology Markup Language (SBML) [12] , Cell Markup Language (Cell ML) [13] , and Neuro Markup Language (Neuro-ML) [14] are examples of markup languages. Polymorphism Mining and Annotation Programs (PolyMAPr) [15] is centric on SNP and tries to achieve mining, annotation and functional analysis of public databases such as dbSNP [16] , the Cancer Gene Anatomy Project (CGAP) (see reference [17]), and Japanese single nucleotide polymorphisms (JSNP) (see reference [18]) through programming.

To utilize the accumulated SNP data among many facilities around the world, standards for the interchange of SNP data must be defined. The required standards include defining a data format and exchange messages. Markup Language is the reasonable choice to address this need. As for genomic data message handling, Health Level Seven Clinical Genomics Special Interest Group [19] has summarized clinical use cases for general genomic data. The GSVML project has contributed to these efforts. Additionally, this work incorporated use cases based on the Japanese Millennium Project [20] . Based on these contexts and investigations, this International Standard elucidates the needs and the requirements for GSVML and then proposes the specification of GSVML for the international standardization.

IMPORTANT — The electronic file of this document contains colours which are considered to be useful for the correct understanding of the document. Users should therefore consider printing this document using a colour printer.