ISO 21393:2021 ゲノミクス情報学— Omics Markup Language(OML) | ページ 3

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

序章

このポストゲノム時代において、健康関連データの管理は、オミクス研究とオミクスベースの医療の両方にとってますます重要になっています。 [1]臨床データ、画像データ、およびオミクス データの管理に対する情報アプローチは、基礎的なベンチトップ研究と同じくらいの価値を持ち始めています。現在の電子世界には、図1に示すように、ヘルスケアのためのさまざまな種類のデータがあります。また、現在、世界中にはさまざまな種類のオミクスデータがあり、人々の健康のために有効に活用されることが期待されています。臨床オミクスデータの交換をサポートするデータ形式とメッセージ標準の開発が必要です。オミクスデータには、オミクス配列、配列変異およびその他の発現データ、プロテオミクスデータ、分子ネットワークなどが含まれます。このドキュメントでは、エントリーポイントとして、データ交換に焦点を当てています。

現在、オミクスは、あらゆる種類のエイリアンの侵入、治療、環境相互作用などの外部刺激に対する人間の反応を理解するための鍵となることが期待されています. [2]細菌感染はエイリアンの侵入の一例であり、感染に対する反応は個人によって異なります。治療法によって、薬の副作用は患者さんによって異なります。これらの応答もさまざまな環境で異なります。近年、これらのオミクス研究が爆発的に増加した結果、膨大な量の実験データがさまざまなデータ形式で多くのデータベースに蓄積されています。これらのデータは、創薬、臨床診断、および臨床研究で使用されるのを待っています。

マークアップ言語は、ドキュメントのマークアップを行うときに使用する記号と規則のセットです。 [3]最初に標準化されたマークアップ言語は、Unix システムで提供される troff および nroff テキスト レイアウト言語と強い類似性を持つ Generalized Markup Language (SGML) [4]の ISO 8879 でした。ハイパーテキスト マークアップ言語 (HTML) は SGML に基づいています。 [5] Extensible Markup Language (XML) は、特に Web ドキュメント用に設計された、SGML の簡素化されたバージョンです。 [6] XML は、Extensible HTML (XHTML) [7]および Wireless Markup Language (WML) [8]と、Simple Object Access Protocol (SOAP) などのシステム対話の標準化された定義の基礎として機能します。 [9]対照的に、テキストのレイアウトやセマンティクスは、ほとんどのワープロ ファイル形式と同様に、純粋に機械解釈可能な形式で定義されることがよくあります[10]

XML に基づく生物医学分野のマークアップ言語は、研究者間のデータ交換を強化するために数十年にわたって開発されてきました。 Bioinformatic Sequence Markup Languag, [11] Systems Biology Markup Languag, [12] Cell Markup Languag, [13] 、および Neuro Markup Language (Neuro-ML) [14]は、マークアップ言語の例です。 . Polymorphism Mining and Annotation Programs (PolyMAPr) [15]は SNP を中心に、dbSNP [16] CGAP [17]および JSNP [18]として公開データベースのマイニング、アノテーション、機能解析をプログラミングによって実現しようとしています。 ISO 25720 ゲノム シーケンス バリエーション マークアップ言語 (GSVML) は、臨床ゲノム シーケンス バリエーション データ交換のための最初の標準化された ML です。

Omics Markup Language (OML) の目的は、人間の健康におけるオミックスの標準化されたデータ交換フォーマットを提供することです。

最近のオミクス研究の拡大により、さまざまな形式の多くのデータベースに大量のデータが保存されています。これらのデータを管理・分析・活用するためには、データ交換の標準化が必要です。オミクス、特にトランスクリプトミクス、プロテオミクス、シグナルオミクス、メタボロミクスが分子ベースの医療とファーマコゲノミクスにおいて重要な意味を持っていることを考えると、データ交換フォーマットは、オミクスベースの臨床研究とオミクスベースの医療を強化するための鍵となります。

最近では、オミクス研究とオミクスベースの医療の両方にとって情報アプローチがより重要になっています。オミクスデータの管理は、この新しい時代の基礎研究データと同じくらい重要です。世界中にはさまざまなオミクスデータがあり、このオミクスデータを人間の健康のために有効に活用する時代が来ています。このデータを効果的かつ効率的に使用するには、オミクス データの相互運用可能な相互交換をグローバルに許可する標準を開発する必要があります。これらの標準では、データ形式と、このデータをグローバルに交換および共有するために使用されるメッセージを定義する必要があります。

OML は、あらゆる種類の臨床オミクス データの基本フレームです。各オミクス カテゴリは、特定のアドオン コンポーネント パーツとして導入されます。例として、Whole Genome sequence Markup Language は、全ゲノム シーケンス データの特定のアドオン コンポーネント パーツになり、Genomic Sequence Variation Markup Language は、ゲノム シーケンス バリエーション データの特定のアドオン コンポーネント パーツになります。

国際的に蓄積されたオミクスデータを活用するためには、オミクスデータの交換のための基準を定義する必要があります。これらの標準では、データ形式を定義し、メッセージを交換する必要があります。マークアップ言語は、このニーズに対応する合理的な選択です。オミクス データ メッセージの処理に関しては、Health Level Seven® 1 Clinical Genomics Work Group [19]が、一般的なオミクス データの臨床ユース ケースをまとめています。 OML プロジェクトは、これらの取り組みに貢献しています。さらに、この作業には、日本のミレニアム プロジェクトに基づくユース ケースが組み込まれています。 [20]これらの文脈と調査に基づいて、この文書は OML のニーズと要件を解明し、その後、解明されたニーズと要件に基づいて国際標準化のための OML の仕様を提案します。

Introduction

In this post genomic era, the management of health-related data is becoming increasingly important to both omics research and omics-based medicine.[1] Informational approaches to the management of clinical, image and omics data are beginning to have as much worth as basic, bench top research. In the current electronic world, there are multiple different types of data for healthcare as shown in Figure 1. Besides, nowadays there are many kinds of omics data around the world awaiting effective utilization for human health. The development of data format and message standards to support the interchange of clinical omics data is necessary. Omics data includes omics sequence, sequence variation and other expression data, proteomics data, molecular network, etc. As an entry point, this document focuses on the data exchange.

In the present circumstances, omics is expected to be a key to understand human response to external stimuli such as any kinds of alien invasions, therapies, and the environmental interactions.[2] Bacterial infection is an example of alien invasion, and the responses to the infections are different among the individuals. According to the therapy, the side effects to a drug are different among the patients. These responses are also different in various environments. As a result of recent explosive amount of these omics researches, the huge amounts of experimental data have been accumulating in many databases in various types of data formats. These data are waiting to be used in drug discovery, clinical diagnosis, and clinical researches.

The Markup Language is a set of symbols and rules for their use when doing a markup of a document.[3] The first standardized markup language was ISO 8879 onGeneralized Markup Language (SGML)[4] which has strong similarities with troff and nroff text layout languages supplied with Unix systems. Hypertext Markup Language (HTML) is based on SGML.[5] Extensible Markup Language (XML) is a pared-down version of SGML, designed especially for Web documents.[6] XML acts as the basis for Extensible HTML (XHTML)[7] and Wireless Markup Language (WML)[8] and for standardized definitions of system interaction such as Simple Object Access Protocol (SOAP).[9] By contrast, text layout or semantics are often defined in a purely machine-interpretable form, as in most word processor file formats[10].

Markup Language for the biomedical field, based on XML, has been in development for several decades to enhance the exchange data among researchers. Bioinformatic Sequence Markup Language (BSML),[11] Systems Biology Markup Language (SBML),[12] Cell Markup Language (Cell ML),[13] and Neuro Markup Language (Neuro-ML)[14] are examples of markup languages. Polymorphism Mining and Annotation Programs (PolyMAPr)[15] is centric on SNP and tries to achieve mining, annotation, and functional analysis of public database as dbSNP,[16] CGAP,[17] and JSNP[18] through programming. ISO 25720 Genomic Sequence Variation Markup Language (GSVML) is the first standardized ML for clinical genomic sequence variation data exchange.

The purpose of Omics Markup Language (OML) is to provide a standardized data exchange format for omics in human health.

The recent expansion in omics research has produced large quantities of data held in many databases with different formats. Standardization of data exchange is necessary for managing, analysing and utilizing these data. Considering that omics, especially transcriptomics, proteomics, signalomics and metabolomics, has significant meaning in molecular-based medicine and pharmacogenomics, the data exchange format is key to enhancing omics-based clinical research and omics-based medicine.

Recently, informational approaches have become more important to both omics research and omics-based medicine. The management of omics data is as critical as basic research data in this new era. There are many kinds of omics data around the world, and the time has come to effectively use this omics data for human health. To use this data effectively and efficiently, standards should be developed to permit the interoperable interchange of omics data globally. These standards should define the data format as well as the messages that would be used to interchange and share this data globally.

OML is a base frame of all kinds of clinical omics data. Each omics category will be introduced as a specific add on component part. As an instance, Whole Genome sequence Markup Language will be a specific add on component part for whole genome sequence data, and Genomic Sequence Variation Markup Language will be a specific add on component part for genomic sequence variation data.

To utilize the internationally accumulated omics data, standards for the interchange of omics data should be defined. These standards should define a data format and exchange messages. Markup Language is a reasonable choice to address this need. As for omics data message handling, Health Level Seven® 1 Clinical Genomics Work Group[19] has summarized clinical use cases for general omics data. The OML project has contributed to these efforts. Additionally, this work incorporated use cases based on the Japanese millennium project.[20] Based on these contexts and investigations, this document elucidates the needs and the requirements for OML and after then proposes the specification of OML for the international standardization based on the elucidated needs and the requirements.