この規格 プレビューページの目次
※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。
導入
マイクロアレイ、次世代シーケンサー、その他の形式のハイスループット技術から生成されたデータを含むハイスループット遺伝子発現プロファイリングは、ゲノム研究にとって革新的な技術です。測定技術の革新とデータ分析面の進歩の両方の点で、この分野は急速に変化しています。ハイスループット発現技術により、複雑な生物学的システムや生物学的プロセス、疾患のメカニズム、疾患の予防と治療戦略を効率的に研究できるようになります。この技術は現在、生物医学研究コミュニティおよび業界で応用されており、疾患の特性評価、医薬品開発、精密医療において重要な役割を果たしています[ 1][2][3][4] 。
ハイスループット発現プロファイリングデータの生成、分析、解釈における課題と落とし穴は、科学コミュニティ内で対処する必要があります。患者の健康に影響を与えたり、改善したりするオミクスベースの製品の開発は、予想よりも遅れています。癌の前臨床研究における 53 件の論文の結果を再現しようとした研究では、結果のうち 6 件 (11%) のみが確認されました[ 5] 。誤解を招く論文は、偽の痕跡をたどる研究者に多大な時間、資金、労力を費やすことになります。これは企業や投資家に影響を及ぼし、実際の進歩から資金をそらして学術的発見を新薬に応用する際にさらなる障壁となっている[ 6][7] 。再現性のない結果や一貫性のない結果は、患者のリスクや死亡につながる可能性があります。再現不可能な報告が増えるにつれ、2014年に一部の科学雑誌がこの問題を報告した[ 8] [9] 。科学研究の再現性の重要な役割は広く認識されています[ 10] 。
オミクス研究における再現性の低さにはさまざまな理由が存在します。考えられる理由の 1 つは、オミクス データの複雑さです。データのサイズが非常に大きいため、データの品質や分析結果を手動で検査することは不可能な場合が多いという事実があります。したがって、ハイスループット発現実験の品質管理プロセスは、生物学的結果の再現性を向上させるために不可欠です。
MicroArray and Sequencing Quality Control (MAQC/SEQC) コンソーシアムは、マイクロアレイ、ゲノムワイド関連研究、次世代シーケンシングなどのゲノミクス技術の信頼性と再現性を評価するために 3 つのプロジェクト[ 11][12][13] を実施しました。これは、再現性と信頼性を高めるためにハイスループット技術から生成された大量のデータの品質管理と分析に特化した、大規模分析品質管理] (MAQC Society) の設立につながりました[ [ ]] これは、(i) サンプルから RNA まで、(ii) 発現プロファイリング、(iii) RNA-seq における品質管理メトリクス、(iv) 発現差のある遺伝子の検出、(v) 生物学的解釈、および (vi) スパイクインを含む、品質管理のためのハイスループット遺伝子発現データの信頼性と再現性に対応する発現データ評価のための品質メトリクスのコレクションを提供しています。同様の補完的な取り組みが他の場所でも報告されています[ 15] [16] 。
高品質のデータは、遺伝子発現研究から信頼できる生物学的結論を導き出すための基盤です。ただし、同じプラットフォームを異なる研究室で使用した場合、公開されたデータセットではデータ品質に大きな違いが観察されています。多くの場合、データの品質が低いのは、プラットフォームに固有の品質問題ではなく、データを生成した研究所の技術的熟練度の不足が原因でした。したがって、この文書では、臨床検査の品質を確立および監視するために、検査機関間の比較を通じて実行される全体的な能力の評価である技能検査が導入されています。
この文書は、(i) ハイスループット遺伝子発現の技術的パフォーマンスに対するコミュニティの理解を高めるために使用できます。 (ii) 研究者、商業団体、規制当局による適格な遺伝子発現データの相互運用性に利益をもたらし、(iii) 産業および臨床におけるハイスループット遺伝子発現の応用を改善し、(iv) FAIR (検索可能、アクセス可能、相互運用可能、再利用可能) データ原則に従った透明性のある報告の受け入れを[ し、(v ] 精密医療の発展に貢献します。
Introduction
High-throughput gene-expression profiling, including data generated from microarray, next-generation sequencing, and other forms of high-throughput technologies, is a revolutionary technology for genomic studies. It is a fast-moving field both in terms of innovation in measurement technology as well as advances on the data analysis side. High-throughput expression technology enables us to efficiently study complex biological systems and biological processes, mechanisms of diseases, and strategies for disease prevention and treatment. This technology is currently applied in the biomedical research community and industry, and plays an important role in disease characterization, drug development and precision medicine [1][2][3][4].
Challenges and pitfalls in the generation, analysis, and interpretation of high-throughput expression profiling data need to be addressed within the scientific community. Development of omics-based products that influence or improve patient health has been slower than expected. Studies attempting to reproduce findings of 53 papers in preclinical cancer research confirmed only 6 (11 %) of the results[5]. Misleading papers result in considerable expenditure of time, money and effort by researchers following false trails. This affects companies and investors, presenting yet another barrier for the translation of academic discoveries into new medicines by diverting funds away from real advances [6][7]. Irreproducible or inconsistent results could contribute to patient risk or death. As more and more irreproducible reports occur, some scientific journals reported the issue in 2014 [8][9]. The essential role of reproducibility of scientific research has been widely recognized [10].
There exist different reasons for low reproducibility in omics research. One possible reason is the complexity of omics data. The fact that the size of data is so massive that the manual inspection of data quality and analysis results is often impossible. Thus, quality control processes for high-throughput expression experiments are essential for the improvement of reproducibility of biological results.
The MicroArray and Sequencing Quality Control (MAQC/SEQC) consortia conducted three projects [11][12][13] to assess the reliability and reproducibility of genomics technologies, including microarrays, genome-wide association studies, and next-generation sequencing. This has led to the formation of the Massive Analysis and Quality Control Society (MAQC Society) [23], which is dedicated to quality control and analysis of massive data generated from high-throughput technologies for enhanced reproducibility and reliability [14]. It has provided a collection of quality metrics for expression data evaluation that corresponds to the reliability and reproducibility of high-throughput gene expression data for quality control, including (i) from sample to RNA, (ii) expression profiling, (iii) quality control metrics in RNA-seq, (iv) detecting differentially expressed genes, (v) biological interpretation, and (vi) spike-ins. Similar and complementary efforts have been reported elsewhere [15][16].
High-quality data are the foundation for deriving reliable biological conclusions from a gene-expression study. However, large differences in data quality have been observed in published data sets when the same platform was used by different laboratories. In many cases, poor quality of data was due not to the inherent quality problems of a platform but to the lack of technical proficiency of the laboratory that generated the data. Therefore, proficiency testing, an assessment of the overall competence performed through inter-laboratory comparisons, is introduced in this document to establish and monitor the quality of laboratory tests.
This document can be utilized to (i) enhance community’s understanding of technical performance of high-throughput gene expression; (ii) benefit the interoperability of qualified gene-expression data by researchers, commercial entities and regulatory bodies, (iii) improve the application of high-throughput gene expression in industry and clinics, (iv) promote the acceptance of transparent reporting according to the FAIR (findable, accessible, interoperable, and reusable) data principles [17], and (v) contribute to the development of precision medicine.