ISO 16269-4:2010 データの統計的解釈—パート4:外れ値の検出と処理 | ページ 3

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

導入

外れ値の特定は、データの解釈における最も古い問題の 1 つです。外れ値の原因には、測定誤差、サンプリング誤差、サンプリング結果の意図的な過小報告または過大報告、誤った記録、データセットの誤った分布またはモデルの仮定、まれな観測値などが含まれます。

外れ値により、データ ソースまたは生成メカニズムに含まれる情報が歪められ、減少する可能性があります。製造業では、異常値の存在により、プロセス/製品設計および品質管理手順の有効性が損なわれます。考えられる外れ値は、必ずしも悪いものor 間違っているとは限りません。状況によっては、外れ値に重要な情報が含まれる可能性があるため、さらなる調査のために特定する必要があります。

測定プロセスからの外れ値の調査と検出は、プロセスのより良い理解と適切なデータ分析につながり、その後の推論の向上につながります。

外れ値に関する膨大な量の文献を考慮すると、外れ値の特定と処理に使用される適切な方法のサブセットを特定し、標準化することは国際社会にとって非常に重要です。 ISO 16269 のこの部分の実装により、企業や業界は加盟国や組織全体で実施されたデータ分析を認識できるようになります。

6 つの付録が提供されます。付録 A は、正規分布から取得したデータセット内の外れ値を検出する手順の検定統計量と臨界値を計算するためのアルゴリズムを提供します。付録 B, D, および E には、推奨手順を実装するために必要な表が記載されています。付録 C には、外れ値検出における修正箱ひげ図の構築の基礎となる表と統計理論が記載されています。付録 F は、ISO 16269 のこの部分で推奨される手順の構造化されたガイドとフローチャートを提供します。

Introduction

Identification of outliers is one of the oldest problems in interpreting data. Causes of outliers include measurement error, sampling error, intentional under- or over-reporting of sampling results, incorrect recording, incorrect distributional or model assumptions of the data set, and rare observations, etc.

Outliers can distort and reduce the information contained in the data source or generating mechanism. In the manufacturing industry, the existence of outliers will undermine the effectiveness of any process/product design and quality control procedures. Possible outliers are not necessarily badorerroneous. In some situations, an outlier may carry essential information and thus it should be identified for further study.

The study and detection of outliers from measurement processes leads to better understanding of the processes and proper data analysis that subsequently results in improved inferences.

In view of the enormous volume of literature on the topic of outliers, it is of great importance for the international community to identify and standardize a sound subset of methods used in the identification and treatment of outliers. The implementation of this part of ISO 16269 enables business and industry to recognize the data analyses conducted across member countries or organizations.

Six annexes are provided. Annex A provides an algorithm for computing the test statistic and critical values of a procedure in detecting outliers in a data set taken from a normal distribution. Annexes B, D and E provide the tables needed to implement the recommended procedures. Annex C provides the tables and statistical theory that underlie the construction of modified box plots in outlier detection. Annex F provides a structured guide and flow chart to the procedures recommended in this part of ISO 16269.