ISO 18115-1:2023 表面化学分析 — 用語集 — Part 1: 一般用語と分光法で使用される用語 | ページ 25

この規格 プレビューページの目次

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

22 多変量解析に関する用語

22.1

分類

アルゴリズムを使用してオブジェクトを定義されたグループに割り当てる手順

注記 1:オブジェクトは通常、サンプルまたは 化学マップ (8.58) 内の位置です。

注記 2: このアルゴリズムは、定義されたオブジェクトのグループからのトレーニング データのセットを使用して確立され、その後、不特定のオブジェクトからのデータに適用されて、それらを定義されたオブジェクト グループに割り当てます。

22.2

クラスター分析

クラスタリング

同じグループ内のオブジェクトが他のグループのオブジェクトよりも互いに類似するようにオブジェクトをグループ化する手順

注記 1:オブジェクトは通常、サンプルまたは 化学マップ (8.58) 内の位置です。

注記 2:類似性とクラスターグループ間の境界を評価する基準は、特定のクラスター分析方法によって異なります。

22.3

多変量解析

MVA

2 つ以上の従属 変数に対する同時統計手順を含む分析 (22.7)

注記 1:多変量解析の重要な側面は、異なる変数間の依存関係であり、これにはそれらの共分散が関係する可能性があります。多変量解析は、より少数の統計変数を使用してデータを要約することにより、多数の従属変数を含む複雑なデータセットの解釈を簡素化します。

注記 2:多変量解析手法は、教師なし (探索的) 手法と教師あり手法という 2 つの大きなカテゴリに分類されます。教師なし手法は、データセットの傾向、 サンプル間の主な違い (22.6) 、スペクトル特徴間の主な共分散を特定するために使用されます。これらの方法には、 因子分析 (22.5) 、 PCA (22.14) 、 MAF 分析 (22.16) 、および MCR (22.17) が含まれます。教師あり手法は、予測、モデリング、キャリブレーション、および 分類に使用されます (22.1) 。これらの方法には、PCR, PLS (22.18) 、および DFA (22.15) が含まれます。

22.4

次元削減

高次元 データ行列 (22.8) 内の変数の数を減らす手順

注記 1:次元削減方法は、 特徴選択 (22.24) or 特徴抽出 (22.23) のいずれかに分類できます。

22.5

因子分析

データ行列 (22.8) ( X ) を、 スコア (22.11) 行列 ( T ) と 負荷 (22.12) の転置行列 ( P ' ) の積と 残差行列 (22.13) ( E ) に行列分解します。 )、データの次元を削減するために 係数 (22.10) を使用してデータセットの基礎となる構造を記述することを目的としています。

注 1:したがって、 X = TP ' + E となります。

注記 2: 因子分析法には、 PCA (22.14) 、 MCR (22.17) 、 PLS (22.18) 、および MAF 分析 (22.16) および他の多くの分析法が含まれます。

注記 3:因子分析で選択される因子の数は、データ行列のランクよりも小さい。

注記 4:因子分析は、因子が新しい軸を形成where データ空間の回転に相当します。 PCAの場合を除き、必ずしも直交性を保った回転とは限りません。

注5: 残差行列には因子分析モデルでは記述されないデータが含まれており、通常は ノイズが含まれていると想定されます (3.19) 。

22.6

サンプル

<多変量解析> 1 つ以上の実験システムで行われた一連の個別の測定

注記 1: 変数 (22.7) を参照。

注記 2:各サンプルからのデータは 、データ行列 (22.8) の行を占めます。

注記 3: 多変量解析 (22.3) におけるサンプルという用語は、測定対象の物理的実体を意味する、実際の分析における従来の使用法と混同してはならない。多変量解析では、単純に、各「サンプル」は独立した測定値を指します。これは、同じ物理サンプルでの繰り返し測定、異なる物理サンプルでの測定、または両方の組み合わせの場合があります。

22.7

変数

<多変量解析> サンプルに対して実験測定が行われる一連のチャネルまたはパラメータ (22.6)

注記 1: サンプル (22.6) を参照。

注記 2:各変数のデータは、 データ行列 (22.8) の列を占めます。

注記 3: SIMS (19.1) では、変数は 二次イオン (20.28) の質量または 飛行時間 (20.49) を指し、 XPS (11.6) では、変数は検出された光電子の結合エネルギーを指します。

22.8

データマトリックス

1 つ以上の 変数 (22.7) のK 値ここで, II K I K

注記 1: サンプルという用語は、システム上で行われる個々の測定を示し、変数という用語は、測定が行われるチャネルを示します。たとえば、 SIMS (19.1) では、変数は 二次イオン (20.28 ) の質量または飛行時間 (20.49) を指し、 XPS (11.6) では、変数は検出された光電子の結合エネルギーを指します。

注記 2:I ピクセル × J ピクセル × K 変数の次元を持つ多変量 マップ (8.57) の場合、多くの場合、データは 多変量解析 (22.3) の前に行列化されて、次元IJ × K のデータ行列を形成します。分析が完了すると、結果を元のマップの寸法に復元できます。

22.9

再現されたデータ行列

<因子分析> 因子分析 (22.5) モデルにおける スコア (22.11) 行列と 負荷 (22.12) 行列の転置の積

注記 1: 再現されたデータ行列は、特定の因子分析モデルの データ行列 (22.8) と 残差行列 (22.13) の差です。

注記 2: 再現されたデータ行列は、多くの場合、データ行列のノイズフィルターをかけた近似値であると考えられます。これは、残差行列に ノイズ (3.19) のみが含まれていると想定される場合に当てはまります。

10月22日

要素

<因子分析> 因子分析 (22.5) モデルのデータ空間内の軸。元のデータセットの要約または説明に寄与する基礎となるディメンションを表します。

注記 1: PCA (22.14) では、各因子は「主成分」と呼ばれます。最初の PCA 係数は「PC1」と呼ばれます。これは、PCA が MCR (22.17) などの他の因子分析手法とともに使用されるwhere 、「PCA 因子 1」および「MCR 因子 1」を参照することがより明確になるため、非推奨となります。

注記 2: MCR では、各要素は「純粋成分」と呼ばれます。ただし、成分および純粋成分という用語は、システムの実際の化学成分と混同される可能性があるため、推奨されません。

注記 3:各因子は、 負荷行列 (22.12) と スコア行列 (22.11) のセットに関連付けられており、それぞれ負荷行列とスコア行列の列を占めます。

11月22日

スコア

<因子分析> 因子 ( 22.10) へのサンプル (22.6) の投影

グレード 1 からエントリーまで: 負荷 (22.12) を参照してください。

注記 2: PCA (22.14) では、因子は直交しており、スコアは因子へのサンプルの直交投影です。

注記 3: MAF 分析 (22.16) および MCR (22.17) では、因子は一般に直交ではありません。因子のスコアは、その因子へのサンプルの斜投影になります。投影の方向は、他の要素の方向によって定義されます。

注記 4:因子のスコアは、その因子のサンプル間の関係を反映します。

注記 5: スコア (複数形) という用語は、特定の因子に関連するスコア行列の列全体を指します。スコア (単数形) という用語は、特定のサンプルを因子に投影したものです。

注記 6: MCR では、純粋成分濃度という用語は MCR スコアという用語と互換性があるため、推奨されません。分光法では、この用語は純粋な物質の濃度と混同されることがあります。

注記 7: SIMS (19.1) or XPS (11.6) から得られるデータなどの多変量スペクトルデータを分析する場合、因子のスコアは、その因子に関連する化学現象または物理現象の「疑似寄与」として解釈される可能性があります。 。スコアと濃度などの実際の物理的および化学的特性の間には、必ずしも単純な線形関係があるとは限りません。スコアを定量的に使用しようとする場合、キャリブレーション標準が不可欠であり、スコア内で観察されたパターンは、反復、相互検証、およびその他の統計テストを適切に使用して、統計的有意性についてテストする必要があります。

12月22日

積載量

<因子分析> 因子 (22.10) の 変数 (22.7) への射影

グレード 1 からエントリーまで: スコア (22.11) を参照してください。

注記 2: 負荷量 (複数形) という用語は、特定の因子に関連する負荷量行列の列全体を指します。用語負荷 (単数形) は、元の空間内の変数の因子への特定の寄与です。

注記 3:因子の負荷量は、その因子の変数間の関係を反映します。

注記 4: PCA (22.14) では、負荷は変数と特定の因子の間のコサイン角でもあります。

注記 5: MCR (22.17) では、純粋成分スペクトルという用語はローディングという用語と互換性があるため、非推奨とされています。分光法では、この用語は純粋な物質のスペクトルと混同されることがあります。

注記 6: SIMS (19.1) or XPS (11.6) から得られるような多変量スペクトルデータを分析する場合、因子の負荷量は「疑似スペクトル」として解釈でき、化学的または物理的解釈を開発するために使用できます。その要因のために。これらの疑似スペクトルの誤った解釈はよくある注意事項であるため、解釈を元のデータで検証することが重要です。

22.13

残差行列

<因子分析> 特定の 因子分析 (22.5) モデルの データ行列 (22.8) と 再現されたデータ行列 (22.9) の差

注記 1: 残差行列には因子分析モデルでは記述されないデータが含まれており、通常は ノイズが含まれていると想定されます (3.19) 。

22.14

主成分分析

PCA

データセット内の最大量の分散を連続的に捕捉する直交 因子 (22.10) の抽出を含む 因子分析 (22.5)

注記 1: MAF 分析 (22.16) を参照。

注記 2: PCA 係数は行列 Z ここで, Z は データ行列 (22.8) にデータ行列自体を乗算した行列転置です。データ行列内のデータは、 データ前処理 (22.22) を受けている場合も受けていない場合もあります。 PCA 因子は、関連する固有値によって降順に並べ替えられます。固有値は、関連する因子によって記述される分散の量です。 PCA 因子は直交します。

注記 3: PCA は、一連の SIMS (19.1) スペクトルの違いを調査する際に広範囲に使用されています。これは、例えば、傾向とクラスターの特定、類似した材料の識別とそれらの小さな変化の検出、選択された化学官能基に関連するスペクトル成分の特定、および 深さプロファイル内のスペクトル変化の分析に役立ちます (3.32) 。

注4: PCAは、個々のSIMS マップ(8.57) の分析に有用であり、2次元または3次元マップ内の化学的に異なる領域間のコントラストを識別および強化したり、マップの特徴に関連するスペクトル成分を識別したりするのに役立ちます。

22.15

判別分析

da

判別関数分析

DFA

判別関数を使用して サンプル (22.6) を 事前定義されたグループに分類するための教師付き多変量手法

注記 1: 判別関数は、各グループ内の分散を最小化しながら、異なるグループ間の分散を最大化する 係数 (22.10) です。 DFA 因子の 負荷 (22.12) を使用して、グループのメンバーシップを予測するのに最適な 変数の組み合わせ (22.7) に関する情報を提供できます。

注記 2: DFA は、多くの場合、 PCA (22.14) の後に多変量データセットに適用されます。これにより、多変量データから共線性が除去され、新しい予測子変数 (PCA スコア (22.11) ) が正規分布することが保証されます。この方法は主成分判別関数分析 (PC-DFA) と呼ばれます。

注記 3:独立した検証データセットを使用して予測の精度を評価し、モデルの校正データへの過剰適合を防ぐ場合に限り、DFA を校正と予測に使用できます。独立した検証セットがない場合は、相互検証が役立つ場合があります。ただし、独立したサンプルに対して行われた予測は慎重に扱う必要があります。

22.16

最大自己相関係数分析

MAF分析

多変量 マップ (8.57 ) の 因子分析 (22.5) 。これには、隣接するピクセル間の変動を最小限に抑えながら、マップ全体にわたる最大量の分散を連続的に取得する 因子 (22.10) の抽出が含まれます。

注記 1: PCA (22.14) を参照。

注2: MAFは行列 B ここで, B は 変数(22.7) に データ行列(22.8) 自体を乗算した行列転置であり、すべてシフトの共分散行列の逆行列が事前に乗算されています。地図。シフト マップは、1 ピクセルずつシフトされたデータ マトリックス自体のコピーからデータ マトリックスを減算することによって取得されます。

注記 3: MAF 分析は、個々の SIMS (19.1) イオン画像 (20.63) の分析に有用であり、イオン画像内の化学的に異なる領域間のコントラストを識別および強化したり、イオンに関連するスペクトル成分を識別したりするのに役立ちます。画像の特徴。

注記 4: MAF から取得された 荷重 (22.12) は、 データ スケーリング (22.30) とは独立しています。

注5: MAF分析は、SIMSイメージング 深さプロファイル(3.32) から得られる3次元イオン画像の分析に拡張することができる。

22.17

多変量曲線の解像度

MCR

非負行列因数分解

NMF

組成に関する事前情報がほとんどまたはまったくない場合に、多成分混合物を化学成分と寄与の線形和に分解するための 因子分析 (22.5)

注記 1: MCR 係数 (22.10) は、 負荷 (22.12) に非負性などの適切な制約を適用しながら、交互最小二乗法 (ALS) アプローチを使用して残差 行列 (22.13) を反復最小化することによって抽出されます。と スコア (22.11) 。 MCRは 、データ前処理(22.22)の有無にかかわらず、データ 行列(22.8) に対して実行することができる。 MCR 係数は直交である必要はありません。

注記 2:データ行列ごとに、MCR 係数は一意ではなく、初期推定値、解決される係数の数、適用される制約、および収束基準に依存します。

注記 3: 非負性制約を持つMCR は、物理的に意味のある化学成分のスペクトルおよび寄与に似た負荷およびスコアを取得するために SIMS (19.1) および XPS (11.6) で使用され、正の値を持つものとします。ただし、線形性の仮定は最初の近似にすぎず、実際の解析で重要となる可能性のある マトリックス効果 (3.10) 、トポグラフィー、検出器の飽和などの非線形効果は無視されます。

注記 4: MCR は、回転の曖昧性、乗算の曖昧性、および置換の曖昧性の影響を受ける可能性があります。後者の 2 つは些細なものと考えられますが、回転の曖昧さはより深刻な問題であり、通常、 マップ (8.57) 解析など、純粋なコンポーネント ピクセルが存在しない場合にデータに選択性が欠けている場合に発生します。

22.18

部分最小二乗

部分最小二乗回帰

お願いします

同じエンティティで測定された 2 つ以上の 変数セット (22.7) 間の関係を評価するための線形多変量回帰法

注記 1: PLS は、2 つの同時分解を使用して、予測変数の最大分散を説明する観察可能な変数の 因子 (22.10) (潜在変数) を見つけます。これにより、回帰から冗長な情報、つまり予測と相関しない観測データの大量の分散を説明する要素が削除されます。

注記 2: PLS は、独立した検証データセットを使用して予測の精度を評価し、校正データへのモデルの過剰適合を防ぐ場合に限り、校正と定量化に使用できます。独立した検証セットが存在しない場合、モデルに保持する PLS 因子の数を決定する際に相互検証が役立つ場合があります。ただし、独立した サンプル (22.6) に対して行われた予測は慎重に扱われます。

22.19

t 分布の確率的近傍埋め込み

t-SNE

非線形 次元削減 (22.4) 手法。結果として得られる低次元空間では、類似したオブジェクトが互いに接近し、異なる点がさらに離れている可能性が高くなります。

注記 1: t-SNE は、 where したペアの確率が高いオブジェクトのペアにわたる確率分布を構築することによって動作します。次に、低次元 マップ (8.57) を定義し、高次元マップと低次元マップの間のカルバック・ライブラー発散を最小限に抑えることによって、オブジェクトのペアの同様の確率分布を取得します。

注記 2: t-SNE プロットでは、クラスター化されていないオブジェクトであってもクラスターが表示されることがよくありますが、そのようなクラスターは選択したパラメーター化によって強く影響を受ける可能性があるため、t-SNE のパラメーターをよく理解する必要があります。

22.20

一様多様体近似と射影

UMAP

結果として得られる低次元空間内のオブジェクトの位置が高次元空間内のオブジェクトの位置と構造的に類似する 非線形次元削減 (22.4) 手法。

注 1: UMAP は、オブジェクトがローカルに接続されたリーマン多様体上に一様に分布しており、リーマン計量がローカルに一定またはほぼローカルに一定であると仮定して動作します。

22.21

人工ニューラルネットワーク

アン

ニューラルネットワーク

分散並列ローカル処理を利用し、複雑なグローバル動作を示すことができる人工ニューロンと呼ばれる単純な処理要素のネットワークで構成される計算モデル

注記 1: ANN の動作は、ニューロン間の接続とニューロンのパラメーター (入力の重みやバイアスなど) によって決定されます。

注記 2:適応型ネットワークでは、ニューロンのパラメータは学習 (トレーニング) フェーズ中に変更され、目的の出力が生成されます。

注記 3: ANN は、複雑な関係のモデル化、パターン認識、 分類 (22.1) 、データ処理、意思決定を含む幅広いアプリケーションで使用されます。

注記 4: ANN は、非線形システムのモデル化に特に役立ちます。

22.22

データの前処理

指定されたデータ分析処理前の生データの操作

注記 1: 前処理と前処理という用語は、多くの場合同じ意味で使用されますが、実験分析前のサンプル前処理/処理との混乱を避けるために、後者は推奨されません。

注記 2:データ前処理方法の 3 つの主要カテゴリ [ センタリング (22.25) 、 スケーリング (22.30) 、および 変換 (22.33) ] とは別に、データ前処理とは、質量を含む生データに対して実行されるその他の手順を指す場合があります。ビニングとピークの選択。多変量 マップ (8.57) の場合、これには、関心領域の選択とマップのフィルタリングまたはビニングも含まれる場合があります。

注記 3: すべてのデータ前処理方法には、データセット内の分散の性質に関するいくつかの仮定が含まれます。これらの仮定を理解し、関係するデータセットに適切であることが重要です。

注記 4:複数のデータ前処理方法を同じデータセットに適用できます。データの前処理の順序は重要であり、データセット内の分散の性質に関する仮定に影響を与える可能性があります。

22.23

特徴抽出

特徴の投影

高次元データを有益で冗長性のない特徴に変換する手順

注記 1:特徴抽出の最も一般的な形式は 因子分析 (22.5) です。

22.24

機能の選択

関連する変数または予測子のサブセットがモデル構築に使用するために選択される手順

注記 1:特徴選択方法は、相関がある変数または無関係な変数を特定し、情報を失わずに削除できることを目的としています。

22.25

センタリング

<データ前処理> データ行列 (22.8) 内の各 変数 (22.7) が、すべての サンプル (22.6) にわたる基準値の減算によって中心に配置されるデータ前処理 ( 22.22) 手順。

注記 1: スケーリング (22.30) および 変換 (22.33) を参照。

注記 2: 平均センタリング (22.26) と 中央値センタリング (22.27) は、 サンプルと原点の間の差異ではなく、サンプル間の差異を強調します。

注記 3: SIMS (19.1) および XPS (11.6) データの PCA (22.14) 、 PLS (22.18) 、および 判別分析 (22.15) では通常、センタリングが推奨されますここで, サンプル全体のピークの相対強度の方が重要です。強度ゼロからの絶対偏差よりも。センタリングは、正の値を持つ、物理的に意味のある成分スペクトルおよび寄与の分解に関する MCR (22.17) の非負性制約と互換性がありません。

注記 4: センタリングは通常、データ選択や スケーリング (22.30) などの他のデータ前処理方法の後に適用されます。

注記 5:すべてのデータ前処理方法は、分析目的に関するデータセット内の分散の性質についてのいくつかの仮定を暗示します。これらの仮定を理解し、関係するデータセットに適切であることが重要です。

22.26

センタリングを意味する

<データ前処理> データ行列 (22.8) 内の各 変数 (22.7) が、すべての サンプル (22.6) にわたる平均値の減算によって中心に配置されるデータ前処理 (22.22) 手順。

注記 1: センタリング (22.25) を参照。

注記 2:すべてのデータ前処理方法は、分析目的に関するデータセット内の分散の性質についてのいくつかの仮定を暗示します。これらの仮定を理解し、関係するデータセットに適切であることが重要です。

22.27

中央中央揃え

<データ前処理> データ前処理 (22.22) 手順。 データ行列 (22.8) 内の各 変数 (22.7) は、すべての サンプル (22.6) にわたる中央値の減算によって中心に配置されます。

注記 1: センタリング (22.25) を参照。

注記 2:すべてのデータ前処理方法は、分析目的に関するデータセット内の分散の性質についてのいくつかの仮定を暗示します。これらの仮定を理解し、関係するデータセットに適切であることが重要です。

22.28

正規化

<データ前処理> データ前処理 (22.22) で使用される スケーリング (22.30) メソッド。スケーリング行列は各 サンプル (22.6) の定数で構成されます。

注記 1: 分散スケーリング (22.32) 、 自動スケーリング (22.31) 、および ポアソン スケーリング (22.29) を参照。

注 2:スケーリング定数は、特定の 変数の値 (22.7) 、選択された変数の合計、またはサンプルのすべての変数の合計にすることができます。

注記 3: SIMS (19.1) では、SIMS スペクトル内の相対強度の方が絶対強度よりも再現性が高いため、機器条件から生じる 総イオン収量 (20.7) の差を補償するために正規化が一般的に使用されます。

注記 4: すべてのデータ前処理方法には、データセット内の分散の性質に関するいくつかの仮定が含まれます。これらの仮定を理解し、関係するデータセットに適切であることが重要です。

22.29

ポアソンスケーリング

<データ前処理> ポアソン統計に基づくデータの データ前処理 (22.22) で使用される スケーリング (22.30) メソッド。スケーリング行列は、平均サンプル強度の平方根と平方根を含む 2 つのベクトルの外積で構成されます。それぞれ平均スペクトルの

注記 1: 正規化 (22.28) および 分散スケーリング (22.32) を参照。

注記 2:ポアソン スケーリングは、検出器が線形性内で動作している SIMS (19.1) および XPS (11.6) の生データwhere のみ有効であり、他のデータ スケーリング方法と組み合わせて適用することはできません。

注記 3: ポアソン スケーリング は 、 データ行列 の 各要素が (22.8) にも 同じ実験の不確実性があります。 SIMS では、この実験の不確実性は検出器のポアソン計数統計によって支配される可能性があり、高強度ピークの方が低強度ピークより絶対測定の不確実性が高くなります。ポアソン スケーリングでは、ポアソン統計から生じる不確実性が平均計数強度に等しいという事実を使用して、生データから推定されるこの不確実性によって各スペクトルの各ピーク (つまり、データ行列の各要素) に重み付けされます。

注記 4:ポアソン スケーリングは、ピクセルあたりの カウント数 (3.18) が低いため、ポアソン カウント ノイズ (3.19) によって支配される可能性がある ToF-SIMS イオン画像 (20.63) に特に役立ちます。

注記 5:ポアソンスケーリングでは、PCA および MCR からの 荷重 (22.12) や スコア (22.11) などの多変量解析によって得られた結果を、ポアソンスケーリングされた空間から元の物理空間に変換するのが通例です。元のスケーリング ベクトルの乗算。

注記 6:ゼロによる除算を避けるために、ポアソン スケーリング係数に小さな定数を追加するのが通常です。

22:30

スケーリング

重み付け

<データ前処理> データ 行列 (22.8) をスケーリング行列で要素ごとに分割するデータ前 処理 (22.22) 手順

注記 1: センタリング (22.25) および 変換 (22.33) を参照。

注2:データ・スケーリングの一般的な方法は、 正規化 (22.28) 、 分散スケーリング (22.32) 、 自動スケーリング (22.31) 、および SIMS (19.1) データの場合は、 ポアソン・スケーリング (22.29) です 。

注記 3: データのスケーリングは、データの合計分散と各変数に含まれる相対分散の両方に影響を与える可能性があり、データの分析に偏りをもたらす可能性があります。

注記 4:データのスケーリングは、通常、適切なデータを選択した後、データのセンタリングの前に適用されます。

注記 5: すべてのデータ前処理方法には、データセット内の分散の性質に関するいくつかの仮定が含まれています。これらの仮定を理解し、関係するデータセットに適切であることが重要です。

22.31

オートスケーリング

<データ前処理> 分散 スケーリング (22.32) とそれに続く センタリング (22.25) の適用を含む データ前処理 (22.22) メソッド。

注記 1: 分散スケーリング (22.32) 、 正規化 (22.28) 、および ポアソン スケーリング (22.29) を参照。

注記 2:自動スケーリングは 、多変量解析 (22.3) における各変数の重要性を均等化し、一般に SIMS のピーク選択と組み合わせて適用されます。

注記 3: すべてのデータ前処理方法には、データセット内の分散の性質に関するいくつかの仮定が含まれます。これらの仮定を理解し、関係するデータセットに適切であることが重要です。

22.32

分散スケーリング

<データ前処理> スケーリング (22.30) メソッド。 データ前処理 (22.22) で使用されます。スケーリング行列は サンプル (22.6 ) にわたる各 変数 (22.7) の標​​準偏差で構成されます。

注記 1: 自動スケーリング (22.31) 、 正規化 (22.28) 、および ポアソン スケーリング (22.29) を参照してください。

注記 2: 分散スケーリングは、 平均センタリング (22.26) と組み合わせると自動スケーリングと呼ばれます。

注記 3:分散スケーリングは、 多変量解析 (22.3) における各変数の重要性を均等化し、一般に SIMS におけるピーク選択と組み合わせて適用されます。

注記 4: すべてのデータ前処理方法には、データセット内の分散の性質に関するいくつかの仮定が含まれます。これらの仮定を理解し、関係するデータセットに適切であることが重要です。

22.33

変身

<data preprocessing> データ 行列 (22.8) の各要素が定義された関数によって変換されるデータ 前処理 (22.22) 手順。

注記 1: センタリング (22.25) および スケーリング (22.30) を参照。

注記 2: 定義された関数の例は、対数と平方根です。

注記 3: 一次関数による変換は、スケーリングとセンタリングに相当します。

注記 4: すべてのデータ前処理方法には、データセット内の分散の性質に関するいくつかの仮定が含まれます。これらの仮定を理解し、関係するデータセットに適切であることが重要です。

参考文献

1ISO/IEC Guide 99, 計測学の国際語彙 — 基本概念および一般概念および関連用語 (VIM)
2ISO Guide 30:1992, 参考資料に関連して使用される用語と定義
3Mohr PJ, Taylor BN, Newell DB, CODATA Recommendation Values of the Fundamental Physical Constants: 2002, およびReviews of Modern Physics 、2005, Vol. 1, 1–107ページ
4Currie LA, 検出および定量化機能を含む分析方法の評価における命名法。純粋なアプリケーション。 Chem. 1995, 67 (10) pp. 1699-1723
5ISO 11843-6, 検出能力 - Part 6: 正規近似によるポアソン分布測定における臨界値と検出可能な最小値の決定方法
6ファノ U.、物理学。改訂 1954 年、95 ページ、1198-1200
7ベテ・ハ、アン。物理(ライプツィヒ)。 1930, 5, 325-400 ページ
8IUPAC, 化学用語大要。 (マクノート AD, ウィルキンソン A. 編)ブラックウェル、ロンドン、第 2 版、1997 年
9IUPAC, 化学用語大要、電子版、 https://goldbook.iupac.org/
10Gries WH, イオン注入標準物質の準備と認証 — 批判的なレビュー。純粋なアプリケーション。 Chem. 1992, 64 (4) pp. 545-574
11Murray KK, Boyd RK, Eberlin MN, Langley GJ, Li L, Naito Y 質量分析に関する用語の定義 (IUPAC 勧告 2013) Pure Applied Chem 2013, 85 pp. 1515-1609
12Weiland C.、Rumaiz AK, Pianetta P.、Woicik JC. 硬 X 線光電子分光法の最近の応用J.Vac 。化学技術A: 真空。表面フィルム 2016, 34 030801

22 Terms related to multivariate analysis

22.1

classification

procedure in which an algorithm is used to assign objects into defined groups

Note 1 to entry: The objects are typically samples or locations in a chemical map (8.58) .

Note 2 to entry: The algorithm is established using a set of training data from defined groups of objects and then applied to data from unspecified objects to assign them into the defined object groups.

22.2

cluster analysis

clustering

procedure in which objects are grouped in such a way that objects within the same group are more similar to each other than to those in other groups

Note 1 to entry: The objects are typically samples or locations in a chemical map (8.58) .

Note 2 to entry: The criteria for assessing similarity and the boundaries between cluster groups depends upon the specific cluster analysis method.

22.3

multivariate analysis

MVA

analysis involving a simultaneous statistical procedure for two or more dependent variables (22.7)

Note 1 to entry: An essential aspect of multivariate analysis is the dependence between different variables, which can involve their covariance. Multivariate analysis simplifies the interpretation of complex data sets involving a large number of dependent variables by summarizing the data using a smaller number of statistical variables.

Note 2 to entry: Multivariate analysis methods fall into two broad categories: unsupervised (or exploratory) methods and supervised methods. Unsupervised methods are used to identify trends in a data set, key differences between samples (22.6) , and key covariances between spectral features. These methods include factor analysis (22.5) , PCA (22.14) , MAF analysis (22.16) , and MCR (22.17) . Supervised methods are used for prediction, modelling, calibration, and classification (22.1) . These methods include PCR, PLS (22.18) , and DFA (22.15) .

22.4

dimensionality reduction

procedure in which the number of variables in a high dimensionality data matrix (22.8) is reduced

Note 1 to entry: Dimensionality reduction methods can be classified as either feature selection (22.24) or feature extraction (22.23) .

22.5

factor analysis

matrix decomposition of the data matrix (22.8) ( X ) into the product of the scores (22.11) matrix ( T ) and the transpose of the loadings (22.12) matrix ( P′ ), together with a residual matrix (22.13) ( E ), with the aims of describing the underlying structure of the data set using factors (22.10) in order to reduce the dimensionality of the data

Note 1 to entry: Hence, X = TP′ + E .

Note 2 to entry: Factor analysis methods include PCA (22.14) , MCR (22.17) , PLS (22.18) , and MAF analysis (22.16) as well as many others.

Note 3 to entry: The number of factors selected in factor analysis is smaller than the rank of the data matrix.

Note 4 to entry: Factor analysis is equivalent to a rotation in data space where the factors form the new axes. This is not necessarily a rotation that maintains orthogonality except in the case of PCA.

Note 5 to entry: The residual matrix contains data that are not described by the factor analysis model, and is usually assumed to contain noise (3.19) .

22.6

samples

<multivariate analysis> series of individual measurements made on one or more experimental systems

Note 1 to entry: See variables (22.7) .

Note 2 to entry: Data from each sample occupy a row in the data matrix (22.8) .

Note 3 to entry: The term sample in multivariate analysis (22.3) is not to be confused with the conventional use of the word in practical analysis, meaning a physical entity that is under measurement. In multivariate analysis, each “sample” simply denotes an independent measurement. This can be repeat measurements on the same physical sample, measurements on different physical samples, or a combination of both.

22.7

variables

<multivariate analysis> series of channels or parameters over which experimental measurements are made on the samples (22.6)

Note 1 to entry: See samples (22.6) .

Note 2 to entry: Data from each variable occupy a column in the data matrix (22.8) .

Note 3 to entry: In SIMS (19.1) , the variables refer to the mass or time of flight (20.49) of secondary ions (20.28) , and in XPS (11.6) , the variables refer to the binding energies of the photoelectrons detected.

22.8

data matrix

table of numbers, with I rows and K columns, containing experimental data obtained for I samples (22.6) over K values of one or more variables (22.7) ここで,I and K are integers

Note 1 to entry: The term samples denotes any individual measurements made on a system and the term variables denotes the channels over which the measurements are made. For example, in SIMS (19.1) , the variables refer to the mass or time of flight (20.49) of secondary ions (20.28) and, in XPS (11.6) , the variables refer to the binding energies of photoelectrons detected.

Note 2 to entry: For a multivariate map (8.57) with dimensions of I pixels × J pixels × K variables, the data are often matricized prior to multivariate analysis (22.3) to form a data matrix with dimensions IJ × K. On completion of the analysis, the results can be restored to the original map dimensions.

22.9

reproduced data matrix

<factor analysis> product of the scores (22.11) matrix and the transpose of the loadings (22.12) matrix in a factor analysis (22.5) model

Note 1 to entry: The reproduced data matrix is the difference between the data matrix (22.8) and the residual matrix (22.13) for a given factor analysis model.

Note 2 to entry: The reproduced data matrix is often considered to be the noise-filtered approximation of the data matrix. This is true if the residual matrix is assumed to contain noise (3.19) only.

22.10

factor

<factor analysis> axis in the data space of a factor analysis (22.5) model, representing an underlying dimension that contributes to summarizing or accounting for the original data set

Note 1 to entry: In PCA (22.14) , each factor is called a “principal component”. The first PCA factor is called “PC1”. This is deprecated where PCA is used along with other factor analysis techniques such as MCR (22.17) , when it becomes clearer to refer to “PCA factor 1” and “MCR factor 1”.

Note 2 to entry: In MCR, each factor is called a “pure component”. The terms component and pure component are deprecated, however, as they can be confused with real chemical components of the system.

Note 3 to entry: Each factor is associated with a set of loadings (22.12) and scores (22.11) , which occupies a column in the loadings and scores matrices, respectively.

22.11

scores

<factor analysis> projection of the samples (22.6) onto a factor (22.10)

Note 1 to entry: See loadings (22.12) .

Note 2 to entry: In PCA (22.14) , the factors are orthogonal and the scores are an orthogonal projection of the samples onto a factor.

Note 3 to entry: In MAF analysis (22.16) and MCR (22.17) , the factors are generally not orthogonal. The scores on a factor are then an oblique projection of the samples onto that factor. The direction of the projection is defined by the directions of the other factors.

Note 4 to entry: The scores on a factor reflect the relationships between samples for that factor.

Note 5 to entry: The term scores (plural) refers to a whole column in the scores matrix that relates to a particular factor. The term score (singular) is the projection of a particular sample onto the factor.

Note 6 to entry: In MCR, the term pure-component concentration is interchangeable with the term MCR score and is therefore deprecated. In spectroscopy, the term can be confused with the concentration of a pure material.

Note 7 to entry: When analysing multivariate spectral data such as those obtained from SIMS (19.1) or XPS (11.6) , the scores for a factor can be interpreted as a “pseudo-contribution” for the chemical or physical phenomena associated with that factor. There is not necessarily a simple linear relationship between the scores and real physical and chemical properties such as concentration. Calibration standards are essential in attempting to use the scores quantitatively, and any patterns observed in the scores shall be tested for statistical significance by the proper use of replicates, cross-validation, and other statistical tests.

22.12

loadings

<factor analysis> projection of a factor (22.10) onto the variables (22.7)

Note 1 to entry: See scores (22.11) .

Note 2 to entry: The term loadings (plural) refers to a whole column in the loadings matrix that relates to a particular factor. The term loading (singular) is the particular contribution of a variable in the original space to the factor.

Note 3 to entry: The loadings on a factor reflect the relationships between the variables for that factor.

Note 4 to entry: In PCA (22.14) , the loadings are also the cosine angles between the variables and a particular factor.

Note 5 to entry: In MCR (22.17) , the term pure-component spectrum is interchangeable with the term loading and is therefore deprecated. In spectroscopy, the term can be confused with the spectrum for a pure material.

Note 6 to entry: When analysing multivariate spectral data such as those obtained from SIMS (19.1) or XPS (11.6) , the loadings for a factor can be interpreted as “pseudo-spectra” and can be used to develop a chemical or physical interpretation for that factor. Since misinterpretation of these pseudo-spectra is a common caveat, it is important to verify any interpretation with the original data.

22.13

residual matrix

<factor analysis> difference between the data matrix (22.8) and the reproduced data matrix (22.9) for a given factor analysis (22.5) model

Note 1 to entry: The residual matrix contains data that are not described by the factor analysis model, and is usually assumed to contain noise (3.19) .

22.14

principal-component analysis

PCA

factor analysis (22.5) involving the extraction of orthogonal factors (22.10) that successively capture the largest amount of variance in the data set

Note 1 to entry: See MAF analysis (22.16) .

Note 2 to entry: PCA factors are eigenvectors of the matrix Z ここで, Z is the matrix transpose of the data matrix (22.8) multiplied by the data matrix itself. The data in the data matrix may, or may not, have undergone data preprocessing (22.22) . PCA factors are sorted by their associated eigenvalues in descending order. Eigenvalues are the amount of variance described by their associated factor. PCA factors are orthogonal.

Note 3 to entry: PCA has found extensive use in exploring differences in a series of SIMS (19.1) spectra. It is useful, for example, in identifying trends and clusters, discriminating between similar materials and detecting small variations in them, identifying spectral components associated with selected chemical functional groups, and the analysis of spectral changes within a depth profile (3.32) .

Note 4 to entry: PCA is useful for analysis of individual SIMS maps (8.57) and can aid in identifying and enhancing contrast between chemically different regions in a two- or three-dimensional map, and in identifying the spectral components associated with map features.

22.15

discriminant analysis

da

discriminant function analysis

DFA

supervised multivariate technique for classifying samples (22.6) into predefined groups using discriminant functions

Note 1 to entry: Discriminant functions are factors (22.10) that maximize the variance between different groups while minimizing the variance within each group. Loadings (22.12) on DFA factors can be used to provide information on the combination of variables (22.7) which is best for predicting group membership.

Note 2 to entry: DFA is often applied after PCA (22.14) to a multivariate data set. This removes collinearity from the multivariate data and ensures that the new predictor variables, which are PCA scores (22.11) , are distributed normally. This method is referred to as principal-component discriminant function analysis (PC-DFA).

Note 3 to entry: DFA can be used for calibration and prediction, provided that an independent validation data set is used to assess the accuracy of the prediction and guard against the over-fitting of the model to the calibration data. In the absence of an independent validation set, cross-validation can be useful. However, any predictions made on independent samples shall then be treated with caution.

22.16

maximum autocorrelation factor analysis

MAF analysis

factor analysis (22.5) of multivariate maps (8.57) , which involves the extraction of factors (22.10) that successively capture the largest amount of variance across the entire map while minimizing the variation between neighbouring pixels

Note 1 to entry: See PCA (22.14) .

Note 2 to entry: MAFs are the eigenvectors of matrix B ここで, B is the matrix transpose of the variables (22.7) multiplied by the data matrix (22.8) itself, all pre-multiplied by the inverse of the covariance matrix of the shift maps. The shift maps are obtained by subtracting the data matrix from a copy of itself that has been shifted by 1 pixel.

Note 3 to entry: MAF analysis is useful for analysis of individual SIMS (19.1) ion images (20.63) and can aid in identifying and enhancing contrast between chemically different regions in an ion image, as well as in identifying the spectral components associated with ion image features.

Note 4 to entry: Loadings (22.12) obtained from MAF are independent of data scaling (22.30) .

Note 5 to entry: MAF analysis can be extended to the analysis of three-dimensional ion images obtained from SIMS imaging depth profile (3.32) .

22.17

multivariate curve resolution

MCR

non-negative matrix factorization

NMF

factor analysis (22.5) for the decomposition of multicomponent mixtures into a linear sum of chemical components and contributions, when little or no prior information about the composition is available

Note 1 to entry: MCR factors (22.10) are extracted by the iterative minimization of the residual matrix (22.13) using an alternating least squares (ALS) approach, while applying suitable constraints, such as non-negativity, to the loadings (22.12) and scores (22.11) . MCR can be performed on the data matrix (22.8) with or without data preprocessing (22.22) . MCR factors are not required to be orthogonal.

Note 2 to entry: For each data matrix, MCR factors are not unique but are dependent on initial estimates, the number of factors to be resolved, constraints applied, and convergence criteria.

Note 3 to entry: MCR with non-negativity constraints is used in SIMS (19.1) and XPS (11.6) to obtain loadings and scores that resemble physically meaningful chemical-component spectra and contributions, which shall have positive values. However, the assumption of linearity is only a first approximation, and neglects nonlinear effects, such as matrix effects (3.10) , topography, and detector saturation, which can be important in practical analysis.

Note 4 to entry: MCR can be affected by rotational ambiguity, multiplicative ambiguity, and permutation ambiguity. The latter two are considered trivial but rotational ambiguity is a more severe problem and typically results when the data lack selectivity for example in map (8.57) analysis when there is no pure component pixel.

22.18

partial least squares

partial least squares regression

PLS

linear multivariate regression method for assessing relationships among two or more sets of variables (22.7) measured on the same entities

Note 1 to entry: PLS finds factors (22.10) (latent variables) in the observable variables that explain the maximum variance in the predicted variables, using the simultaneous decomposition of the two. It removes redundant information from the regression, i.e. factors describing large amounts of variance in the observed data that does not correlate with the predictions.

Note 2 to entry: PLS can be used for calibration and quantification, provided that an independent validation data set is used to assess the accuracy of the prediction and guard against the over-fitting of the model to the calibration data. In the absence of an independent validation set, cross-validation can be useful in determining the number of PLS factors to retain in the model. However, any predictions made on independent samples (22.6) shall then be treated with caution.

22.19

t-distributed stochastic neighbour embedding

t-SNE

A non-linear dimensionality reduction (22.4) technique where, in the resulting low dimensional space, similar objects have a high probability of being closer together and dissimilar points further apart.

Note 1 to entry: t-SNE operates by constructing a probability distribution over pairs of objects where similar pairs have high probability. It then defines a low dimensional map (8.57) and obtains a similar probability distribution of object pairs by minimising the Kullback-Leibler divergence between the high and the low dimensionality maps.

Note 2 to entry: t-SNE plots often seem to display clusters even for unclustered objects and such clusters can be influenced strongly by the chosen parameterization and therefore a good understanding of the parameters for t-SNE is necessary.

22.20

uniform manifold approximation and projection

UMAP

A non-linear dimensionality reduction (22.4) technique in which the location of objects in the resulting low dimensional space is structurally similar to that in the high dimensional space.

Note 1 to entry: UMAP operates by assuming that the objects are uniformly distributed on a locally connected Riemannian manifold and that the Riemannian metric is locally constant or approximately locally constant.

22.21

artificial neural network

ANN

neural network

computational model utilizing distributed, parallel local processing, and consisting of a network of simple processing elements called artificial neurons, which can exhibit complex global behaviour

Note 1 to entry: The behaviours of ANNs are determined by the connections between the neurons, and neuron parameters (e.g. input weights and bias).

Note 2 to entry: In an adaptive network, the neurons parameters are altered during the learning (training) phase to produce the desired output.

Note 3 to entry: ANNs are used in a wide range of applications including modelling complex relationships, pattern recognition, classification (22.1) , data processing, and decision-making.

Note 4 to entry: ANNs are particularly useful for modelling nonlinear systems.

22.22

data preprocessing

manipulation of raw data prior to a specified data analysis treatment

Note 1 to entry: The terms preprocessing and pretreatment are often used interchangeably, but the latter is deprecated to reduce confusion with sample preparation/treatment prior to experimental analysis.

Note 2 to entry: Aside from the three main categories of data preprocessing method [ centering (22.25) , scaling (22.30) , and transformation (22.33) ], data preprocessing can refer to any other procedures carried out on the raw data, including mass binning and peak selection. In the case of multivariate maps (8.57) , this can also include region-of-interest selection and map filtering or binning.

Note 3 to entry: All data preprocessing methods imply some assumptions about the nature of the variance in the data set. It is important that these assumptions are understood and appropriate for the data set involved.

Note 4 to entry: More than one data preprocessing method can be applied to the same data set. The order of data preprocessing is important and can affect assumptions made on the nature of variance in the data set.

22.23

feature extraction

feature projection

procedure in which high dimensionality data is transformed into informative and non-redundant features

Note 1 to entry: The most common form of feature extraction is factor analysis (22.5) .

22.24

feature selection

procedure in which a subset of relevant variables or predictors are selected for use in model construction

Note 1 to entry: Feature selection methods aim to identify variables that are either correlated or irrelevant and can be eliminated without loss of information.

22.25

centering

<data preprocessing> data preprocessing (22.22) procedure in which each variable (22.7) in the data matrix (22.8) is centered by the subtraction of a reference value across all samples (22.6)

Note 1 to entry: See scaling (22.30) and transformation (22.33) .

Note 2 to entry: Mean centering (22.26) and median centering (22.27) emphasize the differences between samples rather than differences between the samples and the origin.

Note 3 to entry: Centering is generally recommended for PCA (22.14) , PLS (22.18) , and discriminant analysis (22.15) of SIMS (19.1) and XPS (11.6) data ここで, relative intensities of peaks across the samples are more important than their absolute deviation from zero intensities. Centering is not compatible with non-negativity constraints in MCR (22.17) for the resolution of physically meaningful component spectra and contributions, which shall have positive values.

Note 4 to entry: Centering is generally applied after other data preprocessing methods, including data selection and scaling (22.30) .

Note 5 to entry: All data preprocessing methods imply some assumptions about the nature of the variance in the data set with respect to the analysis objective. It is important that these assumptions are understood and appropriate for the data set involved.

22.26

mean centering

<data preprocessing> data preprocessing (22.22) procedure in which each variable (22.7) in the data matrix (22.8) is centered by the subtraction of its mean value across all samples (22.6)

Note 1 to entry: See centering (22.25) .

Note 2 to entry: All data-preprocessing methods imply some assumptions about the nature of the variance in the data set with respect to the analysis objective. It is important that these assumptions are understood and appropriate for the data set involved.

22.27

median centering

<data preprocessing> data preprocessing (22.22) procedure in which each variable (22.7) in the data matrix (22.8) is centered by the subtraction of its median value across all samples (22.6)

Note 1 to entry: See centering (22.25) .

Note 2 to entry: All data preprocessing methods imply some assumptions about the nature of the variance in the data set with respect to the analysis objective. It is important that these assumptions are understood and appropriate for the data set involved.

22.28

normalization

<data preprocessing> scaling (22.30) method used in data preprocessing (22.22) in which the scaling matrix consists of a constant for each sample (22.6)

Note 1 to entry: See variance scaling (22.32) , auto scaling (22.31) , and Poisson scaling (22.29) .

Note 2 to entry: The scaling constant can be the value of a specific variable (22.7) , the sum of selected variables, or the sum of all variables for the sample.

Note 3 to entry: Normalization is commonly used in SIMS (19.1) to compensate for differences in total ion yield (20.7) that arise from instrumental conditions, since the relative intensities within a SIMS spectrum are more repeatable than absolute intensities.

Note 4 to entry: All data preprocessing methods imply some assumptions about the nature of the variance in the data set. It is important that these assumptions are understood and appropriate for the data set involved.

22.29

Poisson scaling

<data preprocessing> scaling (22.30) method used in the data preprocessing (22.22) of data based on Poisson statistics, in which the scaling matrix consists of the outer product of two vectors containing the square root of the mean sample intensity and the square root of the mean spectrum, respectively

Note 1 to entry: See normalization (22.28) and variance scaling (22.32) .

Note 2 to entry: Poisson scaling is only valid for SIMS (19.1) and XPS (11.6) raw data where the detector is operating within linearity, and cannot be applied in conjunction with other data-scaling methods.

Note 3 to entry: It has been shown that Poisson scaling often improves the results obtained in multivariate analysis (22.3) of SIMS data, including PCA (22.14) and MCR (22.17) , by scaling the data such that each element of the data matrix (22.8) has the same experimental uncertainty. In SIMS, this experimental uncertainty can be dominated by the Poisson counting statistics of the detector, such that high-intensity peaks have a higher absolute measurement uncertainty than low-intensity peaks. Poisson scaling weights each peak in each spectrum (i.e. each element of the data matrix) by this uncertainty, which is estimated from the raw data, using the fact that uncertainty arising from Poisson statistics is equal to the average counted intensity.

Note 4 to entry: Poisson scaling is especially valuable for ToF-SIMS ion images (20.63) , which have low counts (3.18) per pixel and can therefore be dominated by Poisson counting noise (3.19) .

Note 5 to entry: In Poisson scaling, it is customary to transform the results obtained by multivariate analysis, such as loadings (22.12) and scores (22.11) from PCA and MCR, from the Poisson scaled space back to the original physical space by the multiplication of the original scaling vectors.

Note 6 to entry: It is usual to add a small constant to the Poisson scaling factors to avoid division by zero.

22.30

scaling

weighting

<data preprocessing> data preprocessing (22.22) procedure in which the data matrix (22.8) is divided element-wise by a scaling matrix

Note 1 to entry: See centering (22.25) and transformation (22.33) .

Note 2 to entry: Common methods of data scaling are normalization (22.28) , variance scaling (22.32) , auto scaling (22.31) , and, in the case of SIMS (19.1) data, and Poisson scaling (22.29) .

Note 3 to entry: Data scaling can affect both the total variance of the data and the relative variance contained in each variable, and can introduce bias in the analysis of data.

Note 4 to entry: Data scaling is generally applied after appropriate data selection, prior to the centering of the data.

Note 5 to entry: All data preprocessing methods imply some assumptions about the nature of the variance in the data set. It is important that these assumptions are understood and appropriate for the data set involved.

22.31

auto scaling

<data preprocessing> data preprocessing (22.22) method involving the application of variance scaling (22.32) followed by centering (22.25)

Note 1 to entry: See variance scaling (22.32) , normalization (22.28) , and Poisson scaling (22.29) .

Note 2 to entry: Auto scaling equalizes the importance of each variable in multivariate analysis (22.3) and is commonly applied in conjunction with peak selection in SIMS.

Note 3 to entry: All data preprocessing methods imply some assumptions about the nature of the variance in the data set. It is important that these assumptions are understood and appropriate for the data set involved.

22.32

variance scaling

<data preprocessing> scaling (22.30) method, used in data preprocessing (22.22) , in which the scaling matrix consists of the standard deviation of each variable (22.7) across the samples (22.6)

Note 1 to entry: See auto scaling (22.31) , normalization (22.28) , and Poisson scaling (22.29) .

Note 2 to entry: Variance scaling is referred to as auto scaling when combined with mean centering (22.26) .

Note 3 to entry: Variance scaling equalizes the importance of each variable in multivariate analysis (22.3) , and is commonly applied in conjunction with peak selection in SIMS.

Note 4 to entry: All data preprocessing methods imply some assumptions about the nature of the variance in the data set. It is important that these assumptions are understood and appropriate for the data set involved.

22.33

transformation

<data preprocessing> data preprocessing (22.22) procedure in which each element in the data matrix (22.8) is transformed by a defined function

Note 1 to entry: See centering (22.25) and scaling (22.30) .

Note 2 to entry: Examples of defined functions are logarithm and square root.

Note 3 to entry: Transformation by a linear function is equivalent to scaling and centering.

Note 4 to entry: All data preprocessing methods imply some assumptions about the nature of the variance in the data set. It is important that these assumptions are understood and appropriate for the data set involved.

Bibliography

1ISO/IEC Guide 99, International vocabulary of metrology — Basic and general concepts and associated terms (VIM)
2ISO Guide 30:1992, Terms and definitions used in connection with reference materials
3Mohr P.J., Taylor B.N., Newell D.B., CODATA Recommended Values of the Fundamental Physical Constants: 2002, and Reviews of Modern Physics, 2005, Vol. 77, No. 1, pp. 1–107
4Currie L.A., Nomenclature in evaluation of analytical methods including detection and quantification capabilities. Pure Appl. Chem. 1995, 67 (10) pp. 1699–1723
5ISO 11843-6, Capability of detection — Part 6: Methodology for the determination of the critical value and the minimum detectable value in Poisson distributed measurements by normal approximations
6Fano U., Phys. Rev. 1954, 95 pp. 1198–1200
7Bethe H.A., Ann. Phys. (Leipzig). 1930, 5 pp. 325–400
8IUPAC, Compendium of Chemical Terminology. (McNaught A.D., Wilkinson A., eds.). Blackwell, London, Second Edition, 1997
9IUPAC, Compendium of Chemical Terminology, electronic version, https://goldbook.iupac.org/
10Gries W.H., Preparation and certification of ion-implanted reference materials — A critical review. Pure Appl. Chem. 1992, 64 (4) pp. 545–574
11Murray K.K., Boyd R.K., Eberlin M.N., Langley G.J., Li L., Naito Y., Definitions of terms relating to mass spectrometry (IUPAC Recommendations 2013) Pure Applied Chem. 2013, 85 pp. 1515-1609
12Weiland C., Rumaiz A.K., Pianetta P., Woicik J.C., Recent applications of hard X-ray photoelectron spectroscopy J. Vac. Sci. Tech. A: Vac. Surfaces Films 2016, 34 030801