この規格 プレビューページの目次
※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。
3 用語と定義
この文書の目的のために、ISO/IEC 2382-37 および以下に示されている用語と定義が適用されます。
ISO と IEC は、標準化に使用する用語データベースを次のアドレスで維持しています。
3.1
差別的なパフォーマンスの尺度
DPM
異なる人口統計グループ間の生体認証システムの測定値の違い
例:
異なる人口統計グループ間の誤り率の違い [偽一致率 (FMR)、偽非一致率 (FNMR) など
注記 1: ISO/IEC 2382-37:2022 用語 37.09.28 では、 「人口動態の差異」を「生体認証システムの結果」の差異として定義しています。この定義は、本書の「差分パフォーマンス測定」に相当します。この文書では、 差別的扱い (3.7) や 比較スコア差異測定 (3.4) など、他の種類の人口統計上の差異も認識しています。
3.2
偽陰性微分パフォーマンス
FND
複数の人口統計グループにわたって計算された偽陰性エラー率の差
例:
グループ A の誤った不一致率が 10%、グループ B の誤った不一致率が 20% の場合、偽陰性の差は、数学的な差として見た場合は 10 パーセント ポイント、数学的な比として見た場合は 2 の係数になります ( 6.4を参照)
3.3
誤検知の差パフォーマンス
FPD
複数の人口統計グループにわたって計算された誤検知エラー率の差
例:
グループ A の誤一致率が 1% で、グループ B の誤一致率が 3% の場合、誤検知の差は、数学的な差として見ると 2 パーセント ポイント、数学的な比として見ると 3 の係数になります (6.4 を参照)
3.4
比較スコアの差尺度
比較スコア分析によって表される、異なる人口統計グループ間のシステム測定値の違い
例:
異なる人口統計グループの平均比較スコアの違い (6.9 を参照)
3.5
結合された比較スコアの差の尺度
異なる人口統計グループで観察された交配スコア分布の統計の違い
例:
グループ A の被験者の平均交配比較スコアが 10 で、グループ B の被験者の平均交配比較スコアが 5 の場合、交配比較スコアの差の尺度は平均差 5 です (6.9 を参照)
3.6
非嵌合比較スコア差尺度
異なる人口統計グループで観察された非交配スコア分布の統計の違い
例:
グループ A の被験者の非交配比較スコアの平均が 10 で、グループ B の被験者の非交配比較スコアの平均が 5 の場合、非交配比較スコアの差の尺度は平均差 5 です (6.9 を参照) 。
3.7
差別的な扱い
人口統計グループに基づいて、生体認証登録者または生体認証取得対象に対するさまざまなアクション セット
例:
1 つの機械学習モデルが男性の顔を認識し、別の機械学習モデルが女性の顔を認識するシステムを実装します。
3.8
カテゴリ別人口統計変数
名目上または通常的に記述される個人の人口統計学的変数
例:
データ主体の性別または民族。
3.9
継続的な人口動態変数
観察可能、測定可能であり、必ずしも個別のカテゴリーに制約されない、個人の人口統計学的変数
例:
個人の年齢、または個人の肌の明るさなどの表現型特性の測定。
3.10
交差人口統計変数
複数のカテゴリ別人口統計変数の組み合わせである人口統計グループ。
例:
データ主体の性別、民族。
3.11
人口グループ
データ主体に関連付けられた連続的、カテゴリ的、または交差的な人口統計変数の値
例:
自分の性別を女性であると自己報告したデータ主体は、性別のカテゴリ人口統計変数として女性の人口統計グループを持ちます。
3.12
人口統計参照データベース
人口統計上の変数とグループの注釈が付けられた生体認証リファレンスで構成されるデータベース
3.13
総合的な公平性の尺度
AEM
差分パフォーマンスの複数の測定値を総合的な差分パフォーマンスの総計に結合するパフォーマンス測定値
3.14
信頼区間
統計量T 0およびT 1を区間限界として使用し、 P [ T 0 < θ < T 1 ] ≥ 1 – αを保持するパラメーターθの区間推定量 ( T 0、 T1 )
注記 1:特に明記されていない限り、統計的有意性のしきい値αは 0.05 であり、これはパラメーターが区間制限内にある 95% の確率に相当します。
[出典:ISO 3534-1:2006, 1.28, 修正済み - 元の項目への注記は削除され、新しい項目への注記 1 に置き換えられました。]
3.15
影響の大きさ
観察された差の大きさの統計的尺度
例 1:
2 つの人口統計グループ間の誤った不一致率の数学的な 20 パーセント ポイントの差 (例: 5% 対 25%)
例 2:
2 つの人口統計グループ間の誤った不一致率の数学的比率は 5 (例: 5% 対 25%)
参考文献
| 1 | ISO 3534-1:2006, 統計 — 語彙と記号 — Part 1: 一般的な統計用語と確率で使用される用語 |
| 2 | ISO/IEC TR 22116, 情報技術 - 生体認証システムのパフォーマンスにおける人口統計的要因の差異的影響に関する研究 |
| 3 | ISO/IEC 19795-1, 情報技術 — 生体認証パフォーマンスのテストとレポート — Part 1: 原則とフレームワーク |
| 4 | ジニ C, Variabilità e mutabilità、Tipogディ P. クッピーニ、1912 年。 |
| 5 | 食品医薬品局。臨床試験における人種および民族データの収集: 業界および食品医薬品局スタッフ向けのガイダンス。メリーランド州シルバースプリング: 2018 [オンライン https://www.fda.gov/media/75453/download から入手できます。 |
| 6 | クラリス、P.アレウェーターズ、K.ランブレヒト、R. Barel, A. 肌の色の測定: chromameter®、dermaspectrometer®、mexameter® の 3 つの機器の比較。研究皮膚学のジャーナル。 2000, , 230-23 |
| 7 | Cook, C.、Howard, J.、Sirotin, Y.、Tipton, J.、Vemury, A. 顔認識における人口統計効果と画像取得への依存性: 11 の商用システムの評価。バイオメトリクス、行動、アイデンティティ科学に関する IEEE トランザクション (T-BIOM) 。 2019, 1 (1), pp. 32-41. |
| 8 | Dean, A.、Morris, M.、Stufken, J.、Bingham, D.、実験の設計と分析のハンドブック。 2015年。 |
| 9 | G rother P. 顔認識ベンダー テスト (FRVT) Part 8: 人口統計上の差異の概要。米国国立標準技術研究所の機関間レポート 8429 [オンライン以下から入手可能: https://nvlpubs.nist.gov/nistpubs/ir/2022/NIST.IR.8429.ipd.pdf |
| 10 | G rother P.、N gan M.、 Hanaoka K. 顔認識ベンダー テスト (FRVT) Part 3: 人口統計効果。米国国立標準技術研究所の機関間レポート 8280 [オンライン以下から入手可能: https://nvlpubs.nist.gov/nistpubs/ir/2019/NIST.IR.8280.pdf |
| 11 | Howard, J.、Sirotin, Y.、Tipton, J.、および Vemury, AR 画像ベースの自己報告皮膚表現型指標の信頼性と妥当性。生体認証、行動、アイデンティティ科学に関する IEEE トランザクション (T-BIOM) 。 2021, 3(4), pp.550-56 |
| 12 | H oward J.、 Sirotin Y.、 Tipton J.、 Vemary A. 商用顔認識アルゴリズムにおいて人種と性別の特徴がアイデンティティをどの程度決定するかを定量化する。国土安全保障省のテクニカルペーパーシリーズ[オンライン以下から入手可能: https://www.dhs.gov/sites/default/files/publications/21_0922_st_quantifying-commercial-face-recognition-gender-and-race_updated.pdf |
| 13 | H oward J.、 Laird E.、 Sirotin Y.、 Rubin R.、 Tipton J.、V mumry AR による顔認識アルゴリズムの提案された公平性モデルの評価。 th パターン認識国際会議 (ICPR)、バイオメトリクスの公平性に関するワークショップの議事録。 2022年。 |
| 14 | Shuckers, M. 生体認証における計算手法: パフォーマンス評価のための統計的手法。シュプリンガー サイエンス & ビジネス メディア、2010 年。 |
| 15 | Weatherall, I.、Coombs, BD cielab 色空間値による肌の色の測定。研究皮膚学のジャーナル。 1992, 9, 468-473-23 |
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO/IEC 2382-37 and the following apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
3.1
differential performance measure
DPM
difference in biometric system measures across different demographic groups
EXAMPLE:
Differences in error rates [e.g. False Match Rate (FMR), False Non-Match Rate (FNMR)] between different demographic groups.
Note 1 to entry: ISO/IEC 2382-37:2022 term 37.09.28 defines “demographic differential” as the difference in “outcome of a biometric system”. This definition is equivalent to this document’s “differential performance measure”. This document also recognizes other kinds of demographic differentials, such as differential treatment (3.7) and comparison score differential measure (3.4) .
3.2
false negative differential performance
FND
difference in false negative error rates calculated across multiple demographic groups
EXAMPLE:
If Group A’s false non-match rate is 10 %, and Group B’s false non-match rate is 20 %, the false negative differential is 10 percentage points if viewed as a mathematical difference or a factor of 2 if viewed as a mathematical ratio (see 6.4).
3.3
false positive differential performance
FPD
difference in false positive error rates calculated across multiple demographic groups
EXAMPLE:
If Group A’s false match rate is 1 %, and Group B’s false match rate is 3 %, the false positive differential is 2 percentage points if viewed as a mathematical difference or a factor of 3 if viewed as a mathematical ratio (see 6.4).
3.4
comparison score differential measure
difference in system measures across different demographic groups represented through comparison score analysis
EXAMPLE:
Differences in mean comparison scores for different demographic groups (see 6.9).
3.5
mated comparison score differential measure
difference in the statistics of mated score distributions observed for different demographic groups
EXAMPLE:
If the mean mated comparison score for subjects in Group A is 10 and the mean mated comparison score for subjects in Group B is 5, then the mated comparison score differential measure is a mean difference of 5 (see 6.9).
3.6
non-mated comparison score differential measure
difference in the statistics of non-mated score distributions observed for different demographic groups
EXAMPLE:
If the mean non-mated comparison score for subjects in Group A is 10 and the mean non-mated comparison score for subjects in Group B is 5, then the non-mated comparison score differential measure is a mean difference of 5 (see 6.9).
3.7
differential treatment
different set of actions for a biometric enrolee or biometric capture subject based on their demographic group
EXAMPLE:
Implementing a system in which one machine learning model recognizes male faces and a different machine learning model recognizes female faces.
3.8
categorical demographic variable
demographic variable of an individual that is nominally or ordinally described
EXAMPLE:
A data subject’s gender or ethnicity.
3.9
continuous demographic variable
demographic variable of an individual that is observable, measurable and not necessarily constrained to discrete categories
EXAMPLE:
An individual’s age or the measurement of a phenotypic trait, such as an individual’s skin lightness.
3.10
intersectional demographic variable
demographic group that is the combination of multiple categorical demographic variables.
EXAMPLE:
A data subject’s gender-ethnicity.
3.11
demographic group
value of a continuous, categorical or intersectional demographic variable associated with a data subject
EXAMPLE:
A data subject that has self-reported their gender as female has a demographic group of female for the categorical demographic variable of gender.
3.12
demographic reference database
database comprising biometric references annotated with demographic variables and groups
3.13
aggregate equitability measure
AEM
performance measure that combines multiple measures of differential performance into an aggregate measure of overall differential performance
3.14
confidence interval
interval estimator (T0, T1) for the parameter θ with the statistics T0 and T1 as interval limits and for which it holds that P[T0 < θ < T1] ≥ 1 – α
Note 1 to entry: Unless otherwise stated, the threshold for statistical significance, α, is 0.05, which equates to a 95 % probability that the parameter is within the interval limit.
[SOURCE:ISO 3534-1:2006, 1.28, modified — original Notes to entry have been removed and replaced by a new Note 1 to entry.]
3.15
effect magnitude
statistical measure of the size of an observed differential
EXAMPLE 1:
A mathematical difference of 20 percentage points in false non-match rates between two demographic groups (e.g. 5 % vs. 25 %).
EXAMPLE 2:
A mathematical ratio of 5 between false non-match rates between two demographic groups (e.g. 5 % vs. 25 %).
Bibliography
| 1 | ISO 3534-1:2006, Statistics — Vocabulary and symbols — Part 1: General statistical terms and terms used in probability |
| 2 | ISO/IEC TR 22116, Information technology — A study of the differential impact of demographic factors in biometric recognition system performance |
| 3 | ISO/IEC 19795-1, Information technology — Biometric performance testing and reporting — Part 1: Principles and framework |
| 4 | Gini C, Variabilità e mutabilità, Tipogr. di P. Cuppini, 1912. |
| 5 | Food and Drug Administration. Collection of Race and Ethnicity Data in Clinical Trials: Guidance for Industry and Food and Drug Administration Staff. Silver Spring, MD: 2018 [online]. Available from: https://www.fda.gov/media/75453/download . |
| 6 | Clarys, P.; Alewaeters, K.; Lambrecht, R.; Barel, A. Skin color measurements: comparison between three instruments: the chromameter®, the dermaspectrometer® and the mexameter®. Journal of investigative dermatology. 2000, 6 (4), 230-238. |
| 7 | Cook, C., Howard, J., Sirotin, Y., Tipton, J., Vemury, A. Demographic Effects in Facial Recognition and their Dependence on Image Acquisition: An Evaluation of Eleven Commercial Systems. IEEE Transactions on Biometrics, Behaviour and Identity Science (T-BIOM). 2019, 1 (1), pp. 32-41. |
| 8 | Dean, A., Morris, M., Stufken, J., Bingham, D., Handbook of Design and Analysis of Experiments. 2015. |
| 9 | Grother P. Face Recognition Vendor Test (FRVT) Part 8: Summarizing Demographic Differentials. National Institute of Standards and Technology Interagency Report 8429 [online]. Available from: https://nvlpubs.nist.gov/nistpubs/ir/2022/NIST.IR.8429.ipd.pdf |
| 10 | Grother P., Ngan M., Hanaoka K. Face Recognition Vendor Test (FRVT) Part 3: Demographic Effects. National Institute of Standards and Technology Interagency Report 8280 [online]. Available from: https://nvlpubs.nist.gov/nistpubs/ir/2019/NIST.IR.8280.pdf |
| 11 | Howard, J., Sirotin, Y., Tipton, J. and Vemury, A.R. Reliability and validity of image-based and self-reported skin phenotype metrics. IEEE Transactions on Biometrics, Behavior, and Identity Science (T-BIOM). 2021, 3(4), pp. 550-560. |
| 12 | Howard J., Sirotin Y., Tipton J., Vemury A. Quantifying the Extent to Which Race and Gender Features Determine Identity in Commercial Face Recognition Algorithms. Department of Homeland Security Technical Paper Series [online]. Available from: https://www.dhs.gov/sites/default/files/publications/21_0922_st_quantifying-commercial-face-recognition-gender-and-race_updated.pdf |
| 13 | Howard J., Laird E., Sirotin Y., Rubin R., Tipton J., Vemury A.R. Evaluating Proposed Fairness Models for Face Recognition Algorithms. Proceedings of 26th International Conference on Pattern Recognition (ICPR), Workshop on Fairness in Biometrics. 2022. |
| 14 | Shuckers, M. Computational methods in biometric authentication: statistical methods for performance evaluation. Springer Science & Business Media, 2010. |
| 15 | Weatherall, I., Coombs, B.D. Skin color measurements in terms of cielab color space values. Journal of investigative dermatology. 1992, 99 (4), 468-473-238. |