この規格 プレビューページの目次
※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。
序章
システムポリシーに干渉することを意図した方法で、人工物または人間の特性をバイオメトリックキャプチャサブシステムに提示することは、提示攻撃と呼ばれます。 ISO/IEC 30107 シリーズは、プレゼンテーション攻撃の自動検出技術を扱っています。これらの手法は、プレゼンテーション攻撃検出 (PAD) メカニズムと呼ばれます。
バイオメトリック認識の場合と同様に、PAD メカニズムは偽陽性および偽陰性のエラーの影響を受けます。偽陽性のエラーは、善意のプレゼンテーションを攻撃のプレゼンテーションとして誤って分類し、正当なユーザーにフラグを立てたり不便を与えたりする可能性があります。偽陰性のエラーは、プレゼンテーション攻撃 (攻撃プレゼンテーションとも呼ばれます) を善意のプレゼンテーションとして誤って分類し、セキュリティ侵害につながる可能性があります。
したがって、PAD の特定の実装を使用するかどうかの決定は、アプリケーションの要件と、セキュリティ、証拠の強度、および効率に関するトレードオフの考慮に依存します。
このドキュメントの目的は次のとおりです。
- バイオメトリック PAD のテストとレポートに関連する用語を定義する
- 指標を含むバイオメトリック PAD のパフォーマンス評価の原則と方法を指定する。
このドキュメントは、PAD メカニズムの評価を実施しようとしているベンダーまたはテスト ラボを対象としています。
統計分析のための生体認証性能試験の用語、実践、および方法論は、ISO および Common Criteria によって標準化されています。他人受入率 (FAR)、本人拒否率 (FRR)、および登録失敗率 (FTE) は、生体認証システムのパフォーマンスを特徴付けるために広く使用されています。生体認証性能試験の用語、実践、および統計分析の方法論は、生体認証性能試験の概念と PAD メカニズム試験の概念との間には根本的な違いがあるため、PAD メカニズムの評価には部分的にしか適用できません。これらの違いは、次のように分類できます。
- a) 統計的有意性
バイオメトリック パフォーマンス テストでは、ターゲット ユーザー グループを代表する、統計的に有意な数の被験者を使用します。被験者を追加したり、まったく異なるグループを使用したりしても、誤り率が大きく変わることはないと予想されます。
PAD テストでは、多くの生体認証モダリティが、多数または不確定な数の潜在的なプレゼンテーション攻撃機器種 (PAIS) によって攻撃される可能性があります。このような場合、考えられるすべてのプレゼンテーション攻撃手段 (PAI) の包括的なモデルを用意することは非常に困難であるか、不可能ですらあります。したがって、評価のための代表的な PAIS のセットを見つけることは不可能である可能性があります。したがって、PAI の 1 つのセットの測定された誤り率は、別のセットに適用できると仮定することはできません。
PAIS は、テストの系統的変動の原因を示します。 PAI が異なれば、エラー率も大きく異なる可能性があります。さらに、任意の PAIS 内で、PAI シリーズのインスタンス間でランダムな変動があります。統計的に有意なテストに必要なプレゼンテーションの数は、関心のある PAIS の数に比例します。各 PAIS 内で、PAD エラー率の推定に関連する不確実性は、テストされたアーティファクトの数と個人の数によって異なります。
例 1
指紋バイオメトリクスでは、多くの有力なアーティファクト材料が知られていますが、指紋の特徴をバイオメトリック キャプチャ デバイスに提示できる任意の材料または材料混合物が候補となります。経年、厚さ、水分、温度、混合率、製造方法などのアーチファクト プロパティが PAD メカニズムの出力に大きな影響を与える可能性があるため、現在の材料を使用して何万もの PAIS を定義することは簡単です。適切な統計分析には数十万回のプレゼンテーションが必要であり、その場合でも、結果として得られるエラー率を次の一連の新しい資料に転送することはできません。
PAI 表示も、テストの変動の原因となる可能性があります。圧力、位置、さらには PAI プレゼンターの特性の変化が、PAD のパフォーマンスに影響を与える可能性があります。
- b) システム間のテスト結果の比較可能性
生体認証パフォーマンス テストでは、生体認証サンプルの同じコーパスに基づくアプリケーション固有のエラー率を使用して、異なる生体認証システムまたは異なる構成を比較できます。結果を使用して、システム パフォーマンスを明確に比較および評価できます。対照的に、エラー率を使用して PAD メカニズムのベンチマークを行う場合、結果の解釈は目的のアプリケーションに大きく依存する可能性があります。
例 2
10 個の PAIS (100 回提示) を使用した特定のテスト シナリオでは、システム1は攻撃提示の 90% を検出し、システム2は 85% を検出します。システム1は 9 PAIS のすべてのプレゼンテーションを検出しますが、10 番目の PAIS のすべてのプレゼンテーションを検出できません。システム2は、すべての PAIS の 85% を検出します。どちらが良いですか?セキュリティ分析では、システム1はシステム2よりも劣っています。10 番目の PAIS を明らかにすると、攻撃者はこの方法を使用して常にキャプチャ デバイスを無効にできるようになるからです。ただし、攻撃者が 10 番目のPAISを使用するのを防ぐことができれば、システム1の方がシステム2よりも優れています。
- c) 協力
多くの生体認証性能テストは、被験者が協力するアクセス制御などのアプリケーションに対応しています。誤った操作によるエラーは、意図ではなく、知識、経験、または指導の欠如の問題です。グループ内の重大な非協力的な行動は、基礎となる「バイオメトリック モデル」の一部ではなく、決定されたエラー率をバイオメトリック パフォーマンス テストにはほとんど役に立たなくします。
PAD テストには、行動が非協力的な被験者が含まれます。攻撃者は、生体認証システムの弱点を見つけて悪用し、意図した操作を回避または操作しようとします。テスト担当者の経験と知識に基づくプレゼンテーション攻撃の種類によって、攻撃の成功率が劇的に変化する可能性があります。したがって、協調行動を代表する方法でエラー率を測定するテスト手順を定義することは困難な場合があります。
- d) 自動テスト
生体認証性能テストでは、多くの場合、同等の品質のデバイスまたはセンサーのデータベースを使用して比較アルゴリズムをテストできます。パフォーマンスは、ISO/IEC 19795-1 で指定されているように、以前に収集されたサンプルのコーパスを使用して技術評価で測定できます。
PAD テストでは、バイオメトリック キャプチャ デバイスからのデータ (デジタル化された指紋画像など) では、評価を行うには不十分な場合があります。 PAD メカニズムを備えたバイオメトリック システムには、多くの場合、バイオメトリック特性の特定のプロパティを検出するための追加のセンサーが含まれています。したがって、特定のバイオメトリック システムまたは構成用に以前に収集されたデータベースは、必ずしも別のバイオメトリック システムまたは構成に適しているとは限りません。
ハードウェアまたはソフトウェアのわずかな変更でも、以前の測定が役に立たなくなる可能性があります。多変量同期 PAD 信号を保存し、自動テストで再生することは、一般的に非現実的です。したがって、多くの場合、自動テストは PAD メカニズムのテストと評価のオプションではありません。
- e) 品質と性能
バイオメトリクス パフォーマンス テストでは、パフォーマンスは通常、バイオメトリクス データの品質に直接関係しています。一般に、低品質のサンプルではエラー率が高くなりますが、高品質のサンプルのみを使用したテストではエラー率が低くなります。そのため、パフォーマンスを改善するために品質指標がよく使用されます (アプリケーションによって異なります)
PAD テストでは、生体認証の品質が低いとアーティファクトが失敗する可能性がありますが、一般に、アーティファクトから特定の品質レベルを想定する理由はありません。アーティファクトからのサンプルは、人間のバイオメトリック特性からのサンプルよりも優れた品質を示すことができます。攻撃者のスキルのモデルがなければ、(少なくともセキュリティ評価では) 攻撃者where 常に可能な限り最高の品質を使用するという「最悪のケース」のシナリオを想定することは有効であるように思われます。そのようにして、必要なテストの数を同時に減らしながら、少なくとも特定のテストセットの保証された最小検出率を決定することができます。次に、Common Criteria 評価での慣行と同様に、セキュリティ レベルを評価するために、成功したアーティファクトの攻撃の可能性 (必要な品質のための努力と専門知識) を評価することが重要です。
a) から e) の違いに基づいて、PAD メカニズムに関連するエラー率とメトリックに関する次の一般的なコメントを導き出すことができます。
- 評価では、PAIS が個別に分析/評価されます。
- PAIS の 0% 以外の攻撃プレゼンテーション分類エラー率は、PAI が成功できることを証明するだけです。別のテスターは、より高いまたはより低い攻撃プレゼンテーション分類エラー率を達成する可能性があります。さらに、関連する資料とプレゼンテーション パラメータを特定するためのトレーニングにより、この PAIS の攻撃プレゼンテーション分類エラー率が増加する可能性があります。テスターの経験と知識、および必要なリソースの可用性は、PAD テストの重要な要素であり、比較やパフォーマンス分析を行う際に考慮されます。
PAD メカニズムのエラー率は、特定の PAD メカニズムの特定のコンテキスト、PAIS のセット、アプリケーション、テスト アプローチ、およびテスターによって決まります。 PAD メカニズムのエラー率は、同様のテスト間で必ずしも比較できるわけではなく、PAD メカニズムのエラー率は、異なるテスト機関で必ずしも再現できるとは限りません。
Introduction
The presentation of an artefact or of human characteristics to a biometric capture subsystem in a fashion intended to interfere with system policy is referred to as a presentation attack. The ISO/IEC 30107 series deals with techniques for the automated detection of presentation attacks. These techniques are called presentation attack detection (PAD) mechanisms.
As is the case for biometric recognition, PAD mechanisms are subject to false positive and false negative errors. False positive errors wrongly categorize bona fide presentations as attack presentations, potentially flagging or inconveniencing legitimate users. False negative errors wrongly categorize presentation attacks (also known as attack presentations) as bona fide presentations, potentially resulting in a security breach.
Therefore, the decision to use a specific implementation of PAD will depend on the requirements of the application and consideration of the trade-offs with respect to security, evidence strength and efficiency.
The purpose of this document is as follows:
- to define terms related to biometric PAD testing and reporting, and
- to specify principles and methods of performance assessment of biometric PAD, including metrics.
This document is directed at vendors or test laboratories seeking to conduct evaluations of PAD mechanisms.
Biometric performance testing terminology, practices and methodologies for statistical analysis have been standardized through ISO and Common Criteria. False accept rate (FAR), false reject rate (FRR) and failure to enrol rate (FTE) are widely used to characterize biometric system performance. Biometric performance testing terminology, practices and methodologies for statistical analysis are only partially applicable to the evaluation of PAD mechanisms due to significant fundamental differences between biometric performance testing concepts and PAD mechanism testing concepts. These differences can be categorized as follows.
- a) Statistical significance
Biometric performance testing utilizes a statistically significant number of test subjects, representative of the targeted user group. Error rates are not expected to vary significantly when adding more test subjects or using a completely different group.
In PAD testing, many biometric modalities can be attacked by a large or indeterminate number of potential presentation attack instrument species (PAIS). In these cases, it is very difficult or even impossible to have a comprehensive model of all possible presentation attack instruments (PAIs). Hence, it could be impossible to find a representative set of PAIS for the evaluation. Therefore, measured error rates of one set of PAIs cannot be assumed to be applicable to a different set.
PAIS present a source of systematic variation in a test. Different PAIs can have significantly different error rates. Additionally, within any given PAIS, there is random variation across instances of the PAI series. The number of presentations required for a statistically significant test scales linearly with the number of PAIS of interest. Within each PAIS, the uncertainty associated with a PAD error rate estimate depends on the number of artefacts tested and the number of individuals.
EXAMPLE 1
In fingerprint biometrics, many potent artefact materials are known, but any material or material mixture that can present fingerprint features to a biometric capture device is a possible candidate. Since artefact properties such as age, thickness, moisture, temperature, mixture rates and manufacturing practices can have a significant influence on the output of the PAD mechanism, it is easy to define tens of thousands of PAIS using current materials. Hundreds of thousands of presentations would be needed for a proper statistical analysis, and even then, resulting error rates cannot be transferred to the next set of new materials.
PAI presentation can also be source of variation in a test. Variation in pressure, position or even PAI presenter characteristics can impact PAD performance.
- b) Comparability of test results across systems
In biometric performance testing, application-specific error rates based on the same corpus of biometric samples can be used to compare different biometric systems or different configurations. Results can be used to unambiguously compare and assess system performance. By contrast, when using error rates to benchmark PAD mechanisms, interpreting results can be highly dependent on the intended application.
EXAMPLE 2
In a given testing scenario with 10 PAIS (presented 100 times), System1 detects 90 % of attack presentations and System2 detects 85 %. System1 detects all presentations for 9 PAIS but fails to detect all presentations with the 10th PAIS. System2 detects 85 % of all PAIS. Which is better? In a security analysis System1 would be worse than System2, because revealing the 10th PAIS would orient an attacker such that they could use this method to defeat the capture device all the time. However, if attackers could be prevented from using the 10th PAIS, System1 would be better than System2, because individual rates indicate that it is possible to overcome System2 with all PAIS.
- c) Cooperation
Many biometric performance tests address applications such as access control in which subjects are cooperative. Errors due to incorrect operation are an issue of a lack of knowledge, experience or guidance rather than intent. Significant uncooperative behaviour in a group is not part of the underlying “biometric model” and would render the determined error rates almost useless for biometric performance testing.
PAD tests include subjects whose behaviour is not cooperative. Attackers will try to find and exploit any weakness of the biometric system, circumventing or manipulating its intended operation. Presentation attack types, based on the experience and knowledge of the tester, can change the success rates for an attack dramatically. Hence it can be difficult to define testing procedures that measure error rates in a fashion representative of cooperative behaviour.
- d) Automated testing
In biometric performance testing, it is often possible to test comparison algorithms using databases from devices or sensors of similar quality. Performance can be measured in a technology evaluation using previously collected corpora of samples as specified in ISO/IEC 19795-1.
In PAD testing, data from the biometric capture device (e.g. digitized fingerprint images) can in some cases be insufficient to conduct evaluations. Biometric systems with PAD mechanisms often contain additional sensors to detect specific properties of a biometric characteristic. Hence, a database previously collected for a specific biometric system or configuration is not necessarily suitable for another biometric system or configuration.
Even slight changes in the hardware or software could make earlier measurements useless. It is generally impractical to store multivariate synchronized PAD signals and replay them in automated testing. Therefore, automated testing is often not an option for testing and evaluating PAD mechanisms.
- e) Quality and performance
In biometric performance testing, performance is usually linked directly to biometric data quality. Low-quality samples generally result in higher error rates while a test with only high-quality samples will generally result in lower error rates. Quality metrics are therefore often used to improve performance (dependent on the application).
In PAD testing, even though low biometric quality can cause an artefact to be unsuccessful, there is no reason to assume a certain quality level from artefacts in general. Samples from artefacts can exhibit better quality than samples from human biometric characteristics. Without a model of attacker skill, it seems valid (at least in a security evaluation) to assume a “worst case” scenario where the attacker always uses the best possible quality. That way, one can at least determine a guaranteed minimal detection rate for the specific test set while reducing the number of necessary tests at the same time. It is then a matter of rating the attack potential of successful artefacts (effort and expertise for the needed quality) in order to assess the security level, as is the practice in Common Criteria evaluations.
Based on the differences in a) through e), the following general comments regarding error rates and metrics related to PAD mechanisms can be derived.
- In an evaluation, PAIS are analysed/rated separately.
- Attack presentation classification error rates other than 0 % for a PAIS only prove that the PAI can be successful. A different tester can potentially achieve a higher or lower attack presentation classification error rate. Further, training to identify the relevant material and presentation parameters could increase the attack presentation classification error rate for this PAIS. The experience and knowledge of the tester, as well as the availability of the necessary resources, are significant factors in PAD testing and are taken into account when conducting comparisons or performance analysis.
Error rates for PAD mechanisms are determined by the specific context of the given PAD mechanism, the set of PAIS, the application, the test approach, and the tester. Error rates for PAD mechanisms are not necessarily comparable across similar tests, and error rates for PAD mechanisms are not necessarily reproducible by different test laboratories.