ISO/IEC TR 29198:2013 情報技術—バイオメトリクス—技術評価のための指紋データベースの難易度の特性評価と測定 | ページ 3

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

序章

最近、指紋認識システムまたはアルゴリズムのパフォーマンスをテストおよび評価する活動が世界中で増加しています。テスト活動は、公共部門、民間部門、および学術機関で行われ、通常は特定の機関専用のデータセットを使用します。これにより、異なるエンティティからのテスト結果の比較が複雑になります。テスト データセットの難易度を評価するための方法論は、異なる指紋データセットでのパフォーマンス評価結果の比較可能性を改善する必要があります。

ISO/IEC 19795-1:2006, 5.5.3 [11]は次のように述べています。

「技術評価では、すべてのアルゴリズムのテストは標準化されたコーパスで実行され、理想的には「ユニバーサル」センサー (つまり、テストされたすべてのアルゴリズムに等しく適したサンプルを収集するセンサー) によって収集されます。それにもかかわらず、このコーパスに対するパフォーマンスは、環境とそれが収集される人口の両方に依存します。」

異なるコーパスに対するテストに基づく評価結果の比較は、誤解を招く可能性があります。さらに、コーパスに低品質のデータを含めたり削除したりするためのポリシーは、組織ごとに異なる場合があり、同じコーパスに対してテストされた同じアルゴリズムが異なる結果を生成する可能性があります。また、異なるコーパスから得られた複数の評価結果を比較しようとすると、いくつかの困難があります。現在、パフォーマンス評価に使用されるデータセットの難易度を特徴付けるための確立された方法論はありません。データセットの難易度を特徴付ける能力は、同等の難易度であることが知られているデータを処理する際の運用精度の予測をサポートする必要があります。

このテクニカル レポートの目的は、相対的なサンプル品質、相対的な回転、変形、および印象間の重複などの要因に基づいて、指紋データセットが認識に対してどの程度「困難」または「ストレス」を与えるかを予測するためのガイダンスを提供することです。提供されたガイダンスは、技術評価で使用される指紋データセットの相対的な難易度レベルを特徴付け、測定するために使用できます。

このテクニカル レポートのガイダンスに従って、さまざまな組織のユーザーとシステム評価者は、データセットの難易度に応じて、他の組織のパフォーマンス評価結果を比較して文脈に入れることができます。

このテクニカル レポートでは、複数の指紋認識アルゴリズムからの比較結果またはスコアの分析に基づくデータセット生成方法を提案します。これらのデータセット生成方法は、特定の難易度のデータセットの作成と、相互運用性評価で使用するためのデータセットの作成をサポートします。

ISO/IEC TR 29794-4 [16]は、単一の指紋画像の品質スコアを表す方法を定義しています。このような品質スコアは、通常、マッチングの精度を予測します。対照的に、このテクニカル レポートは、参照サンプルとサンプル サンプル間の回転、変形、および共通領域の違いに関係しています。

注記他のバイオメトリクスシステムのパフォーマンスを予測するのに適した標準化された品質測定値についてより多くの情報が利用可能になるにつれて、他のモダリティが将来的に検討される可能性があります。

Introduction

Recently, there have been worldwide increasing activities in testing and evaluating the performance of fingerprint recognition systems or algorithms. Testing activities occur in public sector, private sector, and academic entities, typically using datasets exclusive to a given entity. This complicates comparison of test results from different entities. Methodologies for assessing the level of difficulty of test datasets should improve the comparability of performance evaluation results over different fingerprint datasets.

ISO/IEC 19795-1:2006, 5.5.3 [11] states:

“In a technology evaluation, testing of all algorithms is carried out on a standardized corpus, ideally collected by a “universal” sensor (i.e. a sensor that collects samples equally suitable for all algorithms tested). Nonetheless, performance against this corpus will depend on both the environment and the population in which it is collected.”

Comparison of evaluation results based on testing against different corpora may be misleading. Further, policies for inclusion or removal of low-quality data in a corpus may vary from organization to organization, such that the same algorithm tested against the same corpus may generate different results. There are also certain difficulties when trying to compare multiple evaluation results derived from different corpora. Currently there is no established methodology for characterizing the level of difficulty of datasets used in performance evaluation. The ability to characterize a dataset’s level of difficulty should support predictions of operational accuracy when processing data known to be of equivalent difficulty.

The purpose of this Technical Report is to provide guidance on predicting how “challenging“ or “stressing“ a fingerprint dataset is for recognition, based on factors such as relative sample quality, relative rotation, deformation, and overlap between impressions. The provided guidance can be used for characterizing and measuring the relative difficulty levels of fingerprint datasets used in technology evaluation.

Following the guidance in this Technical Report, users and system evaluators in different organizations will be able to compare and place into context the performance evaluation results of the other organizations according to the level of difficulty of its dataset.

This Technical Report proposes dataset generation methods based on analysis of comparison results or scores from multiple fingerprint recognition algorithms. These dataset generation methods support creation of datasets with specific levels of difficulty and creation of datasets for use in interoperability evaluations.

ISO/IEC TR 29794-4 [16] defines methods for expressing the quality score of a single fingerprint image. Such quality scores are typically predictive of matching accuracy. This Technical Report, by contrast, is concerned with differences in rotation, deformation, and common area between reference and probe samples.

NOTE Other modalities can be considered in the future as more information becomes available about standardized quality measurements that are suitable for predicting the performance of other biometric systems.