ISO 20462-2:2005 写真—画質を推定するための精神物理学的実験方法—パート2:トリプレット比較法 | ページ 3

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

序章

ISO 20462 のこの部分は、写真の画質を正確かつ再現可能で効率的な方法で視覚的に評価するための基礎を提供するために必要です。 ISO 20462 のこの部分は、他の国際標準や業界標準で使用される可能性のあるさまざまなテスト方法や画像処理アルゴリズムを評価するために必要です。たとえば、ISO 12232 の将来の改訂に必要な作業の一部として、デジタル カメラからの露出シリーズ画像の主観的評価を実行するために使用する必要があります。

さまざまな種類のハード コピー メディアおよびソフト コピー ディスプレイを使用して画像を作成および観察する機会は、コンピューター ベースのデジタル画像処理技術の進歩により大幅に増加しています。その結果、さまざまな表示条件下で、さまざまなメディアおよびディスプレイ技術を使用して作成された画像間で色の外観の一致を得るための要件を開発する必要があります。必要な要件を開発するために、CIE や ICC を含む組織は、さまざまな表示条件の影響を補正し、さまざまな色域を持つ異種のメディア間で色を最適にマッピングする方法を開発しています。

このような技術的活動は、心理物理実験に基づく視覚的評価によって、提案された方法またはアルゴリズムを評価する必要性に直面することがよくあります。 KM ブラウン[1]クロスメディア画像比較のための 5 つの閲覧テクニックを、スケーリングの感度と観察者の精神的および肉体的ストレスの観点から検討しました。 CIE TC1-27「反射型メディアと自発光ディスプレイの比較のための色の見え方の仕様」は、測色モデルと色の見え方モデルの評価のための心理物理実験を行うためのガイドラインを提案しました[6] 。したがって、デジタル イメージング システムの設計と評価では、観察者のストレスを最小限に抑えて信頼性が高く安定した結果を得ることができるように、主観的な視覚的評価の方法論を開発することが非常に重要です。

心理物理実験を行う場合、正確で再現性のある結果が得られることが非常に望まれます。統計的に信頼できる結果を得るためには、多数のオブザーバーが必要であり、実験のセットアップには細心の注意を払う必要があります。複数の(繰り返し)評価も有用です。視覚的評価プロセス中の観察者のストレスは、結果に悪影響を及ぼす可能性があります。画像表示の順序、および観察者が対処する質問またはアンケートの種類も、結果に影響を与える可能性があります。

表 1 は、画質評価に一般的に使用される 3 つの視覚的評価手法の比較を示しています。オブザーバーのタスクは、通常 5 つまたは 7 つのカテゴリを使用して各画像をランク付けすることであるため、カテゴリ メソッドの利点には、低ストレスと高い安定性が含まれます。ただし、カテゴリ内でのスケーラビリティはそれほど正確ではありません。画質評価の最も一般的な手法の 1 つは、対比較法です。この方法は、正確なスケーラビリティが必要な場合に画質を評価するのに特に適しています。しかし、一対比較法には、検査するサンプル数が比較的限られているという重大な問題がある。サンプルの数が増えると、組み合わせの数が膨大になります。これにより、観測者に過度のストレスがかかり、結果の精度と再現性に影響を与える可能性があります。マグニチュード スケーリングとして一般に知られている 3 番目の方法は、マグニチュード推定です。この方法は、画質評価を行うために通常の(専門家ではない)観察者を使用して心理物理実験を行う場合、非常に困難です。

表 1 —典型的な心理物理学的実験方法の比較

メソッド名スケーラビリティ安定ストレス
カテゴリー低い高い低い
マグニチュード推定中くらい低い中くらい
ペア比較高い高い高い

Gジョンソン[3]は、「シャープネス ルール」を提案しました。このルールでは、解像度、コントラスト、ノイズ、およびシャープネス強化の程度の観点からシャープネスの大きさを分析しました。同様に、好ましい肌の色は、色度の観点からだけでなく、表示媒体の明度、背景、および白色点に関しても考慮することができます[4] 。これらの例は、画質が常に単一の属性によって評価されるわけではなく、複数の属性の組み合わせによって異なる場合があることを示しています。心理物理実験が新しいアプリケーション用に設計されている場合、実験者は実験中に多くの属性を同時に変更する必要がある場合があります。これらの状況では、検査対象のサンプル数が過度に多くなり、一対比較技術を採用することが困難になる。

Introduction

This part of ISO 20462 is necessary to provide a basis for visually assessing photographic image quality in a precise, repeatable and efficient manner. This part of ISO 20462 is needed in order to evaluate various test methods or image processing algorithms that may be used in other international and industry standards. For example, it should be used to perform subjective evaluation of exposure series images from digital cameras as part of the work needed for future revisions of ISO 12232 .

The opportunities to create and observe images using different types of hard copy media and soft copy displays have increased significantly with advances in computer-based digital imaging technology. As a result, there is a need to develop requirements for obtaining colour-appearance matches between images produced using various media and display technologies under a variety of viewing conditions. To develop the necessary requirements, organizations, including the CIE and the ICC, are developing methods to compensate for the effect of different viewing conditions, and to map colours optimally across disparate media having different colour gamuts.

Such technical activities are often faced with the need to evaluate proposed methods or algorithms by visual assessment based on psychophysical experiments. K.M. Braun et al. [1] examined five viewing techniques for cross-media image comparisons in terms of sensitivity of scaling, and mental and physical stress for the observers. CIE TC1-27 “Specification of Colour Appearance for Reflective Media and Self-Luminous Display Comparisons” proposed guidelines for conducting psychophysical experiments for the evaluation of colorimetric and colour-appearance models [6] . Accordingly, for the design and evaluation of digital imaging systems, it is of great importance to develop a methodology for subjective visual assessment, so that reliable and stable results can be derived with minimum observer stress.

When performing a psychophysical experiment, it is highly desirable to obtain results that are precise and reproducible. In order to derive statistically reliable results, large numbers of observers are required and careful attention should be paid to the experimental setup. Multiple (repeated) assessments are also useful. Observer stress during the visual assessment process can adversely affect the results. The order of image presentation, and the types of questions or questionnaires addressed by the observers, can also affect the results.

Table 1 gives a comparison of three visual assessment techniques commonly used for image quality evaluation. The advantages of the category methods include low stress and high stability, since the observer’s task is to rank each image using typically five or seven categories. However, its scalability within a category is less precise. One of the most common techniques for image quality assessment is the paired comparison method. This method is particularly suited to assessing image quality when precise scalability is required. However, a serious problem with the paired comparison method is that the number of samples to be examined is to be relatively limited. As the number of the samples increases, the number of combinations becomes extensive. This causes excessive observer stress, which can affect the accuracy and repeatability of the results. The third method, commonly known as magnitude scaling, is magnitude estimation. This method is extremely difficult when the psychophysical experiments are conducted using ordinary (non-expert) observers to perform the image quality assessment.

Table 1—Comparison of typical psychophysical experimental methods

Name of methodScalabilityStabilityStress
CategoryLowHighLow
Magnitude estimationMediumLowMedium
Paired comparisonHighHighHigh

G. Johnson et al. [3] have proposed “A sharpness rule”, where the magnitude of sharpness was analyzed in terms of resolution, contrast, noise and degree of sharpness-enhancement. Likewise, preferred skin colour may be considered not only from the viewpoint of chromaticity, but also with respect to the lightness, background and white point of the display media [4] . These examples show that image quality is not always evaluated by a single attribute, but may vary in combination with multiple attributes. In cases where a psychophysical experiment is designed for a new application, the experimenter may need to vary many attributes simultaneously during the course of the experiment. In these situations, the number of the samples to be examined becomes excessively large, making it difficult to employ the paired comparison technique.