この規格 プレビューページの目次
※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。
序章
現在、多くのデータ セットが一般公開されています。これらは、政府主導のオープン データ イニシアチブの一部である場合もあれば、商業、科学、学術目的で組織内および組織間で使用されるデータ セットである場合もあります。
データと情報の一貫した適切な使用を可能にし、作業の重複を防ぐために、これらのデータ セットに関するメタデータをすぐに利用できるようにする必要があります。データ セットを説明するメタデータが登録されている強化されたメタデータ レジストリを使用すると、適切なデータ セットの検出が容易になります。
ISO/IEC 11179-3:2013 の第 5 節から第 11 節では、メタデータ レジストリの構造が概念データ モデルの形式で指定されています。メタデータ レジストリは、「データ要素の概念」、「概念ドメイン」、「値ドメイン」など、データ要素と関連する概念に関する情報を保持するために使用されます。一般に、これらはすべて「メタデータ項目」と呼ばれます。このようなメタデータは、データを明確に記述、記録、分析、分類、および管理するために必要です。このドキュメントは、データセットに関するメタデータの登録を可能にするために、ISO/IEC 11179-3:2013 の条項 5 から 11 で指定されているレジストリ メタモデルの拡張の仕様を提供します。
データとメタデータを検討する場合、データ/メタデータのタイプとこれらのタイプのインスタンスを区別することが重要です。 ISO/IEC 11179-3:2013, 条項 5 から 11 は、基本的なメタデータ レジストリの構造を形成するメタデータ オブジェクトのタイプを指定します。箇条 5 では、その構造の拡張を形成するメタデータ オブジェクトのタイプを指定して、構造全体がデータ セットに関する情報を保持する機能を提供するようにします。メタデータ レジストリには、これらのメタデータ オブジェクト (メタデータ項目) のインスタンスが入力されます。これらのインスタンスは、たとえば、アプリケーション データベース内のデータの種類、またはこのドキュメントの場合は、他の場所に保持されているデータ セットを定義します。このようなデータセットは、例えば、インターネット上で利用可能にしたり、ワードプロセッシングドキュメント内の表として含めることができます。
このドキュメントで説明されている機能は、ISO/IEC 11179-3:2013 の条項 5 から 11 で説明されている機能とともに、次のデータ セット メタデータを記録する機能を提供します。
- データ セットの 1 つまたは複数の一意の識別子。
- データセットの指定またはタイトル。
- ユーザーがこのデータセットに関心があるかどうかをすぐに理解できるようにするのに十分な詳細を提供する、データセットの定義または説明。
- データ セットが発行された日付、および該当する場合は、データ セットの後続のバージョンが発行された、または発行される予定の日付。
- データ セットに関連付けられたアクセス レベルと権限。
- データセットの起源、すなわち、データセットの起源の場所と時間、その所有権、およびセットの生成方法に関する情報。
- データセットの説明に役立つ一連のキーワードまたはタグ。
- データセットを記述するために使用される言語。
- データセットの時間的および空間的な範囲;
- データセットの発生周期、すなわち、データセットの新しいバージョン、改訂版、または更新されたバージョンが利用可能になる頻度。
- 識別子、タイトル、説明、メディア タイプまたはファイル形式、サイズ、発行日、言語、アクセス レベルと権利、およびアクセス URL とダウンロード URL を含む、データ セットの配布の詳細。
- データセットまたはデータセットのコレクションのテーマまたはカテゴリを説明するために、オントロジーなどの概念システムから引き出された注釈。
- データ セットを使用するプログラム、プロジェクト、ビジネス エリアなどのコンテキストの詳細。
- データセットに関して行われた品質評価の詳細。
- 以下を含む、データセットの追加の説明:
- データセットに含まれる、すでに登録されているデータ要素。
- データセット内の情報の構造を記述する情報モデル。
- データセットに関する技術情報や、データセットのデータモデルのグラフィカル表現などの開発者向けドキュメントなど、データセットの側面を説明するドキュメント。
データセットを含むスーパーセット/サブセット階層の詳細。
このデータセットが置き換えられた場合の置き換えデータセットの詳細。
識別子、指定またはタイトル、定義または説明、発行日、言語、アクセス レベル、権利、空間範囲、来歴および品質を含む、このデータ セットが含まれるデータ セットのコレクションの詳細コレクションの評価。
このドキュメントは、次のドキュメントで説明されている概念を考慮して作成されました。
- Data Catalog Vocabulary (DCAT) [1] (World Wide Web Consortium (W3C) が発行);
- PROV オントロジー (Prov-O) [2] (World Wide Web Consortium (W3C) によって公開);
- PROV データ モデル (Prov-DM) [3] (World Wide Web コンソーシアム (W3C) によって公開);
- Project Open Data Metadata Schema v1.1 [4] (米国政府発行)
補足資料は、次のように付属書に記載されています。
- 附属書 A は、この文書で使用される用語のアルファベット順のリストを提供します。
- 附属書 B は、このドキュメントで指定された機能を使用したデータ セットの登録の 2 つの例を提供します。
- 附属書 C は、ISO/IEC 11179-3:2013 の第 4 節で指定されているものに追加される、このドキュメントで指定されている適合性プロファイルをまとめたものです。
- 附属書 D は、このドキュメントで指定された機能を使用して、来歴の概念をどのように捉えることができるかについての完全な説明を提供します。
Introduction
Many data sets are now generally available. These may be part of a government-led open data initiative, or may be data sets that are used within and across organizations for commercial, scientific or academic purposes.
There is a requirement for metadata about these data sets to be readily available to enable the consistent and appropriate use of data and information, and to prevent duplication of work. Having an enhanced Metadata Registry where metadata that describes data sets is registered will facilitate the discovery of appropriate data sets.
In ISO/IEC 11179-3:2013, Clauses 5 to 11 the structure of a Metadata Registry is specified in the form of a conceptual data model. The Metadata Registry is used to keep information about data elements and associated concepts, such as “data element concepts”, “conceptual domains” and “value domains”. Generically, these are all referred to as “metadata items”. Such metadata are necessary to clearly describe, record, analyse, classify and administer data. This document provides a specification of the extensions to the registry metamodel specified in ISO/IEC 11179-3:2013, Clauses 5 to 11 to enable the registration of metadata about datasets.
When considering data and metadata, it is important to distinguish between types of data/metadata, and instances of these types. ISO/IEC 11179-3:2013, Clauses 5 to 11 specifies the types of metadata objects that form the structure of a basic Metadata Registry. Clause 5 specifies the types of metadata objects that form an extension to that structure so that the whole structure provides facilities to keep information about data sets. A Metadata Registry will be populated with instances of these metadata objects (metadata items), which in turn define, for example, types of data in an application database, or, in the case of this document, data sets that are held elsewhere. Such data sets could, for example, be made available over the internet or be included as a table within a word processing document.
The facilities described in this document, together with those described in ISO/IEC 11179-3:2013, Clauses 5 to 11 provides the ability to record the following data set metadata:
- one or more unique identifiers for the data set;
- the designation or title of the data set;
- a definition or description of the data set that provides sufficient detail to enable a user to quickly understand whether this data set is of interest;
- the date the data set was issued and, if appropriate, the date that subsequent versions of the data set were, or will be, issued;
- the access level and rights associated with the data set;
- the provenance of the data set, i.e., information about the place and time of the origin of the data set, its ownership and the method of the generation of the set;
- a set of keywords or tags that help to explain the data set;
- the language or languages used to describe the data set;
- the temporal and spatial coverages of the data set;
- the accrual periodicity of the data set, i.e., the frequency at which new, revised or updated versions of the data set are made available;
- the details of the distributions of the data set, including the identifier, the title, a description, the media type or file format, the size, the issue date, languages, access level and rights and access and download URLs;
- annotations drawn from a concept system, such as an ontology, to describe the theme or category of the data set or the collection of data sets;
- the details of any contexts, such as a programme, project or business area that use the data set;
- the details of any quality assessments made in respect of the data set;
- any additional descriptions of the data set, including:
- any data elements that are already registered that are included in the data set;
- any information models that describe the structure of the information in the data set;
- any documents which describe aspects of the data set, such as technical information about the data set and/or developer documentation such as a graphical representation of the data model of the data set;
the details of any superset/subset hierarchies containing the data set;
the details of any replacement data set if this data set is superseded;
the details of any collection of data sets of which this data set is a part, including the identifiers, the designation or title, a definition or description, issue dates, languages, access level, rights, the spatial coverage, the provenance and any quality assessments of the collection.
This document was prepared taking into account concepts described in the following documents:
- Data Catalog Vocabulary (DCAT)[1] (published by the World Wide Web Consortium (W3C));
- The PROV Ontology (Prov-O)[2] (published by the World Wide Web Consortium (W3C));
- The PROV Data Model (Prov-DM)[3] (published by the World Wide Web Consortium (W3C));
- Project Open Data Metadata Schema v1.1[4] (published by the US Government).
Supplementary material is provided in Annexes as follows:
- Annex A provides an alphabetical list of the terms used in this document;
- Annex B provides two examples of the registration of data sets using the facilities specified in this document;
- Annex C summarizes conformance profiles specified in this document that are additional to those specified in ISO/IEC 11179-3:2013, Clause 4;
- Annex D provides a complete description of how the concept of provenance can be captured using the facilities specified in this document.