ISO 24613-2:2020 言語リソース管理—字句マークアップフレームワーク(LMF)—パート2:機械可読辞書(MRD)モデル | ページ 2

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

序文

ISO (国際標準化機構) は、各国の標準化団体 (ISO メンバー団体) の世界的な連合です。国際規格の作成作業は、通常、ISO 技術委員会を通じて行われます。技術委員会が設立された主題に関心のある各会員団体は、その委員会に代表される権利を有します。 ISOと連携して、政府および非政府の国際機関もこの作業に参加しています。 ISO は、電気技術の標準化に関するすべての問題について、国際電気標準会議 (IEC) と緊密に協力しています。

この文書の作成に使用された手順と、今後の維持のために意図された手順は、ISO/IEC 指令のPart 1 で説明されています。特に、さまざまな種類の ISO 文書に必要なさまざまな承認基準に注意する必要があります。この文書は、ISO/IEC 指令のPart 2 の編集規則に従って起草されました ( www.iso.org/directives を参照)

このドキュメントの要素の一部が特許権の対象となる可能性があることに注意してください。 ISO は、そのような特許権の一部または全部を特定する責任を負わないものとします。ドキュメントの開発中に特定された特許権の詳細は、序文および/または受信した特許宣言の ISO リストに記載されます ( www.iso.org/patents を参照)

このドキュメントで使用されている商号は、ユーザーの便宜のために提供された情報であり、保証を構成するものではありません。

規格の自主的な性質の説明、適合性評価に関連する ISO 固有の用語と表現の意味、および技術的貿易障壁 (TBT) における世界貿易機関 (WTO) の原則への ISO の準拠に関する情報については、以下を参照してください。 www.iso.org/iso/foreword.html .

このドキュメントは、技術委員会 ISO/TC 37, 言語と用語、小委員会 SC 4, 言語リソース管理によって作成されました。

ISO 24613-2 のこの初版は、ISO 24613-1:2019, ISO 24613-3 1 、ISO 24613-4 1) 、ISO 24613-5 1) 、ISO 24613-6 2および ISO 24613-7 2)とともに、いくつかの部分に分割され、技術的に改訂された ISO 24613:2008 を取り消して置き換えます。

旧版との主な変更点は以下の通りです。

この版は、前版からの 2 つの規範的な付属書、付属書 A, 形態学拡張、および付属書 C, 機械可読辞書拡張をマージし、その版に見られる主要な構造 (クラスと関連) のよりまとまりのある説明を提供します。この版のPart 1 部、コア モデルで導入された相互参照 (CrossREF) モデルは、さまざまな形式とセンス クラス間で字句機能を相関させるための新しい機能を提供します。さらに、CrossREF モデルは ListOfComponents および Component クラスに取って代わり、複数語表現を管理するためのより拡張可能で柔軟な機能を有効にします。 Part 1 で導入された型付けによる一般化のメタモデルは、編集の自由度を高め、異なる LMF 適合設計の比較をサポートする方法で LMF モデリング メカニズムを適用するための、より厳密で明確なフレームワークを提供します。この版では、以前の版で見つかった有益な例のほとんどを保持し (いくつかの冗長な例のみを削除)、新しいモデリング機能を説明するために新しい例を追加しました。いくつかのクラス名が変更されています (例: Representation の OrthographicRepresentation と Equivalent の Translation) が、既存のクラスの基本的な概念に変更はありません。

ISO 24613 シリーズのすべての部品のリストは、ISO Web サイトで見つけることができます。

序章

ISO 24613 シリーズは、コア モデルと追加のモデルを組み合わせた、実装に依存しないメタモデルの定義に基づいています。

さまざまな実装のユース ケースのガイドラインを提供し、必要に応じて、さまざまなアプリケーション コンテキストに適合する LMF 準拠のシリアライゼーションについて説明します。

このドキュメントは、ISO 24613-1 で説明されているプロセスとメカニズムを使用して、LMF コア モデルである ISO 24613-1 を拡張します。目的は、さまざまな設計の相互比較と標準準拠の評価を開発するための基礎を可能にしながら、さまざまな目的のための機械可読辞書の開発をサポートする柔軟な設計方法を可能にすることです。サポートされている設計目標の範囲は、単純なものから複雑な人間指向の MR, オントロジー リソースとのリンクを通じて概念語彙システムをサポートするレキシコン、機械プロセスをサポートするための厳密に制約されたレキシコン、および拡張記述を提供するレキシコンに及びます。字句エントリの形態。このドキュメントは LMF コア モデルである ISO 24613-1 に基づいているため、該当する場合は ISO 24613 シリーズの他の部分とデータを交換するように設計されています。

重要このドキュメントの電子ファイルには、ドキュメントを正しく理解するのに役立つと思われる色が含まれています。そのため、ユーザーはカラー プリンターを使用してこのドキュメントを印刷することを検討する必要があります。

1 スコープ

このドキュメントでは、機械可読辞書 (MRD) モデルについて説明します。これは、人間の翻訳者の直接サポートから機械処理のサポートまで、さまざまな電子辞書サブタイプに格納されたデータを表すためのメタモデルです。

2 参考文献

以下のドキュメントは、その内容の一部またはすべてがこのドキュメントの要件を構成するように、本文で参照されています。日付のある参考文献については、引用された版のみが適用されます。日付のない参照については、参照文書の最新版 (修正を含む) が適用されます。

  • ISO 24613-1, 言語リソース管理 — レキシカル マークアップ フレームワーク (LMF) — Part 1: コア モデル

3 用語と定義

このドキュメントの目的のために、ISO 24613-1 に記載されている用語と定義が適用されます。

ISO と IEC は、次のアドレスで標準化に使用する用語データベースを維持しています。

参考文献

[1]ISO 63, 言語の名前を表すためのコード
[2]ISO 1087, 用語作業および用語科学 — 語彙
[3]ISO/IEC 10646, 情報技術 — Universal Coded Character Set (UCS)
[4]ISO 16642, 用語におけるコンピュータ アプリケーション — 用語マークアップ フレームワーク
[5]ISO 24610-1, 言語リソース管理 — 機能構造 — Part 1: 機能構造の表現
[6]A ntoni -L ay M.-H.、F rancopoulo G. および Z aysser L.、再利用可能なレキシコンの汎用モデル: GENELEX プロジェクトLiterary and linguistic computing 、9, (1)、1994 年、pp. 47-54
[7]B rohée JM and R enaud J., Vocabulaire hongrois .オフリス、パリ、2001
[8]Calzolari N.、 McNaught J. およびZampolli A.、イーグルス、編集者紹介、1996 年http://www.ilc.cnr.it/EAGLES96/edintro/edintro.html
[9]Doke CM, ズールー語文法の教科書、ウィットウォータースランド大学、1930 年
[10]Francopoulo G.、B el N.、G eorge M.、C alzolari N.、M onachini M.、P et M.、S oria C.、 Lexical Markup Framework: ISO standard for Semantic Information in NLP Lexicons 、GLD, 字句意味論および存在論的リソースのワークショップ、テュービンゲン、2007
[11]Francopoulo G. 編、 LMF レキシカル マークアップ フレームワーク。ジョン・ワイリー・アンド・サンズ社、2013
[12]IETF BCP 4, 現在 (2006 年 6 月) RFC 4646 「言語を識別するためのタグ」、および RFC 4647 「言語タグの照合」に代表される
[13]K hemakhem A.、 Gargouri B.、 Abdelwahed A. およびFrancopoulo G.、Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF-ISO 24613, TALN, トゥールーズ、2007
[14]オントレックス。 ONTOLOGY-LEXICON コミュニティ グループ、 https: //www.w3.org/community/ontolex/
[15]Putejovsky J. The Generative Lexicon, MIT プレス、1995 年
[16]Rumbaugh J, J acobson I およびBooch G, 統一モデリング言語リファレンス マニュアル、第 2 版、Addison Wesley, 2004 年
[17]R uppenhofer J.、E llsworth M.、P etruck M.、J ohnson C.、S Cheffczyk J.、 FrameNet II: Extended Theory and Practice 、2016 年改訂、 https://framenet2.icsi.berkeley.edu/docs/ r1.7/book.pdf
[18]多言語計算辞書の標準とベスト プラクティス(ed. Calzolari N.、Bertagna F.、Lenci A.、Monachini M.) MILE (The Multilingual ISLE Lexical Entry) ISLE CLWG 成果物 D2.2 および 3.2 ピサ、2003 年

Foreword

ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies (ISO member bodies). The work of preparing International Standards is normally carried out through ISO technical committees. Each member body interested in a subject for which a technical committee has been established has the right to be represented on that committee. International organizations, governmental and non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.

The procedures used to develop this document and those intended for its further maintenance are described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types of ISO documents should be noted. This document was drafted in accordance with the editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives ).

Attention is drawn to the possibility that some of the elements of this document may be the subject of patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of any patent rights identified during the development of the document will be in the Introduction and/or on the ISO list of patent declarations received (see www.iso.org/patents ).

Any trade name used in this document is information given for the convenience of users and does not constitute an endorsement.

For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions related to conformity assessment, as well as information about ISO's adherence to the World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www.iso.org/iso/foreword.html .

This document was prepared by Technical Committee ISO/TC 37, Language and terminology, Subcommittee SC 4, Language resource management.

This first edition of ISO 24613-2, together with ISO 24613-1:2019, ISO 24613-3 1 , ISO 24613-41), ISO 24613-51), ISO 24613-6 2 and ISO 24613-72), cancels and replaces ISO 24613:2008, which has been divided into several parts and technically revised.

The main changes compared to the previous edition are as follows.

This edition merges two normative annexes from the previous edition, Annex A, Morphology extension, and Annex C, Machine-readable dictionary extension, providing a more cohesive description of the key structures (classes and associations) found in that edition. The cross-reference (CrossREF) model introduced in Part 1, Core model, of this edition, provides a new capability for correlating lexical features across different form and sense classes. In addition, the CrossREF model has replaced the ListOfComponents and Component classes, enabling a more extensible and flexible capability for managing multiword expressions. The metamodel of generalization by typing introduced in Part 1 provides a more rigorous and unambiguous framework for applying LMF modelling mechanisms in ways that enable greater editorial freedom and support the comparison of different LMF conformant designs. This edition has kept most of the informative examples found in the previous edition (deleting only a few redundant examples) and has added new examples to illustrate new modelling features. There have been some class name changes (e.g. OrthographicRepresentation for Representation and Translation for Equivalent), but no changes in the underlying concepts of the previously existing classes.

A list of all parts in the ISO 24613 series can be found on the ISO website.

Introduction

The ISO 24613 series is based upon the definition of an implementation-independent metamodel combining a core model and additional models that onomasiological (form-oriented) and semasiological (concept-oriented) lexical content can take.

It provides guidelines for various implementation use cases, and where appropriate describes LMF compliant serializations that fit various application contexts.

This document extends ISO 24613-1, the LMF core model, through the use of the processes and mechanisms described in ISO 24613-1. The objective is to enable flexible design methods to support the development of machine-readable dictionaries for different purposes while enabling cross-comparisons of different designs and a basis for developing assessments of standards conformance. The scope of supported design goals ranges from simple to complex human-oriented MRDs, both monolingual and bilingual, lexicons that support conceptual-lexical systems through links with ontological resources, rigorously constrained lexicons for supporting machine processes, and lexicons that provide an extensional description of the morphology of lexical entries. Since this document is based on ISO 24613-1, the LMF core model, it is designed to interchange data with other parts of the ISO 24613 series where applicable.

IMPORTANT The electronic file of this document contains colours which are considered to be useful for the correct understanding of the document. Users should therefore consider printing this document using a colour printer.

1 Scope

This document describes the machine-readable dictionary (MRD) model, a metamodel for representing data stored in a variety of electronic dictionary subtypes, ranging from direct support for human translators to support for machine processing.

2 Normative references

The following documents are referred to in the text in such a way that some or all of their content constitutes requirements of this document. For dated references, only the edition cited applies. For undated references, the latest edition of the referenced document (including any amendments) applies.

  • ISO 24613-1, Language resource management — Lexical markup framework (LMF) — Part 1: Core model

3 Terms and definitions

For the purposes of this document, the terms and definitions given in ISO 24613-1 apply.

ISO and IEC maintain terminological databases for use in standardization at the following addresses:

Bibliography

[1]ISO 639 (all parts), Codes for the representation of names of languages
[2]ISO 1087, Terminology work and terminology science — Vocabulary
[3]ISO/IEC 10646, Information technology — Universal Coded Character Set (UCS)
[4]ISO 16642, Computer applications in terminology — Terminological markup framework
[5]ISO 24610-1, Language resource management — Feature structures — Part 1: Feature structure representation
[6]Antoni-Lay M.-H., Francopoulo G. and Zaysser L., A generic model for reusable lexicons: the GENELEX project,Literary and linguistic computing, 9(1), 1994, pp. 47-54
[7]Brohée J.M. and Renaud J., Vocabulaire hongrois. Ophrys, Paris, 2001
[8]Calzolari N., Mc Naught J. and Zampolli A., Eagles, editors introduction, 1996 http://www.ilc.cnr.it/EAGLES96/edintro/edintro.html
[9]Doke C.M., Textbook of Zulu Grammar, The University of Witwatersrand, 1930
[10]Francopoulo G., Bel N., George M., Calzolari N., Monachini M., Pet M. and Soria C., Lexical Markup Framework: ISO standard for Semantic Information in NLP Lexicons, GLDV (Gesellschaft für linguistische Datenverarbeitung), Lexical-Semantic and ontological resources workshop, Tübingen, 2007
[11]Francopoulo G., ed., LMF Lexical Markup Framework. John Wiley and Sons, Inc., 2013
[12]IETF BCP 47 (ed. Phillips, A., Davis, M.), currently (June, 2006) represented by RFC 4646 “Tags for Identifying Languages”, and RFC 4647 “Matching of Language Tags
[13]Khemakhem A., Gargouri B., Abdelwahed A. and Francopoulo G., Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF-ISO 24613, TALN, Toulouse, 2007
[14]ONTOLEX. ONTOLOGY-LEXICON COMMUNITY GROUP, https://www.w3.org/community/ontolex/
[15]Putejovsky J. The generative lexicon, MIT press, 1995
[16]Rumbaugh J., Jacobson I. and Booch G., The unified modeling language reference manual, 2nd ed., Addison Wesley, 2004
[17]Ruppenhofer J., Ellsworth M., Petruck M., Johnson C. and Scheffczyk J., FrameNet II: Extended Theory and Practice, revised 2016, https://framenet2.icsi.berkeley.edu/docs/r1.7/book.pdf
[18]Standards and best Practice for Multilingual Computational Lexicons (ed. Calzolari N., Bertagna F., Lenci A., Monachini M.). MILE (The Multilingual ISLE Lexical Entry). ISLE CLWG Deliverable D2.2 and 3.2 Pisa, 2003