この規格 プレビューページの目次
※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。
序章
電子語彙リソースの作成、保守、および拡張を最適化することは、一般的な人間言語技術 (HLT)、特に自然言語処理 (NLP)、および人間指向の翻訳技術に影響を与える重要な側面の 1 つです。 2 つ目の重要な側面は、アプリケーションへの統合につながるプロセスの最適化です。レキシカル マークアップ フレームワーク (LMF) は、計算レキシコンを構築するための共通の標準化されたフレームワークを提供する抽象メタモデルです。 LMF は、さまざまなアプリケーションやさまざまなタスクでの再利用を可能にする方法で、言語情報のエンコードを保証します。 LMF は、形態学的、構文的、および意味的側面を含む、字句オブジェクトの共通の共有表現を提供します。
LMF の目標は、小規模から大規模に至る電子語彙リソースの作成と使用のための共通モデルを提供し、これらのリソース間でのデータ交換を管理し、多数の異なる個人のマージを容易にすることです。広範なグローバルな電子リソースを形成するための電子リソース。 LMF の最終的な目標は、電子語彙リソースのすべての側面にわたって真のコンテンツの相互運用性を容易にするモジュール構造を作成することです。
LMF コア パッケージは、フォームに関する情報を含む、字句エントリの情報の基本的な階層を記述します. コア パッケージは、LMF の定義の一部であるさまざまなリソースによって補足されます.これらのリソースは次のとおりです。
- LMF に関連するさまざまなリソース タイプによって使用される特定のデータ カテゴリ。メタモデル自体に関連するデータ カテゴリと、コア パッケージの拡張に関連するデータ カテゴリの両方。
- これらのデータ カテゴリとメタモデルおよびその拡張との関係を管理する制約。
- これらのカテゴリを表現し、LMF の構造的骨格に固定し、それぞれの拡張モデルに関連付けるための標準手順。
- 関連する情報オブジェクトを表現するために LMF によって使用される語彙。さまざまな特定のリソース (拡張機能) へのリンクを通じて LMF を拡張する方法と、そのようなリンクされたシステムを分析および設計する方法を記述します。
この国際規格の附属書に記載されているコア パッケージの拡張には、次のものが含まれます。
- a)機械可読辞書。
- b)自然言語処理語彙資源。
LMF 拡張機能は、特定のリソースに必要な追加コンポーネントと組み合わせて、LMF コア コンポーネント (構造、データ カテゴリ、語彙など) の再利用を記述するフレームワークで表現されます。
LMF の個々のインスタンス化のタイプには、かなり単純な語彙データベース、NLP および機械翻訳語彙、電子的な単一言語、二言語、および多言語語彙データベースなどの電子語彙リソースを含めることができます。 LMF は、新しい電子語彙リソースを分析および設計するための一般的な構造とメカニズムを提供しますが、LMF は、特定の電子語彙リソースの設計に使用される構造、データ制約、および語彙を指定しません。 LMF は、共通の記述フレームワークを使用して既存のリソースを分析および記述するためのメカニズムも提供します。新しい字句リソースの設計と既存の字句リソースの記述の両方の目的で、LMF は、1 つの字句リソースで表現されたデータを LMF フレームワークにマップできるようにする条件を定義し、字句データ交換の中間形式を提供します。
Introduction
Optimizing the production, maintenance and extension of electronic lexical resources is one of the crucial aspects impacting human language technologies (HLT) in general and natural language processing (NLP) in particular, as well as human-oriented translation technologies. A second crucial aspect involves optimizing the process leading to their integration in applications. Lexical Markup Framework (LMF) is an abstract metamodel that provides a common, standardized framework for the construction of computational lexicons. LMF ensures the encoding of linguistic information in a way that enables reusability in different applications and for different tasks. LMF provides a common, shared representation of lexical objects, including morphological, syntactic and semantic aspects.
The goals of LMF are to provide a common model for the creation and use of electronic lexical resources ranging from small to large in scale, to manage the exchange of data between and among these resources, and to facilitate the merging of large numbers of different individual electronic resources to form extensive global electronic resources. The ultimate goal of LMF is to create a modular structure that will facilitate true content interoperability across all aspects of electronic lexical resources.
The LMF core package describes the basic hierarchy of information of a lexical entry, including information on the form. The core package is supplemented by various resources that are part of the definition of LMF. These resources include:
- specific data categories used by the variety of resource types associated with LMF, both those data categories relevant to the metamodel itself, and those associated with the extensions to the core package;
- the constraints governing the relationship of these data categories to the metamodel and to its extensions;
- standard procedures for expressing these categories and thus for anchoring them on the structural skeleton of LMF and relating them to the respective extension models;
- the vocabularies used by LMF to express related informational objects for describing how to extend LMF through linkage to a variety of specific resources (extensions) and methods for analysing and designing such linked systems.
Extensions of the core package which are documented in the annexes of this International Standard include:
- a) machine readable dictionaries;
- b) natural language processing lexical resources.
LMF extensions are expressed in a framework that describes the reuse of the LMF core components (such as structures, data categories, and vocabularies) in conjunction with the additional components required for a specific resource.
Types of individual instantiations of LMF can include such electronic lexical resources as fairly simple lexical databases, NLP and machine-translation lexicons, as well as electronic monolingual, bilingual and multilingual lexical databases. LMF provides general structures and mechanisms for analysing and designing new electronic lexical resources, but LMF does not specify the structures, data constraints and vocabularies to be used in the design of specific electronic lexical resources. LMF also provides mechanisms for analysing and describing existing resources using a common descriptive framework. For the purpose of both designing new lexical resources and describing existing lexical resources, LMF defines the conditions that allow the data expressed in any one lexical resource to be mapped to the LMF framework, and thus provides an intermediate format for lexical data exchange.