ISO 21636-3:2024 言語コーディング — 言語多様性のフレームワーク — Part 3:フレームワークの適用 | ページ 3

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

導入

ますます多くのデジタル言語リソース (LR) が作成され (レトロデジタル化によるものを含む)、アーカイブされ、処理され、分析されています。この文脈の中で、特定の言語使用イベントに存在する言語多様性の詳細かつ正確な特徴付けが急速に重要性を増しています。ここでの言語使用には、書き言葉、話し言葉、手話などのあらゆる様式が含まれますが、デジタル テクノロジー (ソーシャル メディアや同様のデジタル コミュニケーション形式) によってサポートされる新しい形式の言語使用も含まれます。このような様式は、言語が内部的に変化する 1 つの方法を示しています。その他には、たとえば、よく知られた地域 (方言) や社会的差異が含まれます。

これまで、LR を扱う主な目的は、LR のアーカイブと保存でした。しかし、現在、新たな目標が浮上しており、現在も浮上し続けています。

  • 機関と個人は、既存の LR に関する情報を調和のとれた形式で広く利用できるようにするために、メタデータ (書誌的説明データやその他の二次情報) を交換する必要があります。
  • 研究者は、言語変異に関する研究など、さまざまな研究目的で一次データ (LR 自体) を特定しています。
  • 研究者や開発者は、より高度な言語技術 (LT) の開発やテスト目的で LR を必要としています。これは、LT, 特に音声認識と言語分析に関する言語技術が人間のコミュニケーションのより多くの次元に参入しているためです。

ISO 21636 シリーズに概要が記載されていない他の目標や目的とともに、上記の目標や目的を達成するには、言語の種類を識別するための標準化されたメタデータのセットが、二次情報のスムーズな交換を保証するために重要です。適切に編成されたメタデータは、相互運用性の程度 (LR の再利用性と再利用可能性と同等)、および長期にわたるさまざまな状況や LR への LT の適用可能性を示すのにも役立ちます。これらのメタデータは、e ビジネス、eヘルス、電子政府、eインクルージョン、e ラーニング、スマート環境、アンビエント支援生活 (AAL)、および LR に関する情報に依存するその他の情報が豊富なアプリケーションのほぼすべてに適用できます。明確なメタデータ アプローチは、LR アーカイブの耐久性の前提条件でもあります (特に文化遺産や科学研究データの場合)

ISO 639 は、LR で使用される個々の言語を識別するためのフレームワークを提供します。 ISO 21636 シリーズは、さまざまな種類の言語の種類 (地理的、社会的、モーダルなど) の識別を可能にするために言語コーディング フレームワークを拡張するという点で ISO 639 を前提にし、それを補完します。言語の種類の識別は、LR を記述するための一般メタデータ、ライブラリ メタデータ、およびアーカイブ メタデータに含めることができます (これには、ISO 21636 シリーズには含まれていない、技術情報、録音の時間と場所、および同様の一般情報も含まれる場合があります) 。

言語の変動に対処するためにこの文書で開発された概念的な枠組みは、言語文献で示されている主要なアプローチを単に再現するのではなく尊重しています。このフレームワークは、一般的な方向性や、愚痴に割り当てられた役割などの多くの詳細において、リーブによって代表されるタイプの作品に最も似ています[ 6]

この文書で取り上げられるメタデータのカテゴリと値は、ISO 21636 シリーズの包括的な原則に基づいた将来の言語品種のきめ細かなコーディングの候補となる可能性があります。したがって、この文書はメタデータに関する ISO/IEC 11179 シリーズの一般的な枠組みに適合します。

利害関係者には以下が含まれますが、これらに限定されません。

  • 情報通信技術 (ICT) 業界 (LT を含む)
  • 図書館;
  • メディア業界(エンターテイメントを含む)。
  • インターネットコミュニティ。
  • 言語の文書化と保存に携わる人々。
  • 言語アーキビスト。
  • 言語学者(言語学者、特に社会言語学者、民族学者、社会学者など)。
  • 語学研修を提供する人々や機関。
  • 新たなユーザーコミュニティが生まれつつあります。

これらの利害関係者は、特定の個別の言語だけでなく、たとえば口頭での人間とコンピュータの対話や、特定の LR や LT をユーザーのニーズや特定の環境に合わせて調整する場合など、特定の言語の多様性にも言及する必要があることが予想されます。ターゲットとなるユーザーグループ。必要な特異性を達成するための最初のステップには、関係する個々の言語の内部の言語変動の側面と、それぞれの関連する言語の多様性を特定する能力が含まれます。 ISO 21636 シリーズで開発された概念的に健全な統一参照フレームワークは、さまざまな個別のアドホック ソリューションの急増よりも優れています。

Introduction

An increasing amount of digital language resources (LRs) are being created (including via retro-digitization), archived, processed and analysed. Within this context, the detailed and exact characterization of language varieties present in a given language use event is quickly gaining importance. Here, language use includes all modalities such as written, spoken, or signed, and also new forms of language use supported by digital technology (in social media and similar forms of digital communication). Such modalities demonstrate one way in which languages vary internally. Others include, for instance, familiar regional (dialectal) and social variation.

In the past, a primary goal of working with LRs was the archiving and preservation of LRs. However, new goals have now emerged and are still emerging:

  • Institutions and individuals need to exchange metadata (i.e. bibliographic description data and other secondary information) for making the information on existing LRs widely available in a harmonized form.
  • Researchers are identifying primary data (i.e. the LRs themselves) for various research purposes, including research on linguistic variation.
  • Researchers and developers need LRs for the development of more advanced language technologies (LTs) and for testing purposes, because LTs, in particular those concerning speech recognition and language analysis, are entering more dimensions of human communication.

In order to achieve the above-mentioned goals and purposes, along with others not outlined in the ISO 21636 series, a standardized set of metadata for the identification of language varieties is important for guaranteeing the frictionless exchange of secondary information. Well-organized metadata also help to indicate the degree of interoperability (equalling re-usability and re-purposability of LRs), and the applicability of LTs to different situations or LRs over time. These metadata are applicable in eBusiness, eHealth, eGovernment, eInclusion, eLearning, smart environments, ambient assisted living (AAL), and virtually all other information-rich applications which depend on information about LRs. A clear metadata approach is also a prerequisite for the durability of LR archiving (in particular in the case of cultural heritage and scientific research data).

ISO 639 provides a framework for identifying the individual languages used in an LR. The ISO 21636 series presupposes and complements ISO 639 in that it extends the language coding framework in order to allow for the identification of different types of language varieties (e.g. geographical, social, modal). The identification of language varieties can then be included in general metadata, library metadata and archival metadata for describing LRs (which may also include technical information, time and location of recording, and similar general information, which are not included in the ISO 21636 series).

The conceptual framework developed in this document for dealing with linguistic variation respects the major approaches represented in the linguistic literature without simply reproducing them. The framework is closest though in general orientation and in a number of details, such as the role assigned to idiolects, to work of a type represented by Lieb[6].

The metadata categories and values addressed in this document can be candidates for a future fine-grained coding of language varieties based on the comprehensive principles of the ISO 21636 series. Thus, this document fits within the general framework of the ISO/IEC 11179 series for metadata.

Stakeholders include, but are not limited to:

  • information and communication technologies (ICTs) industry (including LTs);
  • libraries;
  • the media industry (including entertainment);
  • internet communities;
  • people engaging in language documentation and preservation;
  • language archivists;
  • researchers (linguists, in particular sociolinguists, ethnologists, sociologists, etc.);
  • people and institutions providing language training;
  • emerging new user communities.

It is anticipated that these stakeholders will need to refer not only to a certain individual language, but also to a certain language variety, for instance for oral human-computer interaction, or for tailoring a certain LR or LT to the needs and specific environment of a target user group. An initial step towards achieving the needed specificity involves the ability to identify the dimension(s) of linguistic variation internal to individual languages involved, and the respective relevant language varieties. A conceptually sound uniform framework of reference as developed in the ISO 21636 series is superior to the proliferation of different individual ad-hoc solutions.