ISO 24624:2016 言語リソース管理—話し言葉の転写 | ページ 3

※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。

序章

このドキュメントは、そのようなデータを作成、編集、公開、および活用するための、異なる計算ツールおよび環境間での話し言葉の書き起こしの交換を促進することを目的としています。このコンテキストでの話し言葉の書き起こしとは、自然なやり取りの音声またはビデオ記録に記録された、口頭活動の正書法に基づく書き起こしを意味します。他のモダリティ (ボディー ランゲージ、身振り、顔の表情など) での活動の説明は、話し言葉の書き起こしの一部である可能性がありますが、この文書は、口頭の次元が話し言葉の書き起こしの主な焦点であるという仮定から始まります。同様に、このドキュメントは IPA のような音声アルファベットに基づく書き起こしにも関連している可能性がありますが、このドキュメントの前提は、正書法に基づく書き起こしがデフォルトのケースであるということです。

このドキュメントは、ISO とテキスト エンコーディング イニシアチブ (TEI) コンソーシアムの間の共同協定に基づいて作成されているため、その内容は TEI ガイドラインの一部としても配布されています。 [23]

このドキュメントでは、広く使用されているトランスクリプション ソフトウェアでサポートされているデータ モデルとエンコーディング プラクティスを考慮しています。より具体的には、次のツールを含むいくつかの相互運用性の研究[12], [16], [17], [19]に基づいています。

  • アンビル[10]
  • 一族[11]
  • エラン[22]
  • エクスマラダ[20]
  • フォルカー[18]
  • 文字起こし[1]

このドキュメントは、これらのツールによって生成される形式と互換性があるように開発されました。互換性は、さらなるラベリング ツールのフォーマット (たとえば、Praat [4]または Wavesurfer, http://www.speech.kth.se/wavesurfer/index2.html ) に拡張される可能性がありますが、おそらく下位レベルおよび/またはそれぞれのツールを使用して必須情報 (スピーカーの割り当てなど) を追加する前に、これらの形式を上記のいずれかに変換する必要があります。

このドキュメントは、広く使用されている転記システム (「規約」) で使用できるようにすることも目的としています。ただし、技術的な意味では、ツール形式とは異なり、これらのシステムのほとんどは明示的な形式化を欠いているため、この分野での互換性を簡単に定義することはできません。このドキュメントでは、次の転写システムの選択が考慮されました。

  • 写しの人間による分析のためのコード (CHAT) [11]
  • 談話転写 (DT) [7]
  • 会話分析転写システム (GAT) [21]
  • セミインタープリタティブワーキングトランスクリプション (HIAT) [13]

TEI はこのドキュメントの参照フレームワークであり、メタデータは主な関心事ではないため、TEI ヘッダー以外のメタデータの互換性の問題に対処する試みはここでは行われません。ただし、CMDI フレームワークにはいくつかの TEI プロファイルがあり、これらは相互に関連し、ISOCAT レジストリを介して他のメタデータ形式 (IMDI など) の CMDI プロファイルにも関連していることに注意してください (参考文献 [5], [6] も参照)および [9])

このドキュメントは、従来のデータ変換のターゲット形式と、将来のデータ処理要件に適した形式の両方を定義することを目的としています。これら 2 つの要求の長所と短所は、決定が下される前に慎重に検討されました。したがって、いくつかの時点で、データ処理の観点から特定の手法が優先されるとマークされていますが、レガシーデータの構造によりその使用が避けられない場合は、代替手法が引き続き許可されます。

ISO 委員会 TC 37/SC 4 内で開発された他の標準に関して、このドキュメントは、追加の注釈レイヤーを実装できるプライマリ レイヤーを提供することを目的としています。特に、書き起こしをトークン化するための <w> 要素の使用は、トークンの TEI ベースの表現 ISO 24611 (MAF) に準拠しています。

このドキュメントは、TEI ガイドラインで提案されている、スタンドオフ アノテーションを TEI ドキュメント内に埋め込むメカニズムにも対応しています。特に、このメカニズムには、同じ言語セグメントに関連する注釈をグループ化する汎用要素 (<annotationBlock>) が含まれています。 <u> 要素またはその子の注釈の場合、このグループ化はこのドキュメントのニーズを満たします。

最後に、このドキュメントは補足的なものであり、W3C 内で開発された音声およびマルチモーダル インタラクション関連の標準と重複しません。特に、SSML の場合のように音声合成を扱わず[24] 、EMMA のようにマルチモーダル発話の意味解釈の表現を扱わない。 [25]

Introduction

This document sets out to facilitate the interchange of transcriptions of spoken language between different computational tools and environments for creating, editing, publishing and exploiting such data. Transcription of spoken language in this context means an orthography-based transcription of verbal activity as recorded in an audio or video recording of a natural interaction. The description of activity in other modalities (e.g. body language, gestures and facial expression) may be part of a spoken language transcription, but this document starts from the assumption that the verbal dimension is the primary focus of a spoken language transcription. Likewise, although this document may also be relevant for transcription based on phonetic alphabets like the IPA, the assumption for this document is that orthography-based transcription is the default case.

This document is developed in the context of the joint agreement between ISO and the Text Encoding Initiative (TEI) consortium, and accordingly, its content is also distributed as part of the TEI guidelines.[23]

This document takes into account data models and encoding practices supported by widely used transcription software. More specifically, it builds on several interoperability studies[12],[16],[17],[19] involving the following tools:

  • ANVIL[10]
  • CLAN[11]
  • ELAN[22]
  • EXMARaLDA[20]
  • FOLKER[18]
  • Transcriber[1]

This document was developed to be compatible with the formats produced by these tools. The compatibility may extend to the formats of further labelling tools (e.g. Praat[4] or Wavesurfer, http://www.speech.kth.se/wavesurfer/index2.html ), but possibly on a lower level and/or with a requirement to convert these formats to one of the above-mentioned before adding mandatory information (e.g. speaker assignment) using the respective tools.

This document also aims to be usable with widely used transcription systems (“conventions”). However, in a technical sense, compatibility is not easily definable in this area since, unlike the tool formats, most of these systems lack an explicit formalization. The following selection of transcription systems was considered for this document:

  • Codes for the Human Analysis of Transcripts (CHAT)[11]
  • Discourse Transcription (DT)[7]
  • Gesprächsanalytisches Transkriptionssystem (GAT)[21]
  • Halbinterpretative Arbeitstranskriptionen (HIAT)[13]

Since TEI is the reference framework for this document and metadata is not its main concern, no attempt is made here to address metadata compatibility issues beyond the TEI header. However, it should be noted that there are several TEI profiles for the CMDI framework which are related both to each other and to CMDI profiles of other metadata formats (e.g. IMDI) via the ISOCAT registry (see also References [5], [6] and [9]).

This document aims to define both a target format for legacy data conversion and a format suitable for future data processing requirements. The pros and cons of these two demands were carefully weighed up before decisions were taken. At some points, certain techniques are therefore marked as preferred from a data processing point of view while an alternative technique is still allowed if the structure of legacy data makes its use unavoidable.

With regard to the other standards developed within ISO committee TC 37/SC 4, this document is intended to provide the primary layer on top of which further annotation layers may be implemented. In particular, the use of the <w> element for tokenizing a transcription is conformable to the TEI-based representation of tokens ISO 24611 (MAF).

This document also aligns with the mechanism proposed in the TEI guidelines to embed stand-off annotations within a TEI document. In particular, this mechanism contains a generic element (<annotationBlock>) that groups together annotations related to the same linguistic segment; this grouping meets the needs of this document in the case of annotations of <u> elements or its children.

Finally, this document is complementary and does not overlap with the speech and multimodal interaction-related standards developed within the W3C. In particular, it does not deal with speech synthesis as is the case for SSML,[24] nor does it deal with the representation of the semantic interpretation of multimodal utterances as does EMMA.[25]