この規格 プレビューページの目次
※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。
序文
ISO (国際標準化機構) と IEC (国際電気標準会議) は、世界標準化のための専門システムを形成しています。 ISO または IEC のメンバーである各国機関は、特定の技術活動分野に対処するために各組織によって設立された技術委員会を通じて国際規格の開発に参加しています。 ISO と IEC の技術委員会は、相互に関心のある分野で協力します。政府および非政府の他の国際機関も、ISO および IEC と連携してこの作業に参加しています。情報技術の分野では、ISO と IEC は共同技術委員会 ISO/IEC JTC 1 を設立しました。
この文書の作成に使用される手順と、そのさらなる保守を目的とした手順は、ISO/IEC 指令第 1 Part に記載されています。特に、さまざまなタイプの文書に必要なさまざまな承認基準に注意する必要があります。この文書は、ISO/IEC 指令Part 2 部の編集規則に従って起草されました ( www.iso.org/directives を参照)
この文書の要素の一部が特許権の対象となる可能性があることに注意してください。 ISO および IEC は、そのような特許権の一部またはすべてを特定する責任を負わないものとします。文書の作成中に特定された特許権の詳細は、序論および/または受け取った特許宣言の ISO リストに記載されます ( www.iso.org/patents を参照)
本書で使用されている商号は、ユーザーの便宜のために提供された情報であり、推奨を構成するものではありません。
規格の自主的な性質、適合性評価に関連する ISO 固有の用語と表現の意味、および貿易の技術的障壁 (TBT) における世界貿易機関 (WTO) 原則への ISO の準拠に関する情報については、次の資料を参照してください。次の URL: www.iso.org/iso/foreword.html
この文書は、技術委員会 ISO/IEC JTC 1, 情報技術、分科会 SC 35, ユーザー インターフェイスによって作成されました。
ISO/IEC 20382 シリーズのすべての部品のリストは、ISO の Web サイトでご覧いただけます。
導入
特別な要件を持つ人々が ICT から同じ恩恵を受けられるように配慮することが重要です。特別な要件の 1 つは、人々がグローバルな環境で言語の壁を回避できるようにすることです。自動音声翻訳システムは長い間存在していましたが、機能的な制限だけでなく、使いやすさやアクセシビリティに関して技術的な制限もありました。付録 A は、対面での音声翻訳の歴史を示しています。
これらの制限の理由の 1 つは、現在使用されている言語の多様性です。 1 つまたは複数の音声翻訳システムで多くの言語をサポートすることは困難です。多くの国ですでに開発されている多くの音声翻訳システムを利用して、すべての異なる言語を処理するには、柔軟で相互運用可能な標準化されたフレームワークが必要です。自然で使いやすい音声翻訳サービスを可能にするためのその他の考慮事項には、感情、話し方、性別タイプ、その他の属性などのユーザーの特性をシステム内に適用することが含まれます。これらの特性を出力音声翻訳に反映するには、入出力データを反映してユーザーのデバイスに転送するための標準化されたユーザー インターフェイスが必要です。
この文書は、異なる言語を持つ人々の間で対面での音声翻訳を可能にすることを目的としています。音声認識技術、言語翻訳技術、音声合成技術の 3 つの技術は、音声翻訳機能を構築できるほど成熟しています。モバイルデバイスを使用した対面式の音声翻訳デバイスやサービスが数多くあります。ただし、ユーザーはサービスの使用方法を習得する必要があり、音声翻訳システムを制御するために両手を使用する必要があり、通常は片手だけを使用したい場合、現在の音声翻訳を使用することはできません。システムやサービス。このユーザビリティの問題を克服するために、このドキュメントでは、同じ言語を使用する人々の間の会話を正確に追跡する方法を提案します。このドキュメントの方法はハンズフリーであり、事前トレーニングは必要ありません。その意味で、この方式は対面音声翻訳の究極のユーザーインターフェースであり、言語の壁のない世界を拓くものとなるでしょう。
1 スコープ
この文書は、異なる言語の複数の翻訳システム間で相互運用できるように設計された対面音声翻訳の機能コンポーネントを指定します。また、音声翻訳の特徴、一般的な要件および機能も規定しており、対面の状況で便利な音声翻訳サービスをサポートするフレームワークを提供します。この文書は、音声翻訳デバイス、サーバー、および音声翻訳サーバーとクライアント間の通信プロトコルに高レベルのアプローチで適用されます。このドキュメントでは、さまざまな環境におけるさまざまなシステム アーキテクチャも定義します。このドキュメントは、音声認識エンジン、言語翻訳エンジン、および音声合成エンジンの定義には適用されません。
2 規範的参照
この文書には規範的な参照はありません。
3 用語、定義、および略語
3.1 用語と定義
この文書には用語や定義は記載されていません。
ISO と IEC は、標準化に使用する用語データベースを次のアドレスで維持しています。
3.2 略語
| UTF-8 | IETF RFC 2279 (1998) で定義された Unicode 標準、UTF-8, ISO/IEC 10646 の変換形式 |
参考文献
| 1 | ISO/IEC 10646, 情報技術 - Universal Coded Character Set (UCS) |
| 2 | ISO/IEC 20382‑1, 情報技術 — ユーザー インターフェイス — 対面での音声翻訳 — Part 1: ユーザー インターフェイス |
| 3 | ITU-T H.62, ネットワークベースの音声対音声翻訳サービスのアーキテクチャ |
| 4 | ITU-T F.74, ネットワークベースの音声認識翻訳サービスの機能要件 (改訂版) |
| 5 | IETF RFC 227, UTF-8, ISO 10646 の変換形式 |
Foreword
ISO (the International Organization for Standardization) and IEC (the International Electrotechnical Commission) form a specialized system for worldwide standardization. National bodies that are members of ISO or IEC participate in the development of International Standards through technical committees established by the respective organizations to deal with particular fields of technical activity. ISO and IEC technical committees collaborate in fields of mutual interest. Other international organizations, governmental and non-governmental, in liaison with ISO and IEC also take part in the work. In the field of information technology, ISO and IEC have established a joint technical committee, ISO/IEC JTC 1.
The procedures used to develop this document and those intended for its further maintenance are described in the ISO/IEC Directives, Part 1. In particular the different approval criteria needed for the different types of documents should be noted. This document was drafted in accordance with the editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives ).
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent rights. ISO and IEC shall not be held responsible for identifying any or all such patent rights. Details of any patent rights identified during the development of the document will be in the Introduction and/or on the ISO list of patent declarations received (see www.iso.org/patents ).
Any trade name used in this document is information given for the convenience of users and does not constitute an endorsement.
For an explanation on the voluntary nature of standards, the meaning of ISO specific terms and expressions related to conformity assessment, as well as information about ISO's adherence to the World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT) see the following URL: www.iso.org/iso/foreword.html .
This document was prepared by Technical Committee ISO/IEC JTC 1, Information technology, Subcommittee SC 35, User interfaces.
A list of all parts in the ISO/IEC 20382- series can be found on the ISO website.
Introduction
It is important to consider people with special requirements to ensure that they can gain the same benefits from ICT. One of those special requirements is to help people to avoid language barriers in global environments. Automatic speech translation systems have existed for a long time, but they have functional limitations as well as technical ones with regard to usability and accessibility. Annex A shows a history of face-to-face speech translation.
One reason for these limitations is the diversity of the languages currently used. It is difficult to support many languages by one or several speech translation systems. A flexible and interoperable standardized framework is needed to work with all different languages utilizing many speech translation systems already developed in many countries. Other considerations to make a natural and usable speech translation service possible include applying users’ characteristics within the system, such as emotion, speech style, gender type and other attributes. To reflect those characteristics in the output speech translation, a standardized user interface is required to reflect the input and output data and transfer them to the user’s device.
This document aims to enable face-to-face speech translation among people with different languages. The three technologies, i.e., speech recognition, language translation, and speech synthesis technologies, are mature enough to build a speech translation function. There are many face-to-face speech translation devices and/or services using mobile devices. However, the user needs to learn how to use the service and needs to use both hands to control the speech translation system. If the user wishes to use only one hand, which is usually the case, he or she cannot use the current speech translation systems and/or services. To overcome this usability issue, this document suggests a method that exactly follows the conversation among people with the same language. The method in this document is hands‑free, and does not require any pre-training. In this sense, this method is the ultimate user interface of face-to-face speech translation and will open a world without language barriers.
1 Scope
This document specifies the functional components of face-to-face speech translation designed to interoperate among multiple translation systems with different languages. It also specifies the speech translation features, general requirements and functionality, thus providing a framework to support a convenient speech translation service in face-to-face situations. This document is applicable to speech translation devices, servers and communication protocols among speech translation servers and clients in a high-level approach. This document also defines various system architectures in different environments. This document is not applicable to defining speech recognition engines, language translation engines and speech synthesis engines.
2 Normative references
There are no normative references in this document.
3 Terms, definitions and abbreviated terms
3.1 Terms and definitions
No terms and definitions are listed in this document.
ISO and IEC maintain terminological databases for use in standardization at the following addresses:
3.2 Abbreviated terms
| Utf-8 | Unicode standard defined in IETF RFC 2279 (1998), UTF-8, a transformation format of ISO/IEC 10646 |
Bibliography
| 1 | ISO/IEC 10646, Information technology — Universal Coded Character Set (UCS) |
| 2 | ISO/IEC 20382‑1, Information technology — User interfaces — Face-to-face speech translation — Part 1: User interface |
| 3 | ITU-T H.625 (2017), Architecture for network-based speech‑to‑speech translation services |
| 4 | ITU-T F.745 (2016), Functional requirements for network‑based speech-to-speech translation services (Rev.) |
| 5 | IETF RFC 2279 (1998), UTF-8, a transformation format of ISO 10646 |