この規格 プレビューページの目次
※一部、英文及び仏文を自動翻訳した日本語訳を使用しています。
序文
ISO (国際標準化機構) と IEC (国際電気標準会議) は、世界標準化のための専門システムを形成しています。 ISO または IEC のメンバーである各国団体は、特定の技術活動分野に対処するためにそれぞれの組織によって設立された技術委員会を通じて国際規格の開発に参加しています。 ISO と IEC の技術委員会は、相互に関心のある分野で協力します。政府および非政府の他の国際機関も、ISO および IEC と連携してこの作業に参加しています。
この文書の作成に使用される手順と、そのさらなる保守を目的とした手順は、ISO/IEC 指令Part 1 部に記載されています。特に、さまざまなタイプの文書に必要なさまざまな承認基準に注意する必要があります。この文書は、ISO/IEC 指令Part 2 部の編集規則に従って起草されました ( www.iso.org/directives or www.iec.ch/members_experts/refdocs を参照)
この文書の要素の一部が特許権の対象となる可能性があることに注意してください。 ISO および IEC は、そのような特許権の一部またはすべてを特定する責任を負わないものとします。文書の作成中に特定された特許権の詳細は、序論および/または受領した特許宣言の ISO リスト ( www.iso.org/patents を参照)、または受領した特許宣言の IEC リスト ( https://patents.iec.ch )
本書で使用されている商号は、ユーザーの便宜のために提供された情報であり、推奨を構成するものではありません。
規格の自主的な性質、適合性評価に関連する ISO 固有の用語と表現の意味、および貿易の技術的障壁 (TBT) における世界貿易機関 (WTO) 原則への ISO の準拠に関する情報については、 www を参照してください。 .iso.org/iso/foreword.html IEC については、 www.iec.ch/ Understanding-standards を参照してください。
この文書は、ISO/IEC JTC 1 の合同技術委員会、情報技術、分科委員会 SC 35, ユーザー インターフェイスによって作成されました。
序章
音声対話ユーザー インターフェイス (UI) は、産業アプリケーションや日常サービスに広く使用されています。例えば、電気通信業界における音声自動応答システムの一部として自動顧客サービスに適用することができ、コミュニケーションの観点からは、音声対話 UI は双方向通信を可能にする双方向ベースのシステムとして認識できます。初期段階では、従来の対話システムの音声対話 UI は一般に半二重 (HDX) ベースであり、ターン指向の作業モードになるように設計されていました。人間とマシンのインタラクションの要件が複雑かつ多様になるにつれて、ターン指向の音声インタラクション UI は人間とマシン間の会話には適さなくなりました。
現在、人間とマシン間のセッション指向の会話をサポートするために、音声対話 UI で全二重 (FDX) 技術が使用されています。ターン指向とセッション指向の音声インタラクションの最も大きな違いは、連続性と自然さであり、スマート スピーカー、チャットボット、インテリジェント アシスタントなど、音声インタラクション UI のさまざまなアプリケーションで大きな進歩をもたらしました。
近年、ますます多くの FDX 音声対話 UI が研究、開発されています。そのためには、標準化活動を通じて一般的なモデルと仕様を共通に理解する必要があります。産業界と学術界の両方の標準化ニーズに応えて、この文書は、FDX 音声対話 UI のリファレンス アーキテクチャ、機能コンポーネント、および技術要件を提供することを目的としています。システム設計者、開発者、サービスプロバイダー、および最終ユーザーの利益のために、この文書は次の条項で構成されています。
- 第 5 条では、FDX 音声対話の機能ビューと一般的な特徴について説明します。
- 第 6 条では、FDX 音声対話 UI のリファレンス アーキテクチャと機能層を提供します。
- 第 7 条では、各機能層に関する機能要件を指定します。
- 第 8 条では、FDX 音声対話 UI のプロセスについて説明します。
- 第 9 条では、FDX 音声対話 UI に関連するセキュリティとプライバシーの考慮事項について説明します。
1 スコープ
この文書では、全二重 (FDX) 音声対話用に設計されたユーザー インターフェイス (UI) を指定します。また、FDX 音声対話モデル、機能、機能コンポーネント、要件も規定しており、人間と機械の間の自然な会話インターフェイスをサポートするフレームワークを提供します。また、FDX 音声インタラクションを適用する際のプライバシーに関する考慮事項も提供します。
このドキュメントは、人間とマシンの間のセッション指向の FDX インタラクションをセットアップするための音声インタラクション用の UI および通信プロトコルに適用されます。
この文書は、音声対話エンジン自体を定義したり、特定のエンジン、デバイス、アプローチの詳細を指定したりするものではありません。
2 規範的参照
この文書には規範的な参照はありません。
3 用語と定義
この文書の目的上、次の用語と定義が適用されます。
ISO と IEC は、標準化に使用する用語データベースを次のアドレスで維持しています。
3.1
デュプレックス
双方向にデータを送信できる通信方式
[出典:ISO 21007-1:2005, 2.18]
3.2
全二重
FDX
同時に双方向にデータを送信できる通信方式
[出典:ISO 21007-1:2005, 2.25]
3.3
機能単位
指定された目的を達成できるハードウェアまたはソフトウェア、またはその両方の実体
グレード1~エントリー:機能ユニットをシステムとして統合可能。
[出典: ISO/IEC 2382:2015, 2123022, 修正 — エントリの注 1 が変更され、エントリの注 2 および 3 が削除されました。]
3.4
半二重
HDX
常に一方向のみであり、両方向にデータを送信できる通信方法
[出典:ISO 21007-1:2005, 2.27]
3.5
マイクアレイ
信号の空間特性をサンプリングしてフィルタリングする、明確な空間トポロジーを持つ複数のマイクで構成されるシステム
3.6
音声対話
音声による人間とシステム間の情報伝達およびコミュニケーションの活動
注記 1:システムは、 機能単位の組み合わせとして見ることができます (3.3) 。
3.7
音声認識
自動音声認識
ASR
機能ユニット(3.3) による、音声信号の音声内容の表現への変換
注記 1: 認識される内容は、適切な単語または音素のシーケンスとして表現できます。
[出典: ISO/IEC 2382:2015, 2120735, 修正 — エントリの注 2 ~ 4 が削除されました。]
3.8
音声合成
機械的方法または電子的方法によるデータからの音声の生成
注記 1:音声は、テキスト、画像、ビデオ、およびオーディオから生成できます。テキストから音声への変換プロセスは、 音声対話における主なアプローチです (3.6) 。
注2: 音声合成の結果は、人間の発声器官による自然音声と区別するために「人工音声」とも呼ばれる。
3.9
音声アクティビティの検出
VAD
連続音声ストリーム内の有効な音声の開始点と終了点を分析および識別するプロセス
3.10
音声トリガー
オーディオ ストリーム監視状態にあるシステム内のプロセス。特定の特徴やイベントが検出された後、コマンド ワード認識、連続音声認識、その他の処理状態に切り替わります。
参考文献
| 1 | ISO/IEC 2382:2015, 情報技術 - 語彙 |
| 2 | ISO/IEC 17789, 情報技術 - クラウド コンピューティング - リファレンス アーキテクチャ |
| 3 | ISO/IEC 22989, 情報技術 — 人工知能 — 人工知能の概念と用語 |
| 4 | 機械学習 (ML) を使用した人工知能 (AI) システムのための ISO/IEC 23053 フレームワーク |
| 5 | ISO 21007-1:2005, ガスシリンダー — 無線周波数識別技術を使用した識別とマーキング — Part 1: 参照アーキテクチャと用語 |
| 6 | ISO/IEC TR 23188, 情報技術 — クラウド コンピューティング — エッジ コンピューティングの状況 |
| 7 | ISO/IEC 23859-1, 情報技術 — ユーザー インターフェイス — 書かれたテキストを読みやすく理解しやすくするためのガイダンス |
| 8 | ISO/IEC TR 24372, 情報技術 — 人工知能 (AI) — AI システムの計算アプローチの概要 |
| 9 | ITU-T G.711, 音声周波数のパルス符号変調 (PCM) |
| 10 | ITU-T G.723.1, 5.3および 6.3 kbit/s で送信するマルチメディア通信用のデュアル レート音声コーダー |
| 11 | ITU-T P.800.1, 平均意見スコア (MOS) の用語 |
| 12 | ITU-T P.800.2, 平均意見スコアの解釈と報告 |
Foreword
ISO (the International Organization for Standardization) and IEC (the International Electrotechnical Commission) form the specialized system for worldwide standardization. National bodies that are members of ISO or IEC participate in the development of International Standards through technical committees established by the respective organization to deal with particular fields of technical activity. ISO and IEC technical committees collaborate in fields of mutual interest. Other international organizations, governmental and non-governmental, in liaison with ISO and IEC, also take part in the work.
The procedures used to develop this document and those intended for its further maintenance are described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types of document should be noted. This document was drafted in accordance with the editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives or www.iec.ch/members_experts/refdocs ).
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent rights. ISO and IEC shall not be held responsible for identifying any or all such patent rights. Details of any patent rights identified during the development of the document will be in the Introduction and/or on the ISO list of patent declarations received (see www.iso.org/patents ) or the IEC list of patent declarations received (see https://patents.iec.ch ).
Any trade name used in this document is information given for the convenience of users and does not constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions related to conformity assessment, as well as information about ISO's adherence to the World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT) see www.iso.org/iso/foreword.html . In the IEC, see www.iec.ch/understanding-standards .
This document was prepared by Joint Technical Committee ISO/IEC JTC 1, Information technology, Subcommittee SC 35, User interfaces.
Introduction
Speech interaction user interface (UI) has been widely used for industrial applications and daily services. For example, it can be applied to automatic customer service in the telecommunication industry as a part of an interactive voice response system. From a communication point of view, a speech interaction UI can be recognized as a duplex-based system which enables bidirectional communication. In the early stages, speech interaction UIs for conventional dialogue systems were generally half duplex (HDX) based and were designed to be in a turn-oriented work mode. As the requirements of human-machine interaction have grown in complexity and diversity, the turn-oriented speech interaction UI has become unfit for a conversation between humans and machines.
Currently, full duplex (FDX) techniques are used in the speech interaction UI to support session-oriented conversations between humans and machines. The most significant differences between turn-oriented and session-oriented speech interactions are continuity and naturalness, which have made great progress in various applications of speech interaction UI, e.g. smart speaker, chatbot, intelligent assistant.
In recent years, a growing number of FDX speech interaction UIs have been studied and developed. This requires a common understanding of general models and specifications through standardization activities. In response to the standardization needs both from industry and academia, this document intends to provide a reference architecture, functional components and technical requirements of FDX speech interaction UI. For the benefit of system designers, developers, service providers and ultimate users, this document is composed of the following clauses:
- Clause 5 describes a functional view and general features of FDX speech interaction;
- Clause 6 provides a reference architecture and functional layers of FDX speech interaction UI;
- Clause 7 specifies the functional requirements regarding each functional layer;
- Clause 8 discusses the processes of FDX speech interaction UI;
- Clause 9 describes security and privacy considerations related to FDX speech interaction UI.
1 Scope
This document specifies user interfaces (UIs) designed for full duplex (FDX) speech interaction. It also specifies the FDX speech interaction model, features, functional components and requirements, thus providing a framework to support natural conversational interfaces between humans and machines. It also provides privacy considerations for applying FDX speech interaction.
This document is applicable to UIs for speech interaction and communication protocols for setting up a session-oriented FDX interaction between humans and machines.
This document does not define the speech interaction engines themselves or specify the details of specific engines, devices and approaches.
2 Normative references
There are no normative references in this document.
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
3.1
duplex
method of communication capable of transmitting data in both directions
[SOURCE:ISO 21007-1:2005, 2.18]
3.2
full duplex
FDX
method of communication capable of transmitting data in both directions at the same time
[SOURCE:ISO 21007-1:2005, 2.25]
3.3
functional unit
entity of hardware or software, or both, capable of accomplishing a specified purpose
Note 1 to entry: Functional units can be integrated as a system.
[SOURCE:ISO/IEC 2382:2015, 2123022, modified — Note 1 to entry has been changed and Note 2 and 3 to entry have been removed.]
3.4
half duplex
HDX
method of communication capable of transmitting data in both directions but only in one direction at any time
[SOURCE:ISO 21007-1:2005, 2.27]
3.5
microphone array
system that is composed of multiple microphones with definite spatial topology, which samples and filters the spatial characteristics of signals
3.6
speech interaction
activities of information transmission and communication between humans and a system through speech
Note 1 to entry: A system can be seen as a combination of functional units (3.3) .
3.7
speech recognition
automatic speech recognition
ASR
conversion, by a functional unit (3.3) , of a speech signal to a representation of the content of the speech
Note 1 to entry: The content to be recognized can be expressed as a proper sequence of words or phonemes.
[SOURCE:ISO/IEC 2382:2015, 2120735, modified — Notes 2 to 4 to entry have been removed.]
3.8
speech synthesis
generation of speech from data through a mechanical method or electronic method
Note 1 to entry: Speech can be generated from text, image, video and audio. The process of conversion from text to speech is the main approach in speech interaction (3.6) .
Note 2 to entry: The result of speech synthesis is also called"artificial speech" in order to differ from natural speech through human vocal organs.
3.9
voice activity detection
VAD
process of analysis and identification of the starting and ending points of valid speech in a continuous speech stream
3.10
voice trigger
process in a system in the audio stream monitoring state, which switches to command word recognition, continuous speech recognition and other processing states after the detection of certain features or events
Bibliography
| 1 | ISO/IEC 2382:2015, Information technology — Vocabulary |
| 2 | ISO/IEC 17789, Information technology — Cloud computing — Reference architecture |
| 3 | ISO/IEC 22989, Information technology — Artificial intelligence — Artificial intelligence concepts and terminology |
| 4 | ISO/IEC 23053, Framework for Artificial Intelligence (AI) Systems Using Machine Learning (ML) |
| 5 | ISO 21007-1:2005, Gas cylinders — Identification and marking using radio frequency identification technology — Part 1: Reference architecture and terminology |
| 6 | ISO/IEC TR 23188, Information technology — Cloud computing — Edge computing landscape |
| 7 | ISO/IEC 23859-1, Information technology — User interfaces — Guidance on making written text easy to read and easy to understand |
| 8 | ISO/IEC TR 24372, Information technology — Artificial intelligence (AI) — Overview of computational approaches for AI systems |
| 9 | ITU-T G.711, Pulse code modulation (PCM) of voice frequencies |
| 10 | ITU-T G.723.1, Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbit/s |
| 11 | ITU-T P.800.1, Mean opinion score (MOS) terminology |
| 12 | ITU-T P.800.2, Mean opinion score interpretation and reporting |