この規格ページの目次
日本工業規格(日本産業規格) JIS
X 0221 : 2014
(ISO/IEC 10646 : 2012)
国際符号化文字集合(UCS)
Information technology-Universal Coded Character Set (UCS)
序文
この規格は,2012年に第3版として発行されたISO/IEC 10646を基に,技術的内容及び構成を変更する
ことなく作成した日本工業規格(日本産業規格)である。
なお,この規格で点線の下線を施してある参考事項及び附属書JA(参考)は,対応国際規格にはない事
項である。
1 適用範囲
この規格は,国際符号化文字集合を規定する。この規格は,世界の言語(用字)を書き表した形(表記
形)及び記号の表現・伝送・交換・処理・蓄積・入力・表示に適用できる。
この規格は,国際符号化文字集合(以下,“この符号化文字集合”又は“UCS”という。)について,次
の事項を規定する。
− この符号化文字集合の全体的な体系。
− この規格で使用する用語の定義。
− UCS符号空間の構造。
− UCSの基本多言語面(BMP)の定義。
− UCSの追加多言語面(SMP),追加漢字面(SIP),第三漢字面(TIP)及び追加特殊用途面(SSP)の
定義。
− 世界の言語の用字及び表記形で使用する図形文字の集合の定義。
− BMP,SMP,SIP,TIP及びSSP上の図形文字及び書式文字の名前並びにこれらのUCS符号空間にお
ける符号化表現。
− 制御機能及び私用文字の符号化表現。
− UCSの三つの符号化形式 : UTF-8,UTF-16及びUTF-32。
− UCSの七つの符号化方式 : UTF-8,UTF-16,UTF-16BE,UTF-16LE,UTF-32,UTF-32BE及びUTF-32LE。
− この符号化文字集合への将来の追加方法。
UCSは,JIS X 0202で規定されたものとは異なる方式による符号系である。JIS X 0202からUCSを指示
する方法は,12.2による。
この規格では,一つの図形文字に対して,BMP又は他の追加面の中から,ただ一つの符号位置を割り当
てる。
注記 ユニコード標準(Unicode Standard)の第6.1版は,この規格と同一の文字,名前及び符号化表
現の一式を含んでいる。加えて,文字の特性の詳細,処理のアルゴリズム及び実装者に有用な
定義を含んでいる。
――――― [JIS X 0221 pdf 6] ―――――
2
X 0221 : 2014 (ISO/IEC 10646 : 2012)
注記A この規格の対応国際規格及びその対応の程度を表す記号を,次に示す。
ISO/IEC 10646:2012,Information technology−Universal Coded Character Set (UCS)(IDT)
なお,対応の程度を表す記号“IDT”は,ISO/IEC Guide 21-1に基づき,“一致している”
ことを示す。
2 適合性
2.1 概要
規定外の私用文字をこの規格の規定に従って使用する場合,その文字自身は,この適合性要件の適用外
とする。
注記 私用文字については,6.3.5を参照。
2.2 情報交換の適合性
交換用符号化情報中の符号単位列(CCデータ要素)は,次の条件を全て満たしている場合に,この規
格に適合する。
a) 符号単位列中の図形文字の符号化表現は,全て箇条6に適合し,箇条9に示すうちから選択した一つ
の識別された符号化形式に適合し,かつ,箇条10に示すうちから選択した一つの識別された符号化方
式に適合する。
b) 符号単位列中で表現されている図形文字は,全て識別された部分集合(箇条8参照)の図形文字から
なる。
c) 符号単位列中の制御機能の符号化表現は,全て箇条11に適合する。
適合性を主張する場合,採用した符号化形式及び符号化方式を明示するとともに,採用した部分集合を
組及び/又は文字の一覧で明示しなければならない。
2.3 装置の適合性
装置は,次のa)の要件に適合し,かつ,b)及び/又はc)に適合する場合,この規格に適合する。
適合性を主張する場合,次のa)に規定する記述を含む文書を明示しなければならず,採用した符号化形
式,符号化方式,部分集合及び箇条11に従って採用した制御機能の種類を明示しなければならない(部分
集合は,組及び/又は文字の一覧によって示す。)。
a) 装置についての記述 この規格に適合する装置には,それぞれ次のb)及びc)に規定するとおり,利用
者が装置に文字を送出できる方法及び/又は文字が利用者に提示されたときに利用者がそれを認識で
きる方法を明示した記述を備えなければならない。
b) 送信装置 送信装置は,採用した部分集合から利用者が任意の文字を送出できるようにしなければな
らない。さらに,送信装置は,符号単位列中にあるそれらの文字の符号化表現を,採用した符号化形
式及び符号化方式に従って送信する能力をもたなければならない。したがって,送信装置は,誤った
形式の符号単位列を送出してはならない。
c) 受信装置 受信装置は,符号単位列中にある任意の文字の符号化表現を,採用した符号化形式及び符
号化方式に従って受信し解釈する能力をもたなければならない。さらに,受信装置は,符号化表現に
対応する文字が採用した部分集合にある場合,その全てを,利用者が識別できる方法で,利用者に渡
さなければならない。受信装置は,誤った形式の符号単位列を誤った状態として処理しなければなら
ず,そのようなデータを文字列として解釈してはならない。
対応する文字が採用した部分集合にない場合,それらの文字を利用者に示さなければならない。それら
を示す方法は,文字を互いに区別する必要はない。
――――― [JIS X 0221 pdf 7] ―――――
3
X 0221 : 2014 (ISO/IEC 10646 : 2012)
注記1 この規格では,誤り条件についても,採用した部分集合にない文字を利用者に示す方法につ
いても,規定しない。
注記2 再送能力をもつ受信装置については,附属書Jを参照。
3 引用規格
次に掲げる規格は,この規格に引用されることによって,この規格の規定の一部を構成する。これらの
引用規格は,その最新版(追補を含む。)を適用する。
JIS X 0202 情報技術−文字符号の構造及び拡張法
注記 対応国際規格 : ISO/IEC 2022,Information technology−Character code structure and extension
techniques(IDT)
JIS X 0211 符号化文字集合用制御機能
注記 対応国際規格 : ISO/IEC 6429,Information technology−Control functions for coded character sets
(IDT)
ユニコード附属書, UAX #9 The Unicode Bidirectional Algorithm
<http://www.unicode.org/reports/tr9/tr9-25.html>
ユニコード附属書, UAX #15 Unicode Normalization Forms
<http://www.unicode.org/reports/tr15/tr15-35.html>
ユニコード技術標準, UTS #37 Ideographic Variation Database
<http://www.unicode.org/reports/tr37/tr37-8.html>
ユニコード標準第6.1版, Chapter 4 Character Properties
<http://www.unicode.org/versions/Unicode6.1.0/ch04.pdf>
Section 4.3, Combining Classes−規定
Section 4.5, General Category−規定
Section 4.7, Bidi Mirrored−規定
4 用語及び定義
この規格で用いる主な用語及び定義は,次による。
4.1
基底文字(base character)
結合文字でない図形文字。
注記1 図形文字の多くは,基底文字である。基底文字を表示するときに,文脈に依存した様々な形
を用いたり,合字(ligature)の一部にしたりすることを,結合文字でないということが排除
するものではない。
注記2 基底文字は,先行する文字と図形的に結合しないことが普通だが,幾つかの複雑な書記系で
は例外がある。
4.2
基本多言語面,BMP(basic multilingual plane, BMP)
UCS符号空間の面00。
4.3
ブロック(block)
――――― [JIS X 0221 pdf 8] ―――――
4
X 0221 : 2014 (ISO/IEC 10646 : 2012)
共通の特性をもつ文字の集合(例えば,用字)が割り当てられた符号位置の連続する範囲。ブロック同
士は,重なり合わない。ブロック中には,文字が割り当てられていない符号位置が一つ以上あってもよい。
4.4
基準形式(canonical form)
この符号化文字集合の文字を,UCS符号空間中の一つの符号位置を用いて表現する形式。
注記 基準形式を,UCS符号位置と一つ以上の符号単位との関係を意味する符号化形式と混同しては
ならない(4.23参照)。
4.5
文字(character)
データの構成,制御又は表現に用いる要素の集合の構成単位。
注記 図形記号は,一つ以上の符号化文字の列によって表現されることもある。
4.6
文字境界(character boundary)
符号化文字の最後の符号単位と次に続く符号化文字の最初の符号単位との間の(符号単位列の)境目。
4.7
符号表(code chart, code table)
UCS符号空間のある範囲に割り当てた符号化文字群の表現を,長方形に配置して示したもの。
4.8
符号化文字(coded character)
文字と符号位置とを結びつけたもの。
4.9
符号化文字集合(coded character set)
符号化文字の集合。
4.10
符号位置(code point, code position)
UCS符号空間中の値。
4.11
符号単位(code unit)
処理又は交換用の符号化テキストの単位を表現できる,最小のビット組合せ。
注記 符号単位の例として,UTF-8符号形式で用いるオクテット(8ビットの符号単位),UTF-16符
号形式で用いる16ビットの符号単位及びUTF-32符号形式で用いる32ビットの符号単位があ
る。
4.12
符号単位列,CCデータ要素,符号化文字データ要素(code unit sequence, CC-data-element,
coded-character-data-element)
符号化文字集合に関する特定された一つ以上の規格に適合して,符号単位の並びを構成するように仕様
決めされた,情報交換の単位。
注記1 この列は,どのような種類の符号位置に対応付けられる符号単位をも含むことができる。
注記2 この規格では,この規格の以前の版と異なり,もはや実装水準を用いない。その符号単位列
の定義は,以前の実装水準3(制限のない水準)に対応する。従来,水準1又は2として知
――――― [JIS X 0221 pdf 9] ―――――
5
X 0221 : 2014 (ISO/IEC 10646 : 2012)
られていた符号単位列の定義は,廃止された。これらの従来の版との互換性を維持するため
に,JIS X 5605及びJIS X 5606のような規格の中の符号化表現を識別する文脈においては,
その実装の方針は,“実装水準3”として参照できる。附属書N参照。
4.13
組(collection)
番号及び名前が付けられたものの集合。
注記1 拡張組(4.25参照)でない組は,符号位置が一つ以上の識別された範囲に含まれるような符
号化文字だけからなる集合である。
注記2 識別された範囲のいずれかに文字の割り当てられていない符号位置があり,将来この規格の
改正によってそのどこかの符号位置に追加文字が割り当てられたときには,組のレパートリ
が変わる。しかし,組の番号及び名前は,この規格の将来の版においても変えないことを意
図している。
4.14
結合文字(combining character)
一般分類の値が,Spacing Combining Mark(Mc),Non Spacing Mark(Mn)又はEnclosing Mark(Me)の
いずれかである文字。
注記 結合文字は,先行する,結合文字でない図形文字と組み合わせるか,又は結合文字ではない文
字の後に結合文字の列が続いた形のものと組み合わせることを意図している(4.17参照)。
4.15
結合クラス(combining class)
結合文字の図形文字に対する作用及び結合文字の並びの中での基準順序を決定するために,個々の結合
文字に対応付けた値。
4.16
互換用文字(compatibility character)
主として既存の符号化文字集合との互換性のため,この規格に符号化文字として含めた図形文字。
4.17
合成列(composite sequence)
基底文字とそれに続く一つ以上の結合文字,ZERO WIDTH JOINER又はZERO WIDTH NON-JOINER
とからなる図形文字の列(4.14参照)。
注記1 合成列からなる図形記号は,通常,その合成列を構成する各文字の図形記号の組合せからな
る。
注記2 合成列は,この規格のレパートリとして符号化されていない文字を表現するために用いるこ
とができる。
注記2A ZERO WIDTH JOINER及びZERO WIDTH NON-JOINERについては,F.1.1を参照。
4.18
制御文字(control character)
その符号化表現が一つの符号位置からなる制御機能。
注記 制御文字は,DELETE,FORM FEED,ESCなどの名前のようなものを用いて呼ぶことがあるが,
これらの呼び名は,正式な文字の名前ではない。JIS X 0211が制御文字に対応させている長い
名前の一覧は,箇条11を参照。
――――― [JIS X 0221 pdf 10] ―――――
次のページ PDF 11
JIS X 0221:2014の引用国際規格 ISO 一覧
- ISO/IEC 10646:2012(IDT)
JIS X 0221:2014の国際規格 ICS 分類一覧
- 35 : 情報技術.事務機械 > 35.040 : 文字セット及び符号化
JIS X 0221:2014の関連規格と引用規格一覧
- 規格番号
- 規格名称
- JISX0202:1998
- 情報技術―文字符号の構造及び拡張法
- JISX0211:1994
- 符号化文字集合用制御機能