JIS X 0221:2014 国際符号化文字集合(UCS) | ページ 4

                                                                                             11
X 0221 : 2014 (ISO/IEC 10646 : 2012)
図1−国際符号化文字集合の面

6.2 文字の符号化

  UCS符号空間の中で符号化される個々の文字は,010FFFFの範囲の一つの整数によって表現され,符
号位置として識別される。
一つの文字を符号位置によって識別するときには,整数の6桁形式によって次のように表現する。
000030は,DIGIT ZEROを表現する。
000041は,LATIN CAPITAL LETTER Aを表現する。
010000は,LINEAR B SYLLABLE B008 Aを表現する。
面00の中の文字を引用するときは,先頭の2桁の数字を省略してもよい。面01面0Fの中の文字を引
用するときは,頭の1桁の数字を省略してもよい。例えば,次のように表現してもよい。

――――― [JIS X 0221 pdf 16] ―――――

12
X 0221 : 2014 (ISO/IEC 10646 : 2012)
0030によって,DIGIT ZEROを表現する。
0041によって,LATIN CAPITAL LETTER Aを表現する。
10000によって,LINEAR B SYLLABLE B008 Aを表現する。

6.3 符号位置の種類

6.3.1  分類
UCS符号位置は,一般分類の値に基づいて基本の種類に分類される。一般分類の値は,ユニコード標準
第6.1版の一般分類特性に従って決定する(箇条3参照)。表1に種類をまとめる。
表1−符号位置の種類
基本の種類 概要 一般分類 文字の状態 符号位置の状態
図形 文字として
字,マーク,数,句読点,記号及び空白 L,M,N,P, 割当て済みの
S及びZs 割当て済み 符号位置
書式 可視化されずに周囲の文字に影響するCf,Zl及びZp
制御 一つの符号位置からなる制御機能 Cc
私用 この規格の外側での私的な合意に基づCo
き定義する用途
サロゲート UTF-16のために永久に保留 Cs 文字として
非文字 内部利用のために永久に保留 Cn 割り当てていない
保留 将来の割当てのために保留 割り当てていない
符号位置
サロゲート,非文字(noncharacter)及び保留の符号位置は,文字として割り当てていないので交換には
制約がある。例えば,サロゲート符号位置は,どのUCS符号化形式にも正しい形式の表現がない。
6.3.2 図形文字
同一の図形文字を複数の符号位置に割り当てることはない。この符号化文字集合には,似た形の図形文
字が複数存在するが,それらは,異なる目的で使用する異なる文字であって,異なる名前をもつ。
6.3.3 書式文字
書式文字は,可視化されずに周囲の文字に影響を与えるような文字の分類である。
6.3.4 制御文字
BMPの符号位置0000001F及び007F009Fは,制御文字のために保留する(箇条11参照)。
6.3.5 私用文字
BMPの符号位置E000F8FFは,私用のために保留する。面0F及び面10の,FFFFE,FFFFF,10FFFE
及び10FFFFを除く全ての符号位置は,私用のために保留する。
この規格では,私用文字にはいかなる制限も加えない。私用文字は,利用者定義の文字を備えるのに使
用できる。例えば,これは,漢字の用字の利用者には一般的な要件となる。
注記 私用文字の意味のある交換のためには,この規格とは別に,送信者と受信者との間の合意が必
要となる。
6.3.6 サロゲート符号位置
符号位置D800DFFFは,UTF-16の符号化形式で使用するために保留する(9.2参照)。前半(D800
DBFF)を上位サロゲート符号位置とし,後半(DC00DFFF)を下位サロゲート符号位置とする。
6.3.7 非文字符号位置
非文字である符号位置の状態を将来の規格の改正によって変更することは,ない。非文字は,FDD0

――――― [JIS X 0221 pdf 17] ―――――

                                                                                             13
X 0221 : 2014 (ISO/IEC 10646 : 2012)
FDEF及び下位4桁がFFFE又はFFFFであるような全ての符号位置とする。
注記 符号位置FFFEは,“印”(しるし)用に保留する。符号位置FDD0FDEF及びFFFFは,符号
化文字ではないことが保証された数値を必要とする内部処理に使用できる(例えば,表を終了
させる,テキストの終わりを通知するなど。)。さらに,FFFFは,BMPの最大値であるから,
UTF-16の文脈においては,2進探索又は順次探索の索引最終値として使用することもできる。
6.3.8 保留符号位置
保留符号位置は,将来の標準化のために保留する。保留符号位置を他の目的に用いてはならない。この
規格の将来の版は,保留の符号位置に文字を割り当てることがある。

6.4 文字の名前

  この規格は,全ての図形文字及び書式文字に一意的な名前を付ける。命名の基準は,次のいずれかとす
る。
a) 文字の慣例的な意味を示す。
b) 対応する図形記号の形を表す。
c) 中国,日本及び韓国の漢字(CJK漢字)については,24.6に示す規則に従う。
d) ハングル音節については,24.7に示す規則に従う。
文字によっては,文字の別名と呼ぶ代替の名前を一つ以上もつことがある。これは,元の名前を補正す
るものである。文字の名前を構成するためのその他の規則は,箇条24に示す。
CJK統合漢字及びハングル音節以外の文字の名前の一覧を箇条31に示す。
注記 文字の名前の一覧は,ユニコードの文字データベースにも含まれている。これは,
<http://www.unicode.org/Public/UNIDATA/NamesList.txt>
に あ り , 構 文 は ,
<http://www.unicode.org/Public/UNIDATA/NamesList.html>に記載されている。

6.5 符号位置の短い識別子(UID)

  この規格は,保留されている(未割当ての)符号位置を含む各符号位置の短い識別子(short identifier)
を定義する。いずれの符号位置の短い識別子も,他のいずれの符号位置の短い識別子とは異なる。ある文
字がある符号位置に配置されているとき,その符号位置の短い識別子は,その符号位置に配置される文字
を引用するために使用できる。
注記1 例えば,U+DC00は,サロゲートの符号位置を識別し,U+FFFFは,非文字の符号位置を識
別する。U+0025は,図形文字が配置されている符号位置を識別する。同時に,U+0025は,
そこに配置される文字(すなわち,PERCENT SIGN)をも識別する。
注記2 この短い識別子は,規格の記述に使用される言語とは独立である。規格の文章を翻訳する場
合でも,そのままにする。
ここでは,短い識別子を次のいずれかとして定義する。
a) 短い識別子の6桁形式は,文字の符号位置を示す六つの16進数字の列とする(6.2参照)。
b) 短い識別子の45桁形式は,6桁形式の最後の四つ又は五つの数字とする。4桁を超える部分の頭の
0は,省略する。
c) 短い識別子の45桁形式又は6桁形式の前に,文字“+”(PLUS SIGN)を付けてもよい。
d) 上のa) c)で定義した三つの短い識別子の形式の前に,前置文字(prefix letter)“U”(LATIN CAPITAL
LETTER U)を付けてもよい。
短い識別子の中に現れる大文字のAF及びUは,対応する小文字に置き換えてもよい。
バッカス・ナウア記法(Backus-Naur form)による,短い識別子の完全な構文は,次による。

――――― [JIS X 0221 pdf 18] ―――――

14
X 0221 : 2014 (ISO/IEC 10646 : 2012)
[{ U | u}][{+}](xxxx | xxxxx | xxxxxx)
ここに,“x”は,一つの16進数字(09,AF又はaf)を表す。
例 LATIN SMALL LETTER LONG Sは,次のいずれの形式によって表記してもよい。
017F +017F U017F U+017F
任意の大文字を対応する小文字に置き換えてもよい。

6.6 UCS列識別子

  この規格は,この規格中の任意の符号位置の列に対して識別子を定義する。このような識別子を,UCS
列識別子(以下,USIという。)という。n個の符号位置からなる列のUCS識別子は,次の形式とする。
<UID1, UID2, ..., UIDn>
ここに,UID1,UID2などは,対応する符号位置の短い識別子であって,列における符号位置の出現順序
と同じ順に表記する。このような列におけるそれぞれの符号位置に文字が割り当てられている場合,それ
らの符号位置に割り当てられた文字の列を識別するためにUSIを用いることができる。UID1,UID2など
の構文は,6.5で規定する。UIDの間は,COMMA(コンマ)で区切る。COMMAの後ろに一つのSPACE(ス
ペース)を付加してもよい。UCS列識別子は,少なくとも二つのUIDを含み,LESS-THAN SIGN[不等
号(より小)]で始まり,GREATER-THAN SIGN[不等号(より大)]で終わる。
バッカス・ナウア記法による,UCS列識別子の完全な構文は,次による。
“<” (xxxx | xxxxx | xxxxxx) ((“,” space・) (xxxx | xxxxx | xxxxxx))+ “>”
ここに,“x”は,一つの16進数字(09,AF又はaf)を表す。
注記 UCS列識別子は,部分集合の内容の指定に用いることはできない。UCS列識別子は,この規格
の外で,対応付けを示す合成列,フォントでのレパートリなどの指定に用いてもよい。

6.7 オクテット列識別子

  符号化形式の定義(箇条10参照)の文脈において,直列化されたオクテットを表現するために,この規
格は,直列化したオクテット列の識別子を定義する。n個のオクテットからなる列は,次による。
<xx1 xx2 ··· xxn>
ここに,xx1,xx2及びxxnは,二つの16進数字からなる最初,2番目及びn番目のオクテットを表す。

7 UCSの維持・改正

  この符号化文字集合は,ISO/IEC JTC 1(情報技術)のSC 2(符号化文字集合)によって,維持・改正
される。
注記0A この規格の維持・改正は,ISO/IEC JTC 1での作業に応じて,日本工業標準調査会で審議す
る。
この符号化文字集合における全ての文字の名前及び符号位置割当ては,この規格の将来の版及び改正に
よって変更されない。これは文字の別名も含まれる。
注記 規格の出版後に文字の名前を変更できないので,文字の名前が不適切であった場合は,文字の
別名を作成する。

8 部分集合

  この規格は,情報交換,送信装置及び受信装置で使用するための,符号化図形文字の部分集合の仕様を
規定する。
部分集合の仕様として,制限部分集合及び選択部分集合の二つを規定する。採用される部分集合は,こ

――――― [JIS X 0221 pdf 19] ―――――

                                                                                             15
X 0221 : 2014 (ISO/IEC 10646 : 2012)
の二つのいずれか又は両者の組合せで構成してもよい。

8.1 制限部分集合

  制限部分集合は,指定する部分集合が含む図形文字の一覧によって示す。この仕様は,他の符号系を使
う適用業務群及び装置群が,この符号化文字集合との間で相互動作することを可能とする。
制限部分集合への適合性を主張する場合,この規格で定義された図形文字の名前又は符号位置を用いて,
部分集合中の図形文字の一覧を示さなければならない。

8.2 選択部分集合

  選択部分集合は,この規格で定義された図形文字の組の一覧によって示す。選択の対象となる組の一覧
を附属書Aに示す。選択部分集合では,符号位置0020007Eが,いつでも自動的に含まれる。
選択部分集合への適合性を主張する場合,選択された,この規格で定義されている組の一覧を,示さな
ければならない。

9 UCSの符号化形式

  この規格は,個々のUCSスカラ値を一つ以上の符号単位の一意の列で表現する符号化形式を三つ規定す
る。これらを,UTF-8,UTF-16及びUTF-32という。

9.1 UTF-8

  UTF-8は,表2で指定されるように各UCSスカラ値を一つ四つのオクテットのオクテット列に割り当
てるUCSの符号化形式である。
− 組BASIC LATINのUCS文字は,UTF-8では,ISO/IEC 4873に従って表現される。すなわち,20
7Eの値をもつ単一オクテットである。
− 符号位置0000001Fの制御機能及び符号位置007FのDELETEは,箇条11で規定する詰込みオクテ
ットなしで表現される。すなわち,ISO/IEC 4873及びJIS X 0202の8ビット構造に従った,それぞれ
001F及び7Fの値の単一オクテットである。
− その他には,007Fの値のオクテットは,いかなる文字のUTF-8符号化表現においても使われない。
これによって,UTF-8符号化表現と,これらのオクテット値を手掛かりにして符号単位列を解析する
ような既存のファイル操作システム及び通信サブシステムとの互換性が保たれる。
− 任意の位置から始めて符号単位列を1オクテットずつ調べるとき,いかなる文字も,そのUTF-8符号
化表現の最初のオクテットを直ちに識別できる。そのオクテットは,その文字の符号化表現を構成す
る複数オクテットの列に含まれる継続オクテット(もしあれば)の数を示す。
表2は,UTF-8符号化形式におけるビット割当てを指定し,UCSスカラ値の範囲と一つ四つのオクテ
ット列との対応を示す。
表2−UTF-8ビット割当て
スカラ値 第1オクテット 第2オクテット 第3オクテット 第4オクテット
000000000xxxxxxx 0xxxxxxx
00000yyyyyxxxxxx 110yyyyy 10xxxxxx
zzzzyyyyyyxxxxxx 1110zzzz 10yyyyyy 10xxxxxx
000uuuuuzzzzyyyyyyxxxxxx 11110uuu 10uuzzzz 10yyyyyy 10xxxxxx
サロゲート符号位置は,UCSスカラ値ではないため,符号位置D800DFFFに対応するUTF-8のいか
なる列も,誤った形式である。

――――― [JIS X 0221 pdf 20] ―――――

次のページ PDF 21

JIS X 0221:2014の引用国際規格 ISO 一覧

  • ISO/IEC 10646:2012(IDT)

JIS X 0221:2014の国際規格 ICS 分類一覧

JIS X 0221:2014の関連規格と引用規格一覧