この規格ページの目次
31
X 0221 : 2014 (ISO/IEC 10646 : 2012)
ト記号及びグレーブアクセント記号と同じ外観をもつベトナム語の二つの声調記号は,サーカムフレ
クスダイアクリティカルマーク(circumflex diacritic)を既に含んでいる三つの母音文字(,及び)
の上には重ねずに,母音文字のサーカムフレクスダイアクリティカルマークと合字を作る。
c) 結合文字同士が表示上で互いに影響を与えない場合(例えば,一つの結合文字が図形文字の上に置か
れ,他の結合文字が下に置かれる。),基底文字と,順序が異なる複数の結合文字とからできる結果の
図形記号は,同じに見えてもよい。例えば,LATIN SMALL LETTER A,次にCOMBINING CARON,
その次にCOMBINING OGONEKと続く符号化表現からできる図形記号と,LATIN SMALL LETTER A,
次にCOMBINING OGONEK,その次にCOMBINING CARONと続く符号化表現からできる図形記号とは,
結果的に同じになってもよい。
ヘブライ又はアラビアの用字の結合文字は,通常,互いに影響を与えない。したがって,合成列を
なすそれらの符号化表現の順序は,図形記号に影響を与えない。図形記号の結合を作る規則は,この
規格の適用範囲外とする。
20.6 結合文字を含む組
附属書Aに示す文字の組の幾つかには,例えば,組14[BASIC ARABIC(基本アラビア文字)]又は組
25[THAI(タイ文字)]には,結合文字と基底文字との両方が含まれている。
附属書Aに示す他の幾つかの文字の組は,結合文字だけからなっている[例えば,組7(COMBINING
DIACRITICAL MARKS)]。
20.7 図形素結合子(合成可能)
文字034F COMBINING GRAPHEME JOINER[図形素結合子(合成可能)]は,言語に依存する照合及び
検索の目的のために前後の文字を一まとまりとして扱うことを示すために用いる。言語に依存する照合及
び検索において,その目的のために特別に調整した照合要素表の場合以外は,図形素結合子を無視しなけ
ればならない。
注記 COMBINING GRAPHEME JOINERは,ある結合文字の二つの用法のうちの一つを他の用法と区
別するために用いてもよい。例えば,ウムラウトとトレマとを区別する必要がある場合,
COMBINING GRAPHEME JOINER(034F)の後にCOMBINING DIAERESIS(0308)が続くも
のをトレマとし,COMBINING DIAERESIS(0308)だけのものをウムラウトとしてもよい。
21 正規形
正規形(normalization form)は,同一のテキストの幾つかの符号化表現のばらつきのうちで,ただ一つ
の符号化表現を選択するための機構である。この規格で用いる正規形は,ユニコード附属書 UAX #15(箇
条3参照)に規定されており,この規格でも用いる。正規形には,次の四つがある。
a) 正規形D(NFD)
b) 正規形C(NFC)
c) 正規形KD(NFKD)
d) 正規形KC(NFKC)
注記1 これらの正規形のいずれかを符号単位列に適用した結果は,将来にわたって安定しているこ
とを意図している。すなわち,この規格で割当てが行われている文字を含む符号単位列の正
規化表現は,この規格が改正されても,正規化された状態である。
注記2 幾つかの正規形は,テキストの短い表現よりもある種の合成列を優先し,他の幾つかの正規
形は,テキストの短い表現を優先する。テキストの短い表現を定義するに当たってISO/IEC
――――― [JIS X 0221 pdf 36] ―――――
32
X 0221 : 2014 (ISO/IEC 10646 : 2012)
10646-1:2000(第2版)及びISO/IEC 10646-2:2001(第1版)を参照用の版として確定するこ
とで,後方互換の要求が満たされる。両規格のレパートリの和集合は,確定組UNICODE 3.2
(A.6.2参照)と同一である。
注記3 正規形の幾つかの目的の中で特に重要なものは,任意に与えられた符号単位列に対する正規
形をただ一つ定めることによって,同一性の一致判定(identity matching)を容易にすること
である。正規形は,言語学的な観点では必ずしも適切な並びとは限らない。
22 個々の用字及び記号の特性
22.1 ハングル音節の合成方法
描字では,ハングル字母(HANGUL JAMOブロック,110011FF)の列は,一連の音節ブロックとして
表示される。字母は,初声(音節頭子音字,choseong),中声(音節核をなす母音字,jungseong)及び終声
(音節末子音字,jongseong)の三つに分類される。完全な音節ブロックは,初声,中声及び付加的な終声
から構成される。
完全な音節を構成していない一つ以上の文字の列(例えば,初声だけ,中声だけ,終声だけ,又は中声
の後ろに終声が続いたもの。)を不完全な音節(incomplete syllable)という。中声で始まる不完全な音節は,
その前に必ずCHOSEONG FILLER(初声埋め文字,115F)がなければならない。終声だけからなる不完全
な音節は,その前に必ずCHOSEONG FILLER(115F)及びJUNGSEONG FILLER(中声埋め文字,1160)
がなければならない。初声だけからなる不完全な音節は,その後に必ずJUNGSEONG FILLER(1160)が
なければならない。
注記1 ハングル字母は,結合文字ではない。
注記2 HANGUL SINGLE DOT TONE MARK(ハングル単点声調記号,302E)のような結合文字をハ
ングル字母の列に適用することを意図するときには,その列の末尾で,完全な音節ブロック
の最後に位置するハングル字母の次にその結合文字を付加することが望ましい。
注記3 この規格では,ハングルのテキストは,複数の異なる方法で表現できる。韓国の規格KS X
1026-1: Information Technology−Universal Multiple-Octet Coded Character set (UCS)−Hangul−
Part 1, Hangul processing guide for information interchangeは,情報交換において相互運用性を確
実にするためのガイドラインを提供している。
22.2 インド及び他の南アジアで使う用字の特性
BMPの,区090D及び区0Fの符号表,並びに区10のMYANMAR(ビルマ文字)ブロック(箇条31参
照)の符号表では,幾つかの文字に対する図形記号は,同じ表にある他の二つの文字の図形記号の合成に
よって形作られたように示してある。
例1 0906 DEVANAGARI LETTER AAの図形記号は,0905 DEVANAGARI LETTER A及び093E
DEVANAGARI VOWLEL SIGN AAの図形記号から構成されたように示してある。
例2 0D08 MALAYALAM LETTER IIの図形記号は,0D07 MALAYALAM LETTER I及び0D57
MALAYALAM AU LENGTH MARKの図形記号から構成されたように示してある。
そのような場合,合成列(4.17参照)と同様に,単独の符号化文字が,結合されると,その単独の符号
化文字の図形記号と視覚的に似るような図形記号をもつ二つの符号化文字の列と同等であるとして,利用
者に対して現れてもよい。
この規格では,次のような独自のつづり規則(unique-spelling rule)を規定する。この規則では,区09
0D若しくは0Fの符号表又は区10のMYANMARブロックの符号表においては,次に示す例外を除いて,
――――― [JIS X 0221 pdf 37] ―――――
33
X 0221 : 2014 (ISO/IEC 10646 : 2012)
いかなる符号化文字も,同じ符号表の他の符号化文字の長さ2以上の列と同等であるとは,みなさない。
− 2部分からなる母音記号(two-part dependent vowel sign)。
− 独立母音字である1025 MYANMAR LETTER UU。
− ヌクタ記号の付いた子音字。
注記 これらの全ての文字は,2文字からなる列への基準写像をもつ。
22.3 ビザンチン音楽記号
ビザンチン音楽の記譜法は,3段の帯状の表現を利用する。記号は,上段,中段又は下段の帯の中に書
く。これとは別に,楽譜の歌詞の部分に,音楽文字と呼ぶ記号を書く。複数の記号は,適切な帯の中で積
み重ねて表記することができる。
22.4 絵文字記号の原典情報
幾つかの記号は,複数の原典との対応関係をもつ。CJK統合漢字とは異なり,これらの参照は,文字を
特定するものではない。これらの原典における一つの文字は,単一の符号位置又は符号位置の列に対応す
る。
記号の原典は,次のとおりである。
− DoCoMoのシフトJIS符号
− KDDIのシフトJIS符号
− SoftBankのシフトJIS符号
添付ファイルは,テキストファイルであり,ISO/IEC 646のIRVの文字及び行末を表すLINE FEEDを
使用する。ファイルの先頭の6行は,ヘッダであり,その後の“#”で始まる行は,注釈である。その後に,
原典参照の行が続く。各行は,次の項目からなる。項目は,“;”で区切る。
− 項目1は,UCS 符号位置又は符号位置の列を (hhhh | hhhhh) (<space> (hhhh | hhhhh))* の形式で示す。
− 項目2は,DoCoMoのシフトJIS 符号を (hhhh) の形式で示す。
− 項目3は,KDDIのシフトJIS 符号を (hhhh) の形式で示す。
− 項目4は,SoftBankのシフトJIS 符号を (hhhh) の形式で示す。
ここに,hは,16進数を表し,<space>は,SPACE文字を表す。
参照ファイルは,“EmojiSrc.txt”とする。
注記1 (対応国際規格の注記1は,この規格では該当しないため不採用とした。)
注記2 ファイルの内容は,一方をUCSの符号位置又は符号位置の列とし,他方を携帯電話通信事業
者の絵文字を示すシフトJISの符号とする写像を与える。個々の対応は,同等な,UCSと携
帯電話通信事業者の記号とに関して,単独でも列としてでも,対称である(いわゆる“往復
の保全性”をもつ。)。このファイルは,いずれの写像方向においても,似ているが同じでは
ない記号に対応させるような最善の(best-fit)写像[代用(fallback)写像ともいう。]を含
まない。
23 漢字の原典参照
23.1 原典参照一覧
漢字のそれぞれの文字には,少なくとも一つの原典参照がある。原典参照は,機械可読形式の添付ファ
イルで示す。原典参照は,この規格の規定の一部である。
注記1 添付ファイルは,この規格を機械可読形式で入手したものだけが利用できる。しかし,この
ファイルを印刷して利用することもできる。
――――― [JIS X 0221 pdf 38] ―――――
34
X 0221 : 2014 (ISO/IEC 10646 : 2012)
原典参照情報は,漢字の文字を識別する。原典参照は,漢字の符号位置を,この箇条において次に示す
原典の中の値に関連付ける。これらの原典を次のとおり分類する。
− 原典G
− 原典H
− 原典M
− 原典T
− 原典J
− 原典K
− 原典KP
− 原典V
− 原典U
ある符号位置には,原典の分類(すなわち,G,H,M,T,J,K,KP,V及びU)ごとにただ一つの原
典参照だけを作成する。広範な原典の分類に対応できるように,原典参照は,原典と漢字との一意的な関
係を全て示す。
BMP及びSIPの漢字が参照する原典の一覧を次に示す。
注記2 原典が更新されても,原典参照は,更新しない。更新された原典は,古い版に含まれていな
い文字の識別だけに用いてもよい。
原典Gは,次のとおりに識別する。
G0 GB 2312-80
G1 GB 12345-90
G3 GB 7589-87 繁体字
G5 GB 7590-87 繁体字
G7 現代漢語通用字表及び簡化字総表
GS シンガポールの漢字
G8 GB 8565-88
G9 GB 18030-2000
GE GB 16500-95
GH GB 15564-1995 香港の一部の文字放送用の漢字体系
GK GB 12052-89 情報交換用ハングル文字符号化文字情報
G4K 四庫全書
GBK 中国大百科全書
GCH 辞海
GCY 辞源
GCYY 中国測絵科学院用字
GFZ 方正排版系統
GGH 古代漢語詞典
GHC 漢語大詞典
GHZ 漢語大字典
GIDC 中国公安省IDシステム
GJZ 商務印書館用字
GKX 康熙字典及び康熙字典補遺
GXC 現代漢語詞典
GZFY 古代漢語詞典
GZH 中華字海
GZJW 殷周金文集成引得
注記3 康煕字典(GKX)として参照されている文字に対する符号表上での図形記号は,現在中国で
使用されているものであり,康煕字典に示されている図形記号とは僅かに異なる場合がある。
原典Hは,次のとおりに識別する。
H 香港増補字符集 2008
――――― [JIS X 0221 pdf 39] ―――――
35
X 0221 : 2014 (ISO/IEC 10646 : 2012)
HB0 Big-5: 計算機での中国語字形と文字符号との対応表, Technical Report C-26, 電脳用中文字型与字碼対
照表, 技術通報C-26, 1984, Symbols
HB1 Big-5, Level 1
HB2 Big-5, Level 2
原典Mは,次のとおりに識別する。
MAC Macao Information System Character Set(澳門資訊系統字集)
原典Tは,次のとおりに識別する。
T1 TCA-CNS 11643-1992 第1面
T2 TCA-CNS 11643-1992 第2面
T3 TCA-CNS 11643-1992 第3面及び幾つかの追加文字
T4 TCA-CNS 11643-1992 第4面
T5 TCA-CNS 11643-1992 第5面
T6 TCA-CNS 11643-1992 第6面
T7 TCA-CNS 11643-1992 第7面
TB TCA-CNS 11643-2007 第11面
TC TCA-CNS 11643-2007 第12面
TD TCA-CNS 11643-2007 第13面
TE TCA-CNS 11643-2007 第14面
TF TCA-CNS 11643-2007 第15面
原典Jは,次のとおりに識別する。
J0 JIS X 0208-1990
J1 JIS X 0212-1990
J3 JIS X 0213:2000 第3水準
J3A JIS X 0213:2004 第3水準
J4 JIS X 0213:2000 第4水準
JA 国内5社漢字統合表,1993
JH 汎用電子情報交換環境整備プログラム 20022009
JK 日本国字集
JARIB 電波産業会 ARIB STD-B24 第5.1版,2007年3月14日
原典Kは,次のとおりに識別する。
K0 KS X 1001:2004(以前は,KS C 5601-1987であった。)
K1 KS X 1002:2001(以前は,KS C 5657-1991であった。)
K2 PKS C 5700-1 1994
K3 PKS C 5700-2 1994
K4 PKS 5700-3:1998
K5 Korean IRG Hanja Character Set 5th Edition: 2001
注記4 K2,K3,K4及びK5に含まれる漢字は,新しい韓国規格群において改正作業が進んでいる。
原典KPは,次のとおりに識別する。
KP0 KPS 9566-97
KP1 KPS 10721:2000及びKPS 10721:2003
原典Vは,次のとおりに識別する。
V0 TCVN 5773:1993
V1 TCVN 6056:1995
V2 VHN 01:1998
V3 VHN 02:1998
V4 Dictionary on Nom 2006, Dictionary on Nom of Tay ethnic 2006, Lookup Table for Nom in the South 1994
原典Uは,次のとおりに識別する。
UTC ユニコード技術報告書 UTR #45, U-source Ideographs, May 2010
23.2 CJK統合漢字の原典参照
原典から統合漢字を引き出すために用いた手順及び箇条31の符号表での配列の規則は,附属書Sに示
す。
注記1 附属書SのS.1.6で記述された原規格分離漢字の取扱規則は,BMP内のCJK統合漢字だけに
適用する。
――――― [JIS X 0221 pdf 40] ―――――
次のページ PDF 41
JIS X 0221:2014の引用国際規格 ISO 一覧
- ISO/IEC 10646:2012(IDT)
JIS X 0221:2014の国際規格 ICS 分類一覧
- 35 : 情報技術.事務機械 > 35.040 : 文字セット及び符号化
JIS X 0221:2014の関連規格と引用規格一覧
- 規格番号
- 規格名称
- JISX0202:1998
- 情報技術―文字符号の構造及び拡張法
- JISX0211:1994
- 符号化文字集合用制御機能