184
X 4151-1992
1.2 検定符号 検定符号は,システムがもつ検定能力について,次に示す重みを加えて定める。
検定対象 重み
CAPACITY 1
EXCLUDE 2
SGML 4
MODEL 8
FORMAL 16
NONSGML 32
GENERAL 64
その符号は,必要に応じて先頭に0を補って,最大の符号 (127) と同じ長さ(3けた)に合わせる。
検定能力GENERAL(マークの誤りの検定)だけをもつシステムの検定符号は064となる。この規格で
はGENERALを他の検定能力の前提としているので,検定符号として現れるのは,000及び064127だけ
となる。
備考 この方式を改定する際にも,GENERALには最高の重みを与え,どの検定符号も,0を除いて,
GENERALの重み未満になることがないように定める。
1.3 構文符号 具象構文に対する符号は,次のいずれかとする。
符号 具象構文
CS 核具象構文
RS 規格参照具象構文
MC 多符号核具象構文
MB 多符号基本具象構文
上のそれぞれの構文は,この規格で定めた構文を指す。
この類別方式では,前書きにも文書要素にも同一の具象構文を使う場合の適合性だけを検定対象とする。
2. 検定 この適合性類別方式が検定機関及び処理系作成者の双方を縛るものではないことに注意するこ
と。適合性は,本体14.によって,正式にシステム宣言に明記しなければならない。適合性類別符号は,そ
の部分的な簡便な表記にすぎない。
処理系作成者は,その利用者の要求するところに合わせて,幾つもの機構及び具象構文を提供して差し
支えない。検定機関は,その望むところに合わせて,検定範囲を広くとっても狭くとっても差し支えない。
この結果として,検査を受けたシステムが提供していると主張する機能全部に対して検定証明が得られな
いことも起きる。しかし,これは,そのシステムがこの規格に適合していないことを意味しない。単に,
そのシステムの幾つかの機能について,検定機関が適合しているかどうかの判断をしなかったにすぎない。
検定機関は,その必要に応じて,ここでの類別方式を変更しても構わないし,すべて無視しても構わな
い。しかしながら,検定機関は,どんな類別方式を採用しているにしても,この規格に規定してある基準
以外によってシステムの適合・不適合を宣してはならない。特に,その機関での類別方式以外の機能の組
合せをシステムがとっているからという理由だけで,そのシステムを不適合としてはならない。検定機関
は,そこで検定しようとする機能についてだけ検定証明(又は,検定結果によっては検定不合格)を与え,
それ以外については判断しないと明示しなければならない。
――――― [JIS X 4151 pdf 191] ―――――
185
X 4151-1992
参考8図1 FSV適合性の分類
適合性類別名 機構符号 構文符号 検定符号 検定
F S V 添え字
最小 0000 CS 000 非
選択付最小 0001-0767 CS 000 検
基本 0768 RS 000 定
選択付基本 0769-1022 RS 000
全部 1023 RS 000
多符号最小 0000 MC 000
多符号選択付最小 0001-0767 MC 000
多符号基本 0768 MB 000
多符号選択付基本 0769-1022 MB 000
多符号全部 1023 MB 000
最小 0000 CS 064
選択付最小 0001-0767 CS 064 検
基本 0768 RS 064 定
選択付基本 0769-1022 RS 064
全部 1023 RS 064
多符号最小 0000 MC 064
多符号選択付最小 0001-0767 MC 064
多符号基本 0768 MB 064
多符号選択付基本 0769-1022 MB 064
多符号全部 1023 MB 064
最小 0000 CS 065-127
選択付最小 0001-0767 CS 065-127 選
基本 0768 RS 065-127 択
選択付基本 0769-1022 RS 065-127 付
全部 1023 RS 065-127 検
多符号最小 0000 MC 065-127 定
多符号選択付最小 0001-0767 MC 065-127
多符号基本 0768 MB 065-127
多符号選択付基本 0769-1022 MB 065-127
多符号全部 1023 MB 065-127
――――― [JIS X 4151 pdf 192] ―――――
186
X 4151-1992
参考9 SGML内容モデルの理論的基礎
この参考は,規定の一部ではないが,読者の理解を助けるために付ける。
SGML内容モデル群の記法は,オートマトン理論の正規表現に似せて設計された。オートマトン理論は,
内容モデルに適合した記法の幾つかの面で理論的基礎を提供する。この参考では,モデル群の記法と正規
表現との関係を示し,モデル群とオートマトンとの近似性について記述する。
1. モデル群の記法 SGMLモデル群の記法は,オートマトン理論の正規表現に対応しており,次の(1)
(2)の方法で正規表現に変換される。
(1) nd群は,seq群の置換に対するor群に変換される。例えば式(1)は,式(2)の正規表現(又はSGMLモ
デル群)に等しい。
(a&b) −(1)
((a, b) | (ba)) −(2)
(2) 出現標識optをもつ字句は,空の字句をもつor群内の同じ字句に変換される。
例えば,式(3)は,式(4)の正規表現に等しい。
(a・) −(3)
(a|) −(4)
備考 これは,正当なSGMLモデル群ではない。
2. オートマトン理論の適用 内容モデルに適合しているかどうかの検査は,正規表現の承認(受け入れ
たり,又は退けたりすること)の問題と本質的に等しい。それゆえ,正規表現は,SGMLの文脈検査の点
で有用な理論的基礎を与える。
正規表現は,(Kleeneの理論によって)決定有限オートマトン (DFA) と等しいことを示すことができる。
それゆえ,構文解析系は,モデル群を扱うのに理論上,それを正規表現に還元した上で,モデル群の字句
に対応した状態遷移の経路をもつDFAを構築すればよい。しかし,実際には,幾つかの問題がある。
一つの問題は,and群の変換において出現する。要求されるseq群の置換の数は,階乗関数となるので,
小さいand群であっても対応するseq群の数は膨大なものになる。例えば,6個の要素をもつand群では,
6!つまり720のseq群が必要になる。
もう一つの問題は,DFAの構成にある。一つの方法は,まず,正規表現から直接に非決定有限オートマ
トン (NFA) を構成し,それを決定有限オートマトンに還元するものである。DFAを構成するこれらのア
ルゴリズムは,多項式オーダを超えており,SGMLで表された読みやすい内容モデルを対象とすれば,ほ
とんど手に負えないものとなる。したがって,資源集約的にすぎて,実現には使えないことにもなる。
この規格は,DFAを構成する必要をなくすことによってこれらの問題を避けている。これは,あいまい
な内容モデルを禁止し,“先読み”が必要な内容モデルを禁止することでなされる。すなわち,モデル群を
制限することで,どんな文脈にあっても,文書中の要素(又は文字列)が唯一の素内容字句にだけ対応す
るようにしている。結果として,許容される正規表現は,対応するNFAが決定的になぞれるものに限定さ
れてしまう。これは,次の(1)(2)の理由による。
(1) 与えられた節(ノード)から出ている弧の中には,内容に対応したマークが付いた弧で始まる弧の列
への出口は一つしかない。
――――― [JIS X 4151 pdf 193] ―――――
187
X 4151-1992
(2) 節を出ることができる弧の列が二つ以上あるならば,SGMLの規則による優先順位に従ってそれらの
一つに入ることができる。
その結果,内容の検査は,単にNFAを用いる単純なアルゴリズムで行うことができる。
この制限は,方針として正しい。なぜなら,人間は,文書を作るときに,その内容の検査を行わなけれ
ばならず,正規表現を単純に保つことで,それがより満足にできることになるからである。更に,このよ
うな制限された望ましい文書の構造は,中間要素を導入することによって,常に得られるので実用上でも
正当化できるからである。
3. オートマトン理論との違い オートマトン理論を内容モデルに一般的に適用できると思うべきではな
い。例えば,内容モデルを還元した正規表現が他の目的においては必ずしも等価なものではないことに注
意すること。特に,開始タグが技術的に省略できるかどうかの決定は,内容モデルの表現の形式に依存す
る。式(5)におけるbに対する最小化は許されるが,式(6)では許されない。
例 (a・, b) −(5)
((a, b) |b) −(6)
これら両方の内容モデルは,同じ正規表現に変換される。
――――― [JIS X 4151 pdf 194] ―――――
188
X 4151-1992
参考10 規格外の変形
この参考は,規定の一部ではないが,読者の理解を助けるために付ける。
歴史的には,一般化マーク付けの多くの利益は,手続き的文書処理言語を用いることで得られてきた。
その方法は,記述的文書のために特別に設計されたSGMLを用いるよりは効果が少ない。
この参考では,手続き的言語が記述的マークに用いられる場合に生じる規格外のことについて述べる。
1. 固定長の共通識別子 共通識別子を固定長とする言語では,どのような属性も指定できないし,tagc
も存在しない。内容モデルは,開始タグの共通識別子の後の最初の文字で始まる。
次の例では,2文字の共通識別子が用いられている。
<paThis is a paragraph with
a <sqshort quotation</sqin it.</pa
ここで,paは段落,sqは引用符を表す共通識別子
固定長共通識別子には,次の(1)(3)の欠点がある。
(1) 人間が原文書を読むのは難しい(ただし,計算機では問題がない。)。
(2) ある自然なタグの略記が,その長さの組合せ上,利用できない(例えば,段落に対するp及び大見出
しに対するh1は,一緒に用いることはできない。)。
(3) 属性をもつ文書型は,処理することができない。
固定長の共通識別子をもつ文書は,タグ終了tagcを挿入することによってSGML文書(ほかに違いが
なければ)に変換することができる。
2. 単一区切り子 単一区切り子言語では,同じ文字がstago,etago,ero,mdo及びpioの区切り子のた
めに用いられる。
2.1 制約 この方法には,次の(1)(2)の制約がある。
(1) 共通識別子,実体名,宣言名,処理指令名及び処理マクロ名は,それらを区別する方法がないので,
互いに異ならなければならない。
(2) 終了タグは,文脈によって開始タグと混同しない場合にだけ,入れられる。
2.2 欠点 単一区切り子を用いることには,次の(1)(4)の欠点がある。
(1) 記述的マークは,簡単に処理指令,マーク宣言及び実体参照を区別することができないので,人間の
読者には文書の構造がよく分からない。
(2) 一つの応用及びシステムだけに適用される処理指令が,文書が異なった応用及びシステムにも用いら
れるならば,簡単に修正することができない。
(3) 文書型の設計者は,すべての処理指令及びマクロ名が共通識別子と同じ名前にならないように注意し
なければならない。同様に,文書作成者は,共通識別子と同じ名前が存在しないように新しいマクロ
を作らなければならない。
(4) 文書交換は,受信系のマクロ名及び文書の共通識別子との競合を防ぐことが困難なため,厳しく制限
される。
これらの欠点に対する明白な解決は,名前の型を区別するための命名方法を用いることである。例えば,
宣言名は感嘆符で始め,処理指令名は疑問符で始める。
――――― [JIS X 4151 pdf 195] ―――――
次のページ PDF 196
JIS X 4151:1992の引用国際規格 ISO 一覧
- ISO 8879:1986(MOD)
- ISO 8879:1986/AMENDMENT 1(MOD)
JIS X 4151:1992の国際規格 ICS 分類一覧
- 35 : 情報技術.事務機械 > 35.240 : 情報技術(IT)の応用 > 35.240.30 : 情報,ドキュメンテーション及び出版業務におけるITの応用
JIS X 4151:1992の関連規格と引用規格一覧
- 規格番号
- 規格名称
- JISX0202:1998
- 情報技術―文字符号の構造及び拡張法
- JISX0208:1997
- 7ビット及び8ビットの2バイト情報交換用符号化漢字集合