79
X 4151-1992
の処理のための属性に関係した手続きを実行する。他の処理をする場合には,文書のマークを変えること
なく,異なった手続きを同じ要素及び属性に関係付ける。
処理指令を直接文書内に入れる必要がある場合は,容易に見つけ別の処理のために変更可能なように,
記述的マークに区切り子を付けている。
3.2 文書型の形式的定義 一般化マーク付けの言語は,“文書型定義”を導入することによって,文書マ
ークを形式化している。文書型定義は,文書中の要素及び属性の出現順序を(形式文法のように)指定す
る。この情報を用いることによって個々の文書のマークの正当性(つまり,型定義に従っているか否か)
を決定し,見落としたマークを付けることができる。それは,既に存在する別のマークから,見落とした
マークを確実に推論できるからである。
備考 共通符号化の概念及びSGMLの詳細な導入を参考2に示す。
4. SGMLの規定内容 SGMLは,共通符号化及び一般化マーク付けの概念の適用を規格化している。
SGMLは,利用者が文書中の要素の違いをすべて記述するための一貫性のある構文を提供する。この言語
は,次の(1)(6)の事項を含んでいる。
(1) 文書要素の記述的マークの“抽象構文”。
(2) 抽象構文を特別な区切り子文字及び量に結合する規格参照具象構文。利用者は,要求に応じて規格参
照抽象構文とは別の具象構文を定義できる。
(3) 文書型の共通識別子及び属性固有用語を定義可能にするマーク宣言。
(4) 任意のデータ内容に関する規定。SGMLは,データ種別を規定しない。このデータは,一般文とは異
なる解釈を必要とする特別な“データ内容記法”,例えば数式,画像,非ラテン系アルファベット,書
式付きの文又は図形がある。
(5) 別途書かれた章,規格外の文字,写真などのような文書の主要な流れの外側に位置する内容を参照す
るためのシステム外の実体参照指定の技法。
(6) 記述的マークと処理指令とを区別するための区切り子。処理指令は,手続きでは扱えない状況に迫ら
れた場合に導入するが,文書を異なる処理系へ送る際に容易に識別でき,後で修正できる。
5. 超言語 SGMLは,単に文書処理の必す機能を満たすだけでなく,満足のいく規格にする必要がある。
多様な環境下での利用という制約を克服するために,この言語は超言語の特性をもたせる。SGMLの制約
及びSGMLの対応手段は,次の(1)(9)のとおりとする。
(1) GMLでマークされた文書は,広範囲な文書処理系によって処理可能とする。すべての任意選択機能
を備えた完全なSGMLは,高度なシステムが利用し得る一般性及び柔軟性を提供する。一方,比較的
高度でないシステムは,必ずしもそれらの選択機能を提供する必要はない。いずれにしても,異なる
システム間での交換を容易にするため,SGML宣言には,文書中で使用するマーク機構又は具象構文
を記述する。
(2) 既存の文章の入力装置に対応させる。規格参照具象構文をもつSGML文書は,簡単に入力でき,特定
の機械の助けを借りなくても人間に理解できる。その結果,次の(a)(b)の特徴をもつ。
(a) GMLの使用は,新しい世代のハードウェアの開発及び認知を待つ必要がない。既存の装置の上で
文書を処理するソフトウェアがあればよい。
(b) 新しい計算機世代への移行は,既にSGMLに慣れている利用者にとって極めて容易である。
(3) 文書は,各種の装置で入力されるため,文字集合へ非依存とする。SGMLは,特定の文字集合への依
――――― [JIS X 4151 pdf 86] ―――――
80
X 4151-1992
存性はない。文字,数字,間隔及び区切り子は,どのようなビット組合せをもつ文字集合も受け入れ
る。
(4) 処理内容,システム又は装置への依存性をもたせない。SGMLのマークは,記述的マークによるため,
それらへの依存性を本質的にもたない。まれに生じる処理指令が交換又は別の処理にとって不適切な
場合,それを識別し変換できるように特別に区切られる。
外部文書への参照は間接的な参照とし,参照と実の記憶体との関連付けを外部実体宣言で行う。外
部実体宣言は,文書の始めに置いているので,その交換に際して外部実体宣言の修正を容易に行える。
具象構文は,システム固有の見出し語に適合するように,SGML宣言を用いて変更できる。
(5) 自然言語に中立とする。SGMLでは,名前文字に使用する各国独自の文字が追加できる。共通識別子,
属性名及び記述的マークに使用する名前は,要素及び実体の宣言で利用者が定義する。マーク宣言に
使う名前及び見出し語は,変更できる。複数の言語が混在する文書で使用できるように,複数の言語
の文字集合を導入できる。
(6) 通常のタイプライタ及び文書処理システムの入力仕様に合わせる。短縮参照及びデータタグの機能が
タイプライタからの文章の入力を支援する。節及び引用を含む通常の文は,見えない機能マーク文字
付きで入力されても,SGMLとして解釈可能とする。
(7) 特定のデータ列又はファイルの物理的な構成に依存させない。SGMLでは,各文書が一つ以上の記憶
実体から成り,その記憶実体は文字列から成る仮想記憶モデルをもつ。すべての実ファイルの使用は,
処理系に依存する。その処理系は,文字列が連続しているか物理記録境界であるかを決定する。
(8) 他の形態のデータと共存させる。処理系が適合SGML文書の文頭及び文末を区別できる場合,適合
SGML文書を他の形態のデータの流れの中に置くことができる。
処理系は,適合SGML文書以外のデータ内容を,適合SGML文書の中に論理的に置くことができ
る。交換を容易にするため,そのデータの存在をマーク宣言によって示す。
(9) マークは,人間及び計算機の両方に利用可能とする。SGMLは,入力及び交換を前処理系なしに行う
ことに適したインタフェースとなるように意図した。SGMLは,文の入力における利用者の好み,各
種のけん盤及び表示装置に合わせて拡張できる。
利用者の知的な編集及び前工程の文書からのSGML文書の作成のために,SGMLの情報の抽出機能
を提供したい利用者の要件にこたえるため,SGMLは次の(a)(d)の機能を提供する。
(a) 要素の内容は,マークとは別に記憶できる。
(b) 制御文字は,区切り子として利用できる。
(c) 多様なデータ表現形式が文書中で混用できる。
(d) 同時に出現する多重の論理構造及び割付け構造を扱うことができる。
――――― [JIS X 4151 pdf 87] ―――――
81
X 4151-1992
参考2 一般化マーク付けの導入
この参考は,SGMLの背景にある一般化マーク付けについて解説する。これは,あくまで参考であって,
規定の一部ではない。
備考1. この参考は,C. F. Goldfarbの論文[5.(1)参照]に基づいたものである。
2. この参考の例示では,規格参照具象構文にデータ文字として漢字・仮名を追加した具象構文
を使う。
1. マーク付け 文書処理システムでは,処理対象の文に加えて,そこに散在させた付加的な情報を必要
とするものである。この付加情報を,“マーク”という。マークは,次の(1)(2)の役割を果たす。
(1) その文書の論理的な要素を区分する。
(2) それらの要素に施す処理機能を指定する。組版システムでは,非常に複雑な書式付けを行うので,そ
のマーク付けは,普通,専門に訓練を受けた人が担当する。文書処理システムでは,書式付けの機能
が限定されていて,利用者自身が意識することなしにマーク付けを行ってしまう。高機能の印字機が
廉価で手に入るようになってきたから,事務用ワークステーションが組版システムの多くの機能を提
供するようになり,この“無意識”のマーク付けで済むのは事務での文書処理のほんの一部だけとな
っていくに違いない。
そこで,高機能システムの利用者がどうやって文書のマーク付けを行っているかを考えてみることが重
要になる。利用者は,そう意識しているとは思えないものの,確かに次の(3)(5)の段階を踏む。
(3) 文書の情報の構造や属性を調べる。意味のある個々の要素を見定め,それらを段落,見出し,箇条,
脚注などに分類する。
(4) それぞれの要素を書式付けるのに使える処理指令(“制御”)を,記憶をたぐるか説明書をひもとくか
して,選び出す。
(5) そして最後に,その選び出した制御を文の中に書き込む。この参考の最初の部分は,文書処理での典
型的な書式付け言語を使って,制御をマーク付けしたとすると,例1.のようになる。
例1. 制御によるマーク付け
.SK 1
.BF
1. マーク付け
.SF
文書処理システムでは,処理対象の文に加え
て,そこに散在させた付加的な情報を必要
とするものである。この付加情報を,“マーク”
という。
マークは,次の(1)(2)の役割を果たす。
.SK 1
(1) その文書の論理的な要素を区分する。
.SK 1
(2) それらの要素に施す処理機能を指定する。
――――― [JIS X 4151 pdf 88] ―――――
82
X 4151-1992
.SK 1
例1.での “.SK”, “BF” などが制御のマークである。それぞれ, “.SK 1” は改行を, “.BF” は太
字体を, “.SF” は常字体を指定している。
このような手続き的なマーク付けには,幾つもの欠陥がある。まず,その文書の属性に関する情報がた
いていは失なわれてしまうことがある。例えば,利用者が見出しも図見出しも書式付けの際に中央ぞろえ
にしたとしよう。ところがその“中央ぞろえ”の制御マークは,その文が見出しであるのか図見出しであ
るのかについて何の情報も与えてはくれない。したがって,その文書を情報検索システムにかけたとして
も,検索プログラムは,情報内容の点で非常に重要な“見出し”を,そのほかの中央ぞろえになった情報
から区別することができない。
手続き的なマーク付けは,また,自在性に欠ける。例えば,利用者が(おそらくは,別の出力装置を使
うという理由から)その文書の様式を変更しようとすると,それに合わせてもう一度書式付けを全部やり
直さなければならなくなる。これは,例えば,安価な計算機の行印字機を使って2行どりで書き上げた原
稿から,高価な写植機を使って最終印刷物を作ることをできなくしてしまう。その文書の組版を入札にか
けるにしても,自社と同じ文書処理システムをもっている業者でない限り,たとえ,再度マーク付けをす
るための費用を払うつもりがあったところで,応札しないであろう。
さらに,制御を使ってのマーク付けは,時間もかかるし,間違いも起こしやすい。おまけに,複雑な組
版結果を望むなら,高度に訓練を受けた操作者が必要になる。これは,そのシステムに手続きを組み込む
機能(いわゆる“マクロ”)があったとしても,(少しはましになるかもしれないが)変わることがない。
マクロの分が元の制御に加わるので,それだけ語いが複雑になってしまうからである。例えば,あの優美
で強力なTeXシステム[5.(3)参照]でさえも,広く数学での組版に使われてはいるものの,核となる部分
で300もの基本制御とマクロとを使っているのである。
こうした手続き的なマーク付けの欠陥は,C. F. Goldfarb,E. J. Mosher及びR. A. Lorieが提唱したマーク
方式[5.(4)及び(5)参照]を使うことで克服することができる。この方式は,“一般化マーク付け”と呼ば
れている。文書を特定の応用,特定の書式,特定のシステムなどに限定してしまうことがないからである。
一般化マーク付けは,次の(6)(7)という斬新な主張に基づいている。
(6) マークは,文書にどんな処理を施すかを指定するものではなくて,その文書の構造と属性とを記述す
るものであるべきである。記述的なマーク付けならば,一度行っておけば,その後のどんな処理にも
役に立つ。
(7) マークは,厳密なものでなければならない。そうすれば,プログラムやデータベースなどの厳密に定
義された対象物の処理に使っている技術が文書の処理にも使えるようになる。
この主張を出発点として,直観に訴える形で,このマーク付け方式の特性を順に見ていくことにする。
2. 記述的マーク 一般化マーク付けを使うと,マーク付けの作業は,その第1段階でおしまいとなる。
利用者は,その文書での重要な要素を見つけ出し,それらを特徴付けるにふさわしいと思う覚えやすい名
前[これを,“共通識別子” (GI, Genenc Identifier) という。]でマーク付けするだけでよい。これらのマー
クに処理指令を結び付ける作業は,処理システムがやってくれる。
一般化マーク付けの書き方は,SGMLというが,国際標準化機構 (ISO) の作業部会で開発したものであ
る。SGMLでのマークを使うと,例1.は例2.のようになる。
例2. SGMLによるマーク付け
<h>マーク付け
――――― [JIS X 4151 pdf 89] ―――――
83
X 4151-1992
<p>文書処理システムでは,処理対象の文に加
えて,そこに散在させた付加的な情報を必要
とするものである。この付加情報を,<q>マー
ク</q>という。
マークは,次の <liref refs= ”r1 r2”> の役割を果たす。
<ol>
<li id=r1>その文書の論理的な要素を区分する。
<li id=r2>それらの要素に施す処理機能を指定する。
</ol>
それぞれの共通識別子は,その始まりを示すときには “<” で開き,その終わりを示すときには “</” で
開く。そして,共通識別子と文とを区切るために “>” で閉じる(1)。この共通識別子と区切りの記号との組
を,“開始タグ”又は“終了タグ”という。
もちろん,始まりを示すのが開始タグであり,終わりを示すのが終了タグである。共通識別子の名前 “h”,
“p”, “q”, “liref”, “ol” 及び “li” は,それぞれ, “heading” (見出し), “paragraph” (段落), “quotation”
(引用句), “list item reference” (箇条参照), “ordered list” (箇条書き)及び “list item” (箇条)を表
すために選んだものである。
注(1) これらの記号は,標準の場合の組合せである。SGMLでは,区切りの記号も自由に選定するこ
とができる。
例2.には,次の(1)(3)という注目すべき特徴がある。
(1) 文には,引用符号がない。引用符号は,処理システムが引用句の要素を認知したときに作り出してく
れるし,出力装置で使えるものなら,ちゃんとその開きと閉じの符号を使い分けてくれる。
(2) ここでは,“マーク”という語だけが引用句の中身となっている。しかし,必要なら“という。”まで
含めて引用句とすることもできる。終了タグ “</q” をその後ろにもってくればよい。
(3) 箇条の番号がどこにもない。箇条の番号は,書式付けのときに自動的にふられ,参照しているところ
(“<liref refs=”r1 r2“>” のところ)にも埋められる(2)。
注(2) この機能は,(明示的な)内容参照と呼ぶものであるが,この参考では解説しない。詳しくは,
参考3の10.を参照のこと。
言い換えると,文書には情報だけが書いてある。見た目をよくするだけが役割の文字列などは,処理の
際に作り出されるのである。
これまでの分析から,文書処理を次の(4)(6)の3段階で行うものとモデル化することができる。
(4) 認知 文書の属性を認知する。例えば, “footnote” (脚注)という共通識別子をもった要素を認知す
る。
(5) 対応付け 認知した属性に処理機能を対応付ける。例えば, “footnote” という共通識別子には,それ
を脚注としてそのページの下部に印字する手続きなり,それらを集めておいて章末にまとめて印字す
る手続きなりを対応付ける。
(6) 処理 対応付けた処理を実際に施す。
英文文書の書式付けプログラムは,実際,このモデルに沿ったものとなる。まず,単語や文といっ
た要素を,空白や句読点を隠されたマークと見て認知していく。対応付けは,普通,飛び先表として
準備されている。単語を処理する手続きは,その単語の長さを調べて行に収まるかどうかを判定する。
文を処理する手続きは,必要に応じて単語と単語の間に空白を挿入していく(3)。
――――― [JIS X 4151 pdf 90] ―――――
次のページ PDF 91
JIS X 4151:1992の引用国際規格 ISO 一覧
- ISO 8879:1986(MOD)
- ISO 8879:1986/AMENDMENT 1(MOD)
JIS X 4151:1992の国際規格 ICS 分類一覧
- 35 : 情報技術.事務機械 > 35.240 : 情報技術(IT)の応用 > 35.240.30 : 情報,ドキュメンテーション及び出版業務におけるITの応用
JIS X 4151:1992の関連規格と引用規格一覧
- 規格番号
- 規格名称
- JISX0202:1998
- 情報技術―文字符号の構造及び拡張法
- JISX0208:1997
- 7ビット及び8ビットの2バイト情報交換用符号化漢字集合