分野 カテゴリ | テクノロジ系技術要素 マルチメディア | テクノロジ系基礎理論 アルゴリズムとプログラミング |
資源の共有化を図るために,共通の仕様等を用いることを,一般に標準化といいます。ハードウェアの規格化や周辺機器との接続規格や,ネットワーク規格の採用など,情報処理の世界でも様々な標準化が行われています。
今回は,身近な標準化の例として,文書のファイル形式を取り上げます。情報処理試験では,これら文書ファイルの特徴や用途などについて出題されています。
文書ファイルのファイル形式
パソコンでファイルを作成すると,ファイル名の後にはピリオドと,拡張子と呼ばれる英数字3文字(または4文字)の識別子が自動的に付けられます(Windowsでは,拡張子が非表示に設定されていると,ファイル名のみが表示される)。この拡張子は,そのファイルのファイル形式を表しています。
通常,特定のアプリケーションで作成したファイルは,そのアプリケーションでしか開くことはできません。しかし,情報の共有化のため,別のアプリケーションでも読み書きできるよう,共通のファイル形式も用意されています。
文書ファイルの共通形式として,最も汎用的で広く使われているのはテキスト形式でしょう。テキスト形式のファイルの拡張子は「txt」となっています。
文字と改行位置など,ごく限られた情報しか保存できず,文字サイズや書体など,レイアウトに関する情報は保存されません。しかし,MS Wordや一太郎などのワープロソフトを始めとして,表計算ソフトなど,文字データを扱うアプリケーションであれば,ほとんどのアプリケーションでデータを読み書きできる,便利なファイル形式です。
PDF(ピーディーエフ:Portable Document Format)
インターネットで電子文書を配布する際によく使われるファイル形式で,拡張子は「pdf」です。閲覧にはAdobe Reader(アドビリーダー)が必要ですが,PDFの開発元であるアドビシステムズ社から,WindowsやMacOSなど,様々なOS用のものが無償で提供されており,広く普及しています(※)。
PDFは,アドビシステムズ社が開発した出版物の印刷にも使われるPostScript技術を用いています。そのため,多様な文字フォントやサイズを使い,フルカラーで複雑な配置がされているものなど,高度なレイアウトの再現性に優れています。また,PDFファイルには画像なども含めることができます。
Webページを記述するHTML形式(次項参照)のファイルを閲覧する際には,パソコンのOSやWebブラウザの種類・バージョンなどによって,レイアウトが異なって表示されることがよくあります。PDF形式のファイルなら,OSなどが違っていても,Adobe Readerを使うことで,オリジナルと同じレイアウトで閲覧することができます。
マークアップ言語
マークアップ言語とは,タグ(HTMLの項を参照)を文書中に記述することで,文章構造(目次,見出し,本文など)や,テキスト属性(文字サイズやフォントなど)などを表すことができる言語です。ファイル内に記述された文章はもちろん,タグ自体もテキストなので,ワープロソフトなどで読み書きすることができます。
SGML(エスジーエムエル:Standard Generalized Markup Language)
文書の論理構造をタグによって表現するマークアップ言語で,この形式のファイルの拡張子は「sgm(またはsgml)」です。
HTMLやXMLもこの言語を元にして作られました。SGMLは電子的に文書を交換・共有するための標準形式として策定された汎用規格で,文書をデータベースに蓄積する際などに用いられています。
HTML(エイチティーエムエル:HyperText Markup Language)
SGMLを簡略化して作られた,Webページの記述用言語で,この形式のファイルの拡張子は「htm(またはhtml)」です。
SGMLと同様に,文書の構造やテキスト属性を,タグを用いて表現することができます。特徴的なのは,関連する他のファイル(Webページや画像など)へジャンプさせるハイパリンク機能を持っていることで,この機能が「ハイパテキスト」という名前の由来となっています。
HTMLファイルも中身はテキストなので,Webページのソース(データ)をワープロソフトで開いてみると,タグが入っているのを見ることができます。Internet ExplorerなどのWebブラウザは,HTMLファイルのタグの指示にしたがって,文書の構造やテキスト属性をレイアウトに表現する機能を持つアプリケーションです。
HTMLファイルでは,「<」と「>」で囲まれたタグを使って記述し,タグは「<HTML>~</HTML>」のように一対で使います。代表的なタグを紹介しておきましょう。
図1 文書の構造を表すタグの例
![図1 文書の構造を表すタグの例 図1 文書の構造を表すタグの例]()
表1 テキスト属性などを表すタグの例
意味 | タグ |
見出し | <H1>~</H1> |
太字 | <B>~</B> |
改行 | <BR> (このタグは対でなく単独で使用) |
中央揃え | <CENTER>~</CENTER> |
箇条書き | <UL>~</UL> |
表組み | <TABLE>~</TABLE> |
画像ファイル | <IMG SRC="画像ファイル名"> |
ハイパリンク | <A HREF="リンク先">~</A> |
XML(エックスエムエル:eXtensible Markup Language)
HTMLで使われているタグを拡張することで,文章の論理構造や構成要素の意味をより明確に指定することができるように改良したマークアップ言語で,拡張子は「xml」。
HTMLで規定されているタグの他に,ユーザが独自のタグを,文書型定義(DTD)に記述することで定義できるのが特徴です。
例えば,「商品コード」というタグを定義しておけば,そのXMLファイルに「<商品コード>A1234</商品コード>」と記述された箇所があれば,「A1234」は商品コードを表しているのだということを,明確に示すことができます。
XMLで記述したファイルは,情報システムに読み込んで,必要な情報を自動的に取り出すなどの加工処理が容易なため,電子商取引や企業間の電子データ交換などに利用されています。