ざさいたま
アバウト ギャラリー コンピュータ その他 リンク集

Unicode IVS考

Unicodeとは

 Unicodeはもともと全世界の文字を、コンピュータが処理しやすいように長さを一定(16 bit)にして文字をコード化し、当時から混乱する文字コード規格を統一しようとするものであった。
 しかし、16 bit(約65,000)という長さでは、全世界の文字を収録することははじめから無理であった。一度定義したコードの大幅な変更があったり、似た文字に関しては一つのコードに複数の似た文字を同一として包摂し、節約を図ったりした。それでも16 bitでは収録しきれなくなり、サロゲートペア(二つの16 bitコードの組み合わせ)を導入し収録文字の大幅な拡張を図った。
 1980年代に提唱された方向性とはかけ離れてしまったUnicode規格は廓清を期して混乱を惹起したといえるが、それでも現在では様々な機器で利用されている。
 パソコンは勿論、私の使っているemacsエディターは文字集合としてUnicodeを利用しエンコーディング方法としてUTF-8を利用している。近年のオープンソースソフトウェアもUnicode+UTF-8が不文律になっている。現在ではスタンダードな規格としての地位を確実なものとしている。

Unicode IVS

 IVSはIdeographic Variation Sequenceの意であり、異体字におけるバリエーションの扱い方法である。アプリケーションが対応するのではなく、エンコーディング方法自体にIVS機能を実装してしまう方法である。OpenType書体に実装されている異体字の切り替えの一部はこの発想に基づいて実装されているが、これはアプリケーション、フォントレベルにとどまっており文字コードレベルでのIVSではない。文字コード上のIVSは対応するアプリケーションでなくとも異体字情報を保持しすることができる。サロゲートペアのよる文字の拡張よりも安全な方法である。
 つまり、既存のUnicode(サロゲートペアも含む)に異体字セレクタ専用のコードを追加することによって異体字を切り替える手法である。例えば一点の辻と二点の辻では、それぞれ辻、辻+異体字1という具合で表記する。対応していないアプリケーションでは、異体字1という部分は表示されない文字にあてがわれるため、故意に操作しない限り、情報が保持される。
 また異体字番号の取り扱いについてはIVD: Ideographic Variation DatabaseとしてUnicode管理団体が一括して管理することにより、実装者ごとの違いによる混乱を生じないようにするとしている。
 (技術概要)http://unicode.org/reports/tr37/

IVSの問題点具体例

 IVS導入以前のUnicodeでは、異体字も全く違う文字コードとして表記していた。例えば曽(66fd)と曾(66fe)は全く別の文字コードを持ち異体字セレクタ上の扱いが懸念される。現状ではバリエーションとして扱われていない。曾(66fe)には曽を含まない4つの異体字が登録されている。
 今まで包摂字形として扱われたきた文字が、IVSとして登録されているようである。既に別コードとして定義した文字と、包摂されて今回IVSとして扱われる文字の扱いについては依然として物議を醸しそうだ。
 (101114時点での最新のIVD)http://www.unicode.org/ivd/data/2010-11-14/IVD_Charts.pdf

 今回は問題点の指摘のみにとどまらせてもらうが、Unicode規格については今後しばらく目が離せそうもないことを注記して本レポートを終えよう。
(小宮和寛)
  戻る
saitama web-framework (c) 2007-2012 thesaitama. All Rights Reserved.