この日記はGNSで生成しています。 |
_ 文字コードについて復習する意味で、ちょっと練習用プログラムを書いてみていたり。X1/X1turboでいろいろ漢字まわりのプログラミングをやったせいで、JIS/SJIS/区点/漢字ROM使用なんかを覚えた。UNICODEはVTwentyOneで、EUCはSPICEでやってきた。UTF-8は今回初めて。
_ えーと、どこ探せばあるかなぁ・・・あ、RFC2279になってるのか。ん〜、つまんないencodingだなぁ・・・<こんなもんに面白いもつまらないもないと思うけど^^;。
_
ふにふにっと書いて・・・code.lzh(←帰ったら置きます)。「decode ISO-2022-JP jis.txt
」などとすると、エンコードされている元の文字コード・デコード結果・文字セット名を出力します。例によっていいかげんで、UTF-8はUCS-4になったときの元文字コードが頭4byteしか表示されないです・・・いーでしょ、別に実用性のあるプログラムじゃないんだし^^;。
_ デコードアルゴリズムがあればエンコードできるはずなので、その分書けば文字コード変換ツールができちゃうはず。文字セット変換も書けば(テーブル準備するだけだ)、完璧でせう。
_ しかし、こーやって書いてみると・・・やっぱcharsetじゃなくてencodingだよなぁ・・・。
メールはこちらへ...[後藤浩昭 / Hiroaki GOTO / GORRY / gorry@hauN.org]