アカウント名:
パスワード:
サロゲートペアなんて対応してないソフトだって未だあるんだし、実用上はBMPだけでいいでしょ。そうしたら(英数字も含めて)2バイトですよ。(あえて誤解を招きかねない言い方をすると)Unicode に 3 バイトの文字はありません。日本語が3バイトになるのは、単にUTF-8というエンコード方式によるもので。
テキスト系のプログラミングをやってる人はわかると思うけど、ユニコードをUTF-8やUTF-16でエンコードするのは、環境の問題なので、普通は4バイトの配列にする。つまり、UCS-4が一番ナチュラルだし、unicode.orgでもそうやってインデックスを付けている。
>普通は4バイトの配列にする
普通ってどこの普通だよ。内部エンコーディングでもUTF-16かUTF-8が大半で、32bitで持つシステムが少数派でしょ。Pythonくらいか。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲは一日にしてならず -- アレゲ研究家
Unicodeは実用上2バイト (スコア:1)
サロゲートペアなんて対応してないソフトだって未だあるんだし、実用上はBMPだけでいいでしょ。
そうしたら(英数字も含めて)2バイトですよ。
(あえて誤解を招きかねない言い方をすると)Unicode に 3 バイトの文字はありません。
日本語が3バイトになるのは、単にUTF-8というエンコード方式によるもので。
Re: (スコア:0)
テキスト系のプログラミングをやってる人はわかると思うけど、ユニコードをUTF-8やUTF-16でエンコードするのは、環境の問題なので、普通は4バイトの配列にする。つまり、UCS-4が一番ナチュラルだし、unicode.orgでもそうやってインデックスを付けている。
Re: (スコア:0)
>普通は4バイトの配列にする
普通ってどこの普通だよ。内部エンコーディングでもUTF-16かUTF-8が大半で、32bitで持つシステムが少数派でしょ。Pythonくらいか。
Re:Unicodeは実用上2バイト (スコア:0)
UTF-8 が主流なのは情報交換用。