アカウント名:
パスワード:
例えば、「ガ」と「ガ」は、画面上の表示ではほぼ同じですが、データとしては全く別物になっています。
ガ … \u30ac (濁点まで含めて1つの文字)ガ … \u30ab\u3099 (カ+結合文字の濁点)
別にUnicode上違反というわけではないのですが、わざわざ3バイトですむ文字にゴミを入れて6バイトにするMacは美しくないと思います。
Mac OS X ではシェルによって、入力文字列にUnicodeの結合文字列が混ざることがあります。その場合、同じ単語でも内部的に違う扱いになって検索に引っかからないなどの問題が生じる恐れがあります。それを避けるために、例えば MySQLのutf8mb4_u
一般にはNFD(分解された形式)の方が安定とされている。NFC(合成済みの形式)を積極的に使うとUnicodeのバージョンアップでそれまで組で表すしか無かった文字に対応する合成済みの文字が追加された場合に非互換になる。だから互換性を求めるならMacの挙動の方が望ましい。
# 必要な漢字はレア人名含めてあらかた提案済みなので今後あるとしても相当なレアケース、というのはまあ
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
吾輩はリファレンスである。名前はまだ無い -- perlの中の人
全角カナはMACが絡むとゴミ(結合文字の濁点等)が混ざる (スコア:2, 興味深い)
例えば、「ガ」と「ガ」は、画面上の表示ではほぼ同じですが、データとしては全く別物になっています。
ガ … \u30ac (濁点まで含めて1つの文字)
ガ … \u30ab\u3099 (カ+結合文字の濁点)
別にUnicode上違反というわけではないのですが、わざわざ3バイトですむ文字にゴミを入れて6バイトにするMacは美しくないと思います。
Mac OS X ではシェルによって、入力文字列にUnicodeの結合文字列が混ざることがあります。
その場合、同じ単語でも内部的に違う扱いになって検索に引っかからないなどの問題が生じる恐れがあります。
それを避けるために、例えば MySQLのutf8mb4_u
Re:全角カナはMACが絡むとゴミ(結合文字の濁点等)が混ざる (スコア:0)
一般にはNFD(分解された形式)の方が安定とされている。
NFC(合成済みの形式)を積極的に使うとUnicodeのバージョンアップでそれまで組で表すしか無かった文字に対応する合成済みの文字が追加された場合に非互換になる。
だから互換性を求めるならMacの挙動の方が望ましい。
# 必要な漢字はレア人名含めてあらかた提案済みなので今後あるとしても相当なレアケース、というのはまあ