アカウント名:
パスワード:
「々」は記号(踊り字)ですね
プログラム的には- ふりがな欄で「ささき」を「さ々き」と入力されるのは困る(「ささき」で検索しても「さ々き」が見つからないなどの不具合が起こりうる)- 漢字欄で「佐々木」の入力はOKという仕様が多いので実装では「々」の扱いを- 「ふりがなとして入力できる文字」には含めない- 「漢字として入力できる文字」には含めるという感じにするなどします.
pavo2.0の不具合は上記の実装のバグでしょう.名前を入力するシステムではよくあるバグなので,テストケースで必ずチェックすべき項目です.もしかしたら今度は「さ々き」が入力可能になって「ささき」では検索できない,という別のバグが生まれているかもしれません.
ユニコードの漢字判定は面倒くさい。文字コードの一定の範囲内は漢字などという判定ができない。いわゆる辞書を作成しそこで漢字かどうかを判定しなければならない。めんどい。辞書の更新が追いつかなくてもバグるし。
公式がデータ公開してるだろ。https://www.unicode.org/Public/UCD/latest/ucd/ [unicode.org]このデータに従って判定すると「々」は非漢字になるけど、そもそも「々」は非漢字なんだから問題とするポイントがずれてる。そもそもひらがなやカタカナを名前に使っている人もいるし
Unicodeコンソーシアムの言う所の分類に従います、ってなかなか通じないよ。実際謎ジャッジもあるし。制限なんかしなくていい、とやっちゃうとbidi文字とか上や下に伸びるやつとか絵文字とか運用上困る物が含まれてしまう。
結局JISで許容文字(コード上は対応物)を決める形になりがち。
JIS X 0221なんかを参照しましたが何か?
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
皆さんもソースを読むときに、行と行の間を読むような気持ちで見てほしい -- あるハッカー
「々」は「ひらがな、カタカナ、漢字、アルファベット」では無い (スコア:5, 参考になる)
「々」は記号(踊り字)ですね
プログラム的には
- ふりがな欄で「ささき」を「さ々き」と入力されるのは困る(「ささき」で検索しても「さ々き」が見つからないなどの不具合が起こりうる)
- 漢字欄で「佐々木」の入力はOK
という仕様が多いので
実装では「々」の扱いを
- 「ふりがなとして入力できる文字」には含めない
- 「漢字として入力できる文字」には含める
という感じにするなどします.
pavo2.0の不具合は上記の実装のバグでしょう.
名前を入力するシステムではよくあるバグなので,テストケースで必ずチェックすべき項目です.
もしかしたら今度は「さ々き」が入力可能になって「ささき」では検索できない,という別のバグが生まれているかもしれません.
Re: (スコア:1)
ユニコードの漢字判定は面倒くさい。
文字コードの一定の範囲内は漢字などという判定ができない。いわゆる辞書を作成しそこで漢字かどうかを判定しなければならない。めんどい。辞書の更新が追いつかなくてもバグるし。
Re: (スコア:3, 参考になる)
公式がデータ公開してるだろ。
https://www.unicode.org/Public/UCD/latest/ucd/ [unicode.org]
このデータに従って判定すると「々」は非漢字になるけど、そもそも「々」は非漢字なんだから問題とするポイントがずれてる。
そもそもひらがなやカタカナを名前に使っている人もいるし
Re: (スコア:0)
Unicodeコンソーシアムの言う所の分類に従います、ってなかなか通じないよ。実際謎ジャッジもあるし。
制限なんかしなくていい、とやっちゃうとbidi文字とか上や下に伸びるやつとか絵文字とか運用上困る物が含まれてしまう。
結局JISで許容文字(コード上は対応物)を決める形になりがち。
Re:「々」は「ひらがな、カタカナ、漢字、アルファベット」では無い (スコア:0)
JIS X 0221なんかを参照しましたが何か?