アカウント名:
パスワード:
「々」は記号(踊り字)ですね
プログラム的には- ふりがな欄で「ささき」を「さ々き」と入力されるのは困る(「ささき」で検索しても「さ々き」が見つからないなどの不具合が起こりうる)- 漢字欄で「佐々木」の入力はOKという仕様が多いので実装では「々」の扱いを- 「ふりがなとして入力できる文字」には含めない- 「漢字として入力できる文字」には含めるという感じにするなどします.
pavo2.0の不具合は上記の実装のバグでしょう.名前を入力するシステムではよくあるバグなので,テストケースで必ずチェックすべき項目です.もしかしたら今度は「さ々き」が入力可能になって「ささき」では検索できない,という別のバグが生まれているかもしれません.
ユニコードの漢字判定は面倒くさい。文字コードの一定の範囲内は漢字などという判定ができない。いわゆる辞書を作成しそこで漢字かどうかを判定しなければならない。めんどい。辞書の更新が追いつかなくてもバグるし。
公式がデータ公開してるだろ。https://www.unicode.org/Public/UCD/latest/ucd/ [unicode.org]このデータに従って判定すると「々」は非漢字になるけど、そもそも「々」は非漢字なんだから問題とするポイントがずれてる。そもそもひらがなやカタカナを名前に使っている人もいるし
関係ないけど、無能な人って高確率で公式ドキュメント読まないよねアレなんでなんだろうね?
単純に長い文書読むのが苦手なのと、よくある「資格なんて必要ない」ってのと同じで、経験と思いこみで仕事が中途半端にうまく回ってるものだから「読まなくてもわかる」を地で行っているんだと思う。
#但し公式ドキュメント書いてあるのに、実際は出来ない/文面と実際の挙動が違うことが多々あるのもコの業界の常。なので読んだ上で実機検証は超重要。
Unicodeコンソーシアムの言う所の分類に従います、ってなかなか通じないよ。実際謎ジャッジもあるし。制限なんかしなくていい、とやっちゃうとbidi文字とか上や下に伸びるやつとか絵文字とか運用上困る物が含まれてしまう。
結局JISで許容文字(コード上は対応物)を決める形になりがち。
Unicodeコンソーシアムの言う所の分類に従いましょうとかずれたこと言う人にずれてるとか言われてもね…
JIS X 0221なんかを参照しましたが何か?
こんな処理は既存のライブラリがいくらでもあると思うんだけど、わざわざ各現場で再実装するか?まあテストも必要だろうけど、ライブラリのテスト結果も残るだろうに以前の結果は参照しないのかね
既存のライブラリ探すよりもちゃちゃっと書いた方が楽、と判断しちゃうケースは別に珍しくない「このケースはこうして欲しいんだけど」みたいなカスタマイズする時も、他人が書いたライブラリの仕様や実装確認するより、自分のコードの方が楽だったりするし
簡単そうに見える問題が本当はもっと複雑で深遠でめんどくさい問題だったって自分で書いてみるまで気付かないのはよくある事、ていうか書いてる段階で気付けばマシな方
現実が物語っていますね。そうではないと。既存のライブラリがあるといっても、何をどう処理しているか、自分の望む処理が全て実装されているか、すぐにはわからないもの。ライブラリを使うということは、ライブラリを作るのと同じくらい手間がかかることもありますよ。
日常的に使っていれば把握しているわけで、そんなことをいちいち調べる必要は本来ない。まあ現実は理想通りにはいかないけどね。
ライブラリだとトラブルの把握がし辛いから、「その程度は仕様」って言える内容以外だと使い辛い。
最初は何でも使いづらいだが、それも「日常的に使っていれば把握している」に入るトラブルを経験して強くなっていくんだよまさかソースが公開されてないようなものを使うわけでもあるまい
いちいち車輪の再実装をすると、あって然るべき仕様の抜けや今回のようなトラブルを生むバグが入ったものが出来上がるだけだ新しく作ったコード片の中身は「理解」できていたとしても、そのコンポーネントは継続的に共有されない可能性が高いだろう
いくらでもありそうと思うなら、ひとつくらいは(使ってなくてもいいから)例示してみるとか。
漢字系の処理は案外ない様な気もするなぁ(文字コードとか絡むとカバーするの大変だから)。とくにバックエンドに汎用機とかいそうな団体はね(ゆうちょはしらないけど、イメージ的にいそう)
そうなると、住所で「吉野ヶ里町」などのように表記に「ヶ」が入っていると登録できないという問題もあったりしないだろうか。
JISでもUnicodeでも「ヶ」はカナに分類されているのでカナが通るなら問題ない
「〒939-1110:富山県高岡市ICパーク [japanpost.jp]」という、アルファベットと記号「ー」が含まれている地名があるらしいです(恐怖)
# 個人的にはtwitterのハッシュ日本語対応初期 [srad.jp]を思い出した
カタカナ表記に「ー」(長音記号)が含まれるのはUnicodeの分類でも当たり前じゃないか。(恐怖)なんて書いてるから長音記号に見せかけて「―」(ダッシュ)、「-」(マイナス)、「‐」(ハイフン)、「─」(横罫線)使ってるのかと思ったぞ。
登録されているほうは正しく長音記号でも、「ー」を入力するフォームに入力されるほうはいろいろな記号で書かれ得るってことじゃないかな。#昔だけど、どこから住所情報が漏れたか判るように、各サイトに登録する住所にはそれぞれ別の表記揺れを入れているってのを読んだことがある。
Unicodeでは「ー」(長音記号、音引き)と「・」(点、中黒)はカタカナになるんですよふりがなをひらがなで入力させる場合は、こいつらを計算に入れておく必要があります。
KATAKANA-HIRAGANA DOUBLE HYPHENはカタカナかよ!
チン!チン!チンギス゠ハーン!
平仮名の「ささき」の場合は「さゝき」ですね。
でもって、片仮名の場合は「サヽキ」。あと、濁点付与する踊り字記号もあって、「みすず」は「いすゞ」「ミスヾ」ってなる。けど、ふりがなは踊り字は使わないのが普通。「金子みすゞ」→「かねこみすず」とか。今時、仮名の踊り字を使うのは昔からある固有名詞ぐらいですね。「いすゞ自動車」とか。
あと、「ー」も長音「記号」ですね。これは平仮名/片仮名の区別なし。
日本人の名前で利用可能な文字という点では、漢字、仮名に加えて、記号の中でも「ー々ゝゞヽヾ」は使用可能なので、名前入力フォームではこれらの記号だけは利用可能にしないとダメ、ふりがな/フリガナ欄はひらがな/カタカナ+長音記号だけ使用可能で踊り字記号使用不可ということになるかと。
漢字用,ひらがな用,カタカナ用ってそれぞれ用途が決まっているんだから、なんで「々」は漢字,「ゝ」「ゞ」はひらがな, 「ヽ」「ヾ」はカタカナとして扱うようにしなかったのかね?規格制定時に分類原理主義者がいたのだろうけど、使われてなんぼの世界で「どう定義したら便利か」ってのを考慮しなかったのかな。
踊り字は約物だからだよ。日本だろうがそれ以外だろうが同じ。勝手にかな扱いしたら組版で困るでしょ。
「普通」かどうかは固有名詞の場合には効力が無いので。「わたしの名前は何十年もずっと、『みすゞ』って書いてきた!どうしてだめなの!」と言われるかも。
#面白いこと見つけた https://mnamae.jp/p/307f3059305a.html [mnamae.jp]
みすずという名前の占い 10画(最大凶)お金で苦労します。趣味に走る。コレクション好き。親との縁が薄い。
https://mnamae.jp/p/307f305 [mnamae.jp]
そんな区別しなければいいのに。バグって無意味なことしてマッチポンプしてるだけ。
CJK symbols and punctuationかどうかで調べればいいんじゃなくてadhocにやる必要あるからね
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
ソースを見ろ -- ある4桁UID
「々」は「ひらがな、カタカナ、漢字、アルファベット」では無い (スコア:5, 参考になる)
「々」は記号(踊り字)ですね
プログラム的には
- ふりがな欄で「ささき」を「さ々き」と入力されるのは困る(「ささき」で検索しても「さ々き」が見つからないなどの不具合が起こりうる)
- 漢字欄で「佐々木」の入力はOK
という仕様が多いので
実装では「々」の扱いを
- 「ふりがなとして入力できる文字」には含めない
- 「漢字として入力できる文字」には含める
という感じにするなどします.
pavo2.0の不具合は上記の実装のバグでしょう.
名前を入力するシステムではよくあるバグなので,テストケースで必ずチェックすべき項目です.
もしかしたら今度は「さ々き」が入力可能になって「ささき」では検索できない,という別のバグが生まれているかもしれません.
Re:「々」は「ひらがな、カタカナ、漢字、アルファベット」では無い (スコア:1)
ユニコードの漢字判定は面倒くさい。
文字コードの一定の範囲内は漢字などという判定ができない。いわゆる辞書を作成しそこで漢字かどうかを判定しなければならない。めんどい。辞書の更新が追いつかなくてもバグるし。
Re:「々」は「ひらがな、カタカナ、漢字、アルファベット」では無い (スコア:3, 参考になる)
公式がデータ公開してるだろ。
https://www.unicode.org/Public/UCD/latest/ucd/ [unicode.org]
このデータに従って判定すると「々」は非漢字になるけど、そもそも「々」は非漢字なんだから問題とするポイントがずれてる。
そもそもひらがなやカタカナを名前に使っている人もいるし
Re:「々」は「ひらがな、カタカナ、漢字、アルファベット」では無い (スコア:1)
関係ないけど、無能な人って高確率で公式ドキュメント読まないよね
アレなんでなんだろうね?
Re: (スコア:0)
単純に長い文書読むのが苦手なのと、よくある「資格なんて必要ない」ってのと同じで、経験と思いこみで仕事が中途半端にうまく回ってるものだから「読まなくてもわかる」を地で行っているんだと思う。
#但し公式ドキュメント書いてあるのに、実際は出来ない/文面と実際の挙動が違うことが多々あるのもコの業界の常。なので読んだ上で実機検証は超重要。
Re: (スコア:0)
Unicodeコンソーシアムの言う所の分類に従います、ってなかなか通じないよ。実際謎ジャッジもあるし。
制限なんかしなくていい、とやっちゃうとbidi文字とか上や下に伸びるやつとか絵文字とか運用上困る物が含まれてしまう。
結局JISで許容文字(コード上は対応物)を決める形になりがち。
Re: (スコア:0)
Unicodeコンソーシアムの言う所の分類に従いましょうとかずれたこと言う人にずれてるとか言われてもね…
Re: (スコア:0)
JIS X 0221なんかを参照しましたが何か?
Re: (スコア:0)
こんな処理は既存のライブラリがいくらでもあると思うんだけど、わざわざ各現場で再実装するか?
まあテストも必要だろうけど、ライブラリのテスト結果も残るだろうに以前の結果は参照しないのかね
Re: (スコア:0)
既存のライブラリ探すよりもちゃちゃっと書いた方が楽、と判断しちゃうケースは別に珍しくない
「このケースはこうして欲しいんだけど」みたいなカスタマイズする時も、
他人が書いたライブラリの仕様や実装確認するより、自分のコードの方が楽だったりするし
簡単そうに見える問題が本当はもっと複雑で深遠でめんどくさい問題だったって
自分で書いてみるまで気付かないのはよくある事、ていうか書いてる段階で気付けばマシな方
Re: (スコア:0)
現実が物語っていますね。そうではないと。
既存のライブラリがあるといっても、何をどう処理しているか、自分の望む処理が全て実装されているか、すぐにはわからないもの。ライブラリを使うということは、ライブラリを作るのと同じくらい手間がかかることもありますよ。
Re: (スコア:0)
日常的に使っていれば把握しているわけで、そんなことをいちいち調べる必要は本来ない。
まあ現実は理想通りにはいかないけどね。
Re: (スコア:0)
ライブラリだとトラブルの把握がし辛いから、
「その程度は仕様」
って言える内容以外だと使い辛い。
Re: (スコア:0)
最初は何でも使いづらい
だが、それも「日常的に使っていれば把握している」に入る
トラブルを経験して強くなっていくんだよ
まさかソースが公開されてないようなものを使うわけでもあるまい
いちいち車輪の再実装をすると、あって然るべき仕様の抜けや今回のようなトラブルを生むバグが入ったものが出来上がるだけだ
新しく作ったコード片の中身は「理解」できていたとしても、そのコンポーネントは継続的に共有されない可能性が高いだろう
Re: (スコア:0)
いくらでもありそうと思うなら、ひとつくらいは(使ってなくてもいいから)例示してみるとか。
漢字系の処理は案外ない様な気もするなぁ(文字コードとか絡むとカバーするの大変だから)。
とくにバックエンドに汎用機とかいそうな団体はね(ゆうちょはしらないけど、イメージ的にいそう)
Re: (スコア:0)
そうなると、住所で「吉野ヶ里町」などのように表記に「ヶ」が入っていると登録できないという問題もあったりしないだろうか。
Re: (スコア:0)
JISでもUnicodeでも「ヶ」はカナに分類されているのでカナが通るなら問題ない
Re: (スコア:0)
「〒939-1110:富山県高岡市ICパーク [japanpost.jp]」
という、アルファベットと記号「ー」が含まれている地名があるらしいです(恐怖)
# 個人的にはtwitterのハッシュ日本語対応初期 [srad.jp]を思い出した
Re:「々」は「ひらがな、カタカナ、漢字、アルファベット」では無い (スコア:1)
カタカナ表記に「ー」(長音記号)が含まれるのはUnicodeの分類でも当たり前じゃないか。
(恐怖)なんて書いてるから長音記号に見せかけて「―」(ダッシュ)、「-」(マイナス)、「‐」(ハイフン)、「─」(横罫線)使ってるのかと思ったぞ。
うじゃうじゃ
Re: (スコア:0)
登録されているほうは正しく長音記号でも、「ー」を入力するフォームに入力されるほうはいろいろな記号で書かれ得るってことじゃないかな。
#昔だけど、どこから住所情報が漏れたか判るように、各サイトに登録する住所にはそれぞれ別の表記揺れを入れているってのを読んだことがある。
Re: (スコア:0)
Unicodeでは「ー」(長音記号、音引き)と「・」(点、中黒)はカタカナになるんですよ
ふりがなをひらがなで入力させる場合は、こいつらを計算に入れておく必要があります。
Re: (スコア:0)
KATAKANA-HIRAGANA DOUBLE HYPHENはカタカナかよ!
Re: (スコア:0)
チン!
チン!
チンギス゠ハーン!
Re: (スコア:0)
平仮名の「ささき」の場合は「さゝき」ですね。
Re:「々」は「ひらがな、カタカナ、漢字、アルファベット」では無い (スコア:2)
でもって、片仮名の場合は「サヽキ」。
あと、濁点付与する踊り字記号もあって、「みすず」は「いすゞ」「ミスヾ」ってなる。
けど、ふりがなは踊り字は使わないのが普通。「金子みすゞ」→「かねこみすず」とか。
今時、仮名の踊り字を使うのは昔からある固有名詞ぐらいですね。「いすゞ自動車」とか。
あと、「ー」も長音「記号」ですね。これは平仮名/片仮名の区別なし。
日本人の名前で利用可能な文字という点では、
漢字、仮名に加えて、記号の中でも「ー々ゝゞヽヾ」は使用可能なので、
名前入力フォームではこれらの記号だけは利用可能にしないとダメ、
ふりがな/フリガナ欄はひらがな/カタカナ+長音記号だけ使用可能で踊り字記号使用不可
ということになるかと。
Re: (スコア:0)
漢字用,ひらがな用,カタカナ用ってそれぞれ用途が決まっているんだから、なんで「々」は漢字,「ゝ」「ゞ」はひらがな, 「ヽ」「ヾ」はカタカナとして扱うようにしなかったのかね?
規格制定時に分類原理主義者がいたのだろうけど、使われてなんぼの世界で「どう定義したら便利か」ってのを考慮しなかったのかな。
Re: (スコア:0)
踊り字は約物だからだよ。日本だろうがそれ以外だろうが同じ。
勝手にかな扱いしたら組版で困るでしょ。
Re: (スコア:0)
「普通」かどうかは固有名詞の場合には効力が無いので。
「わたしの名前は何十年もずっと、『みすゞ』って書いてきた!どうしてだめなの!」と言われるかも。
#面白いこと見つけた
https://mnamae.jp/p/307f3059305a.html [mnamae.jp]
みすずという名前の占い 10画(最大凶)
お金で苦労します。趣味に走る。コレクション好き。親との縁が薄い。
https://mnamae.jp/p/307f305 [mnamae.jp]
Re: (スコア:0)
そんな区別しなければいいのに。
バグって無意味なことしてマッチポンプしてるだけ。
unicodeあるある (スコア:0)
CJK symbols and punctuationかどうかで調べればいいんじゃなくてadhocにやる必要あるからね