アカウント名:
パスワード:
ソフト側で対応が必要なんじゃなくてユニコード規格制定の時に中華と日本と台湾を無理矢理「中国人共はどうせ同じ字を使ってるのに細かい所が違うとか我儘言うんじゃありません」とか言って一方的に統一された事が原因なんでしょ?じゃあその解消法ってユニコード規格の方を「日中韓台はそれぞれ異民族で言語が異なる」という事実認識に合わせて更新する事でしょ?
この記事を取り上げるって事は、記者はそういう活動(笑)を推進する責任を自ら被るって事でしょ?そんで国粋主義的、排外的、昭和のカスみたいな安っぽい似非極右的コメントを期待してる訳でしょ?それって何が楽しいの?
今更Unicodeを廃止して別のコード規格に移るのはもう無理でしょうから、現状のUnicodeの仕組みでなんとかするとしたら、異体字セレクタを使うことですかね。
元々、葛飾区の「葛」(中がL人、U+845B)と葛城市の「葛」(中がヒ、U+845B U+E0100)みたいな同一言語内での「異体字」を表現するための機能ですけど、Han Unification した文字は全て、どの言語なのかも異体字セレクタで指定できるようにすれば、今回のような問題はおきないし、混在表現も可能になります。
欠点は、メモリ効率が悪いことですかね。1文字の表現に、UTF-16なら3ワード6バイト、UTF-8だと7バイトも必要。
それにしても、元々「CJKバラバラに収録したら16bitに収めるの厳しいから統合します」とか乱暴なことまでしておいて、「多バイトでバイト数不定なISO-2022なんか使いにくいだろ。Unicodeなら全ての文字は16bitの1Wordで表現できるぜ。」とUnicodeのメリットを推してたけど、
結局16bitに収まらずにUTF-32とかでてきて、UTF-16だと2ワードで1文字表現するハメになったり、合字とか1文字のワード数が不定長だし、全然使いやすくない。
ISO-2022とかに比べるとモードレスなのはメリットだけど、その一方で、異体字セレクタとかは後ろに付くから先読みが必要。
#つい最近、PHPExcel/PHPSpreadsheetでのExcel(xls)出力がサロゲートペアに対応してない問題に出くわしたので、ちょっと恨みがましいです。
現状のUnicodeの仕組みでなんとかするとしたら、異体字セレクタを使うことですかね。
実際「直」とか「器」なんかだと、既存の異体字セレクタ(IVS)で何とかなるんですけど、かなり手間(「直」の場合 [srad.jp]・「器」の場合 [srad.jp])なんですよね。なかなかサポートしてもらえなさそうだけど、どうしたものかなぁ。
Unicodeではないけど、横書き「、」が、かつてのワープロやパソコンの普及によって皆が慣れたように、異体字の「直」とか「器」も慣れてしまえば、別にこれでも良いんじゃない?逆に、こっちじゃないと気持ち悪い、という人々が増えてくることで落ち着くんじゃないかな。
いや横書きでも「、」は昔から「、」だよ。トラ技が特殊だっただけ。
文科省の小中高生の教科書が中華フォントに標準になる日も、それほど遠くない気がしますね。
てゆうか何でそんなケチくさいことになってんだろね そりゃ8bitCPUの時代はまあ文字のビット数節約したかったのかもしらんけど どっかのタイミングでUnicode-NGみたいなの作って128bitとか256bitとかどんと増やせばよかったのでは 最初の32bit
中国は漢字統合を推進した側。今は違うけど、当時のCJK互換漢字にG-sourceはなかった。つまり中国を必要な漢字は全部統合漢字に入れた(そうなるように統合規則を設定した)ってこと。
中国を必要な漢字は→中国は必要な漢字を
当時、反対派からの「Unicodeを採用したら漢字が中国のフォントになってしまう」という主張を推進派が荒唐無稽なデマ扱いしてたけど、結局反対派の言ったとおりになってて草も生えない。助けてファクトチェックセンター!
未来予想ってファクトなの?
中華人民共和国内ですら地域限定の文字があるしユニコード上同じ文字扱いされるが地域によって字形の異なる文字があるだろう。 渡辺問題は中国にもあるのだ。
Unicodeは文字を定義しているだけで、フォントにより字形が決まるから。フォントを適切に選択することができない、もしくはフォントを制御するAPIを使いこなせない無能技術者が問題なんだよね。政治的ストーリーに書き込み過ぎて知識がおろそかになってしまったのかな。
いやいや、フォントは文書に対して指定するものだから。一つの文書の中で細々フォントを変えて対応するのは間違い。だいたい、Unicodeで文字を定義しているのに言語指定でその文字が変わるのだから定義が崩壊している。
こんな話は今に始まった事じゃない、Unicodeで日中韓台を異民族と認めるか単一人種と認定するかという極めて原始的なイデオロギーやレイシズムから一歩も出ない、政治的な喧嘩以外にする事のない話題なんだから、それを持ち出すって事はそういう喧嘩を起こしたいという意図的な行為としか表現し得ない。
よっぽど知識にコンプレックスでもあるのかな?
いやいや、フォントは文書に対して指定するものだから。一つの文書の中で細々フォントを変えて対応するのは間違い。
なんでそんなウソを? 10秒も考えれば反例を思いつくでしょうに。例えば、日本語話者が朝鮮語を学ぶための教科書とか。
ウソも何も、フォントというのは物理的にサイズの合った活字の一揃いが元なんだから、異言語を混ぜる場合は例外対応でしょ。文字単位でころころ変えるものではない。文書どころか、出版社単位で統一するのが当たり前。
異言語を混ぜる場合は例外対応でしょ。
それは、UNICODEが定めるところなのか? それとも、キミの個人的な主義主張なのか?
これだけ国際化が進み、外国人が日本に来ることも珍しくなくなったんだから、複数言語が混在する文書を「例外対応」と考えるのは、そーとー苦しい考え方だろうね。
キミ、本当に他に反例は思いつかないのかい?複数の言語で書かれたショッピングモールのフロアガイドとか、あるだろ?トイレの使い方が4ヶ国語くらいで書かれてるのも珍しくない。小説にしたって、そんなものがあっても何ら不思議は無い。出版社も、そんな考え方を押し付けられたら、営業妨害に感じちゃうかもよ。
あぁ、こうしていろいろなコメントを見ると、"I18N"と"M17N"の区別もつかない、それ以前に"I18N"と"M17N"すら知らん奴らが増えたのかと、げんなりする。#あ、Ryo.FさんがI18NとM17Nの区別がつかないと言ってるということではありません。#4338609以降でRyo.Fさんに何か言ってるやつらのことです。
14万字収録できるフォント形式ってあるんですか?
複数の言語で書きたければ複数の言語で書けるフォントを使えば良い
Unicodeなんてたかだか14万字しかないのに、一部しか収録してないフォントをいくつも組み合わせようとするからそんなトラブルが起きる
源ノ角ゴシックの全部入りでも使いましょうって話かな?こういうフォントを扱えるのは組版ソフトくらいだし、組版ソフトなら複数フォントを扱えるし...
truetype/opentypeが2^16字しか持てないから分けるんだよ。あと、unicodeは21bitだから14万字どころじゃないな。
それはそうだけど、各言語により適切なフォントを使ってはいけない理由にはならないじゃない?
キミが言ってるのは例えば、プレインテキストなら当てはまるけど、リッチテキスト以上のものには当てはまらない話に見える。キミの手元のリッチテキストを扱えるツールはどうなってる? 例えばグラフィカルなウェブブラウザとか。「フォントは文書に対して指定する」もので、「一つの文書の中で細々フォントを変えて対応」することはできない様になってるかい?それらツールは「間違ってる」と考えるのかい?
日本語だけの文書だって、地の文を明朝・強調をゴシックと混ぜて使うこともあるし、プログラムコードにはまた違うフォントを使うこともあるだろ?これは「一つの文書の中で細々フォントを変えて対応」してる例だと思うけど、キミの考えでは違うの?
書籍の中で一定のルールに基づいて、イタリック体やボールド体や大きな見出しや小さな脚注が付いているのは、当たり前と思ってたんだがなあ。小説にもルビはあるし。
ワープロソフトって使ったことあるかな。別に組版ソフトでもいいけど。
それは制御の粒度問題でしかないよ。デフォでは環境>文書ってあるけど、更に細分する事自体は可能だよな。
「中国人共はどうせ同じ字を使ってるのに細かい所が違うとか我儘言うんじゃありません」とか言って一方的に統一された事が原因なんでしょ?
ちょっと違う。ユニコード・コンソーシアムはアメリカ企業しかいないから漢字の区別がつかなくて全部同じだと思ってたんだよ。けど、新しい文字セットを探してた中国が統合漢字に乗っかったんだよね。
じゃあその解消法ってユニコード規格の方を
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人
じゃあどうしろっていうの? (スコア:-1)
ソフト側で対応が必要なんじゃなくてユニコード規格制定の時に中華と日本と台湾を無理矢理
「中国人共はどうせ同じ字を使ってるのに細かい所が違うとか我儘言うんじゃありません」とか言って一方的に統一された事が原因なんでしょ?
じゃあその解消法ってユニコード規格の方を「日中韓台はそれぞれ異民族で言語が異なる」という事実認識に合わせて更新する事でしょ?
この記事を取り上げるって事は、記者はそういう活動(笑)を推進する責任を自ら被るって事でしょ?
そんで国粋主義的、排外的、昭和のカスみたいな安っぽい似非極右的コメントを期待してる訳でしょ?
それって何が楽しいの?
Re:じゃあどうしろっていうの? (スコア:2)
今更Unicodeを廃止して別のコード規格に移るのはもう無理でしょうから、
現状のUnicodeの仕組みでなんとかするとしたら、異体字セレクタを使うことですかね。
元々、葛飾区の「葛」(中がL人、U+845B)と葛城市の「葛」(中がヒ、U+845B U+E0100)みたいな同一言語内での「異体字」を表現するための機能ですけど、
Han Unification した文字は全て、どの言語なのかも異体字セレクタで指定できるようにすれば、
今回のような問題はおきないし、混在表現も可能になります。
欠点は、メモリ効率が悪いことですかね。1文字の表現に、UTF-16なら3ワード6バイト、UTF-8だと7バイトも必要。
それにしても、
元々「CJKバラバラに収録したら16bitに収めるの厳しいから統合します」とか乱暴なことまでしておいて、
「多バイトでバイト数不定なISO-2022なんか使いにくいだろ。Unicodeなら全ての文字は16bitの1Wordで表現できるぜ。」とUnicodeのメリットを推してたけど、
結局16bitに収まらずにUTF-32とかでてきて、UTF-16だと2ワードで1文字表現するハメになったり、
合字とか1文字のワード数が不定長だし、全然使いやすくない。
ISO-2022とかに比べるとモードレスなのはメリットだけど、
その一方で、異体字セレクタとかは後ろに付くから先読みが必要。
#つい最近、PHPExcel/PHPSpreadsheetでのExcel(xls)出力がサロゲートペアに対応してない問題に出くわしたので、ちょっと恨みがましいです。
IVS(異体字セレクタ)で何とかなるが、かなり手間 (スコア:2)
実際「直」とか「器」なんかだと、既存の異体字セレクタ(IVS)で何とかなるんですけど、かなり手間(「直」の場合 [srad.jp]・「器」の場合 [srad.jp])なんですよね。なかなかサポートしてもらえなさそうだけど、どうしたものかなぁ。
Re: (スコア:0)
Unicodeではないけど、横書き「、」が、かつてのワープロやパソコンの普及に
よって皆が慣れたように、異体字の「直」とか「器」も慣れてしまえば、別に
これでも良いんじゃない?逆に、こっちじゃないと気持ち悪い、という人々が
増えてくることで落ち着くんじゃないかな。
Re: (スコア:0)
いや横書きでも「、」は昔から「、」だよ。トラ技が特殊だっただけ。
Re: (スコア:0)
文科省の小中高生の教科書が中華フォントに標準になる日も、それほど遠くない気がしますね。
Re:じゃあどうしろっていうの? (スコア:1)
統合できなかったのでしょうか。
Re: (スコア:0)
てゆうか何でそんなケチくさいことになってんだろね
そりゃ8bitCPUの時代はまあ文字のビット数節約したかったのかもしらんけど
どっかのタイミングでUnicode-NGみたいなの作って128bitとか256bitとかどんと増やせばよかったのでは
最初の32bit
Re: (スコア:0)
中国は漢字統合を推進した側。今は違うけど、当時のCJK互換漢字にG-sourceはなかった。つまり中国を必要な漢字は全部統合漢字に入れた(そうなるように統合規則を設定した)ってこと。
Re: (スコア:0)
中国を必要な漢字は→中国は必要な漢字を
Re: (スコア:0)
当時、反対派からの「Unicodeを採用したら漢字が中国のフォントになってしまう」という主張を推進派が荒唐無稽なデマ扱いしてたけど、結局反対派の言ったとおりになってて草も生えない。助けてファクトチェックセンター!
Re: (スコア:0)
未来予想ってファクトなの?
中国人がみんな同じ漢字を使ってるわけ無いだろう (スコア:0)
中華人民共和国内ですら地域限定の文字があるしユニコード上同じ文字扱いされるが地域によって字形の異なる文字があるだろう。 渡辺問題は中国にもあるのだ。
Re: (スコア:0)
Unicodeは文字を定義しているだけで、フォントにより字形が決まるから。
フォントを適切に選択することができない、もしくはフォントを制御するAPIを使いこなせない無能技術者が問題なんだよね。
政治的ストーリーに書き込み過ぎて知識がおろそかになってしまったのかな。
Re: (スコア:0)
いやいや、フォントは文書に対して指定するものだから。一つの文書の中で細々フォントを変えて対応するのは間違い。
だいたい、Unicodeで文字を定義しているのに言語指定でその文字が変わるのだから定義が崩壊している。
こんな話は今に始まった事じゃない、Unicodeで日中韓台を異民族と認めるか単一人種と認定するかという
極めて原始的なイデオロギーやレイシズムから一歩も出ない、政治的な喧嘩以外にする事のない話題なんだから、
それを持ち出すって事はそういう喧嘩を起こしたいという意図的な行為としか表現し得ない。
よっぽど知識にコンプレックスでもあるのかな?
Re:じゃあどうしろっていうの? (スコア:1)
いやいや、フォントは文書に対して指定するものだから。一つの文書の中で細々フォントを変えて対応するのは間違い。
なんでそんなウソを? 10秒も考えれば反例を思いつくでしょうに。
例えば、日本語話者が朝鮮語を学ぶための教科書とか。
Re: (スコア:0)
ウソも何も、フォントというのは物理的にサイズの合った活字の一揃いが元なんだから、
異言語を混ぜる場合は例外対応でしょ。文字単位でころころ変えるものではない。
文書どころか、出版社単位で統一するのが当たり前。
Re:じゃあどうしろっていうの? (スコア:1)
異言語を混ぜる場合は例外対応でしょ。
それは、UNICODEが定めるところなのか? それとも、キミの個人的な主義主張なのか?
これだけ国際化が進み、外国人が日本に来ることも珍しくなくなったんだから、複数言語が混在する文書を「例外対応」と考えるのは、そーとー苦しい考え方だろうね。
キミ、本当に他に反例は思いつかないのかい?
複数の言語で書かれたショッピングモールのフロアガイドとか、あるだろ?
トイレの使い方が4ヶ国語くらいで書かれてるのも珍しくない。
小説にしたって、そんなものがあっても何ら不思議は無い。
出版社も、そんな考え方を押し付けられたら、営業妨害に感じちゃうかもよ。
Re: (スコア:0)
Unicodeなんてたかだか14万字しかないのに、一部しか収録してないフォントをいくつも組み合わせようとするからそんなトラブルが起きる
Re: (スコア:0)
あぁ、こうしていろいろなコメントを見ると、"I18N"と"M17N"の区別もつかない、それ以前に"I18N"と"M17N"すら知らん奴らが増えたのかと、げんなりする。
#あ、Ryo.FさんがI18NとM17Nの区別がつかないと言ってるということではありません。
#4338609以降でRyo.Fさんに何か言ってるやつらのことです。
Re: (スコア:0)
14万字収録できるフォント形式ってあるんですか?
Re: (スコア:0)
複数の言語で書きたければ複数の言語で書けるフォントを使えば良い
Unicodeなんてたかだか14万字しかないのに、一部しか収録してないフォントをいくつも組み合わせようとするからそんなトラブルが起きる
源ノ角ゴシックの全部入りでも使いましょうって話かな?
こういうフォントを扱えるのは組版ソフトくらいだし、組版ソフトなら複数フォントを扱えるし...
Re: (スコア:0)
truetype/opentypeが2^16字しか持てないから分けるんだよ。あと、unicodeは21bitだから14万字どころじゃないな。
Re:じゃあどうしろっていうの? (スコア:1)
複数の言語で書きたければ複数の言語で書けるフォントを使えば良い
それはそうだけど、各言語により適切なフォントを使ってはいけない理由にはならないじゃない?
キミが言ってるのは例えば、プレインテキストなら当てはまるけど、リッチテキスト以上のものには当てはまらない話に見える。
キミの手元のリッチテキストを扱えるツールはどうなってる? 例えばグラフィカルなウェブブラウザとか。
「フォントは文書に対して指定する」もので、「一つの文書の中で細々フォントを変えて対応」することはできない様になってるかい?
それらツールは「間違ってる」と考えるのかい?
日本語だけの文書だって、地の文を明朝・強調をゴシックと混ぜて使うこともあるし、プログラムコードにはまた違うフォントを使うこともあるだろ?
これは「一つの文書の中で細々フォントを変えて対応」してる例だと思うけど、キミの考えでは違うの?
Re: (スコア:0)
書籍の中で一定のルールに基づいて、イタリック体やボールド体や大きな見出しや小さな脚注が付いているのは、当たり前と思ってたんだがなあ。小説にもルビはあるし。
Re: (スコア:0)
ワープロソフトって使ったことあるかな。別に組版ソフトでもいいけど。
Re: (スコア:0)
それは制御の粒度問題でしかないよ。
デフォでは環境>文書ってあるけど、更に細分する事自体は可能だよな。
Re: (スコア:0)
ちょっと違う。ユニコード・コンソーシアムはアメリカ企業しかいないから漢字の区別がつかなくて全部同じだと思ってたんだよ。けど、新しい文字セットを探してた中国が統合漢字に乗っかったんだよね。