
Samba、内部文字コードを今度こそ固定化か ? 48
ストーリー by reo
早すぎたんだ、 部門より
早すぎたんだ、 部門より
ある Anonymous Coward 曰く、
高橋基信氏のだめだめ日記によれば、現在は unix charset パラメータに依存する Samba の内部文字コードを、固定化するという議論が開発チームで起きているようだ。
これについては 2004 年の議論において既に高橋氏が UTF-16 を内部文字コードとして使用することを主張していたのだが、当時は置き去りになったことである。内部コードが可変であるのは望ましくないことであるので、今度こそうまく進んでもらいたいものである。
もういっそのこと (スコア:2)
UTF-32とかUTF-64とかUTF-128とかまでいっとこうぜ
#四天王で弱いやつ順に行くよりは手っ取り早い
#誰が最弱文字コードか?とか互換性とかは気にしない
Re: (スコア:0, すばらしい洞察)
そろそろ文字コードの話になるたびに具体的なことを何も考えずに64だの128だのドヤ顔で言い出す連中を何とかしようぜ。せめてすごい文字コード [srad.jp]程度の芸当は見せてください。
ちなみにFirefoxは5.0でUTF-32サポートを廃止したけどほとんど誰も話題にしてないね。まあ所詮そんなもの。
Re:もういっそのこと (スコア:1, すばらしい洞察)
Re: (スコア:0)
UCS-XXにした方がよりネタらしい気が。
UTF-16 といえば (スコア:2, 興味深い)
開発中の PHP 6、UTF-16 化に失敗。開発ブランチも 5.3 系に巻き戻し [srad.jp]
これって関連ストーリー?
7年か (スコア:1)
1DogYear(死語)ですね…。
マルチバイト文字コードにまつわるトラブルに関しては日本が進んでいるのかな。
i18nに関わる人たちに感謝。
Re:7年か (スコア:2, すばらしい洞察)
進んではいると思いますが、最近は「UTF-8で万全」と思っている人を説得しなきゃいけない、という別の苦労が出てきてる気が。
だめだめ日記でも言及されてるMac OS Xでの問題(カタカナの合成字絡み)などは、その一つではないかと。
Re:7年か (スコア:3, 興味深い)
Re: (スコア:0)
64だの128だの言ってる人たちが濁点の正規化問題をどうするつもりなのかもぜひ尋ねておきたいところです(きっと何も考えていないけど)。
TRONコードは、少なくとも仮名+濁点については合成済みのものを全部用意する方向で対応するみたいですね。
Re: (スコア:0)
ハングルも、合成済みのものがすべて用意されています。やったね :-)
おかげで、一部の漢字はBMPから追い出され、UTF-16、UTF-8
ともになら4バイトの辺境へと追いやられました。
Re:7年か (スコア:2, すばらしい洞察)
当時utf-16leの採用が決定しなかった理由は? (スコア:1)
Re:当時utf-16leの採用が決定しなかった理由は? (スコア:3, 参考になる)
Re:当時utf-16leの採用が決定しなかった理由は? (スコア:2, 参考になる)
ですね。
当時は、まず文字コードを固定(UTF-8でよいので)した上で、Windows側からはUTF-16で流れてくるし、UTF-8より、2バイトもしくは4バイト固定のUTF-16の方がUTF-8より文字列関連の処理は簡単なはずという議論を行いたかったんですが、そもそもなんで固定するのという議論だけで力尽きました。
まぁ、UTF-16とか、ASCIIとの互換性がなくなる符号化形式の採用は、かなりハードルが高いですね。向こうの人は、自分たちが普段使っているASCIIの文字列が**読めなく**なる符号化形式というのは、頭で理解しても、いざ議論となると拒否反応を示す感じです。まぁしょうがないかなとも思いますが。
ということでID
Re:当時utf-16leの採用が決定しなかった理由は? (スコア:1)
Samba5? (スコア:1, 興味深い)
Samba4.0.0が現状alpha版。
いまから内部システムコードを変更するなんてあり得ないから、
実装されるのはSamba5から?
Samba3.0のリリースが確か2004年でしたから、
この調子だと、2020年頃になっちゃいそうですね。
Re:Samba5? (スコア:2, 興味深い)
まぁ、現状 Samba の内部文字コードを定義する unix charset パラメータのデフォルト値は UTF-8 で、かつそれをそのまま使っているケースがかなり多いと思いますので、その意味では UTF-16 に変更するよりは、ある意味枯れているという見方もできるかも知れません。
いずれにしても、今のところターゲットは Samba4 のようです。DC の機能以外の完成度はまだそんなレベル。
もういっそのこと (スコア:1, おもしろおかしい)
全世界英語以外使用禁止でいいよ
Re: (スコア:0)
それを日本語で書かれても
Re:もういっそのこと (スコア:1)
Re: plutôt (スコア:0)
Re: (スコア:0)
Moji no wadai nanodakara, betsuni eigo igai wo kinshi suru hitsuyou ha naino deha?
arufabetto igai no riyou wo kinshi sureba iidake
Re:もういっそのこと (スコア:1, おもしろおかしい)
Windowsが内部UTF-16なんだから (スコア:0)
Sambaだけ違う振る舞いしていてもあまり意味ないよな。
2004年の段階ではまだEUC-JPのディストリが多くて難しかったのかな
Re: (スコア:0)
日本内部(日本語ディストリ)の話じゃなくて、「マルチバイト文字文化のことなんか知ったことかー」って
欧米圏から無視された、って感じに読めた>リンク先
Re:Windowsが内部UTF-16なんだから (スコア:4, 興味深い)
こんだけ多言語対応用の環境が揃っている昨今でも、未だに「日本語を入力すると文字が化ける」「日本語を含むパスにアクセスできない」とかのソフトが新規されちゃうくらい、アメリカ辺りの「ASCIIでおk」は強いですし。
とはいえ日本人は日本人で、CJK対応の分野ではめちゃくちゃ貢献してますけど、今度はBIDI対応を置き去りにしがちでアラビアンな方々から「ぬおおおおおおお」って言われるという。
結局、実際に自分が使うもんじゃないと、別にいいよ面倒くせえ、で済まされちゃうんですよねー。
Re:Windowsが内部UTF-16なんだから (スコア:1)
ああ、パパスは確かに西アジアっぽい顔ですね。
Re: (スコア:0)
文字化けするならまだしも、起動すらしてくれないし。
Re: (スコア:0)
Re:Windowsが内部UTF-16なんだから (スコア:1)
そのアプリを、LANG=Cで起動すればいいのでは?
だから、日本語使えなくて困ってるよ、って話では?
Re: (スコア:0)
なくて困るような(しかも代替品が手当てできない)アプリで、
かつ、日本語が使えないと困るというものがあるという状況が想像できなかった。
例えば、どんなものがある?
システム管理ツールとかで(なおかつそれが必須で)日本語が使えないと
アウトなものってあるんだろうか?
技師がアホすぎてメッセージが日本語で出ないとだめとか、
壊れたファイルシステムを解析するのにパス名が化けるとかその程度?
Re:Windowsが内部UTF-16なんだから (スコア:2, 興味深い)
GUIで選択したファイルのファイル名がウィンドウ内で文字化けして読めなくなるのはともかく、いざ処理を開始しようとするとファイルが見つからずに転けるというのはどういう内部処理なんだろうと不思議だった。コマンドラインで指定したファイル名が理解出来ないというならまだ分からんでも無いんだけど。
しょせんお遊びなのでファイル名を変更してからエンコード、その後ファイル名を戻す、みたいな適当な使い方したけど。
Re: (スコア:0)
Vegas なんて、プリレンダリングしたら、中間ファイルを日本語ファイル名で書くくせに、
そのファイルの読み込みに失敗するなんて事がありましたぜ。プリレンダリングできねーの。
結局、試用期間が終わって破棄してしまいましたが、最近のは治ったのかなー?
Re: (スコア:0)
と言っているのに。自分は全然別人だけど。
あなたのようにフリーウェアと一般的に売られているソフトで仕事のすべてが完結してしまう人って少ないのよ。
Re: (スコア:0)
LANG=C make
しないと、C-x r ` で飛んでくれなかったりね。
入りますディレクトリ、みたいな。
Re: (スコア:0)
Adobe Flashも多言語対応を謡いながら、その文化で生きてますよね。
マルチバイト文字列に1バイトおきに0x00を挿入してUTF-16に変換した気分になるコード。
SWFがUTF系になった頃からずっと存在するバグですが、さっき確認した最新版でも残ってました。
発症条件が少々特殊で発症条件を満たす例も年々減り続けてるはずですが…なんというか
初遭遇時に逆アセンブルにハマってたので軽い気分で確認したらこのクソコード。
このバグを自力で撤去できない限り、Adobeはセキュリティホールの温床を抜け出すきっかけすら得られないと勝手に思ってます。
Re: (スコア:0)
2004年というとFedora Core 1~3にかけての時代か…。
#暗黒な思い出が…
なにか勘違いしてるみたいだけど… (スコア:0)
「ようやく追い付いてきた」とかかなり勘違いしているようですが、
実際問題、7年前の時点でSambaがUTF-16固定で実装されてたら、重すぎてユーザ激減してたでしょ?
考えてもごらんよ?
例えばMule-2.3が現役の頃、あえてMule使ってた人なんてごく少数で、殆どの人達は日本語のDemacsやMg使ってたっしょ?
俺はjvim使ってたかな……
マルチリンガルという理想を貫く精神は立派だと思いますけど、マルチリンガルって結構重い処理なので
実際に実装する時は使用するハードウェアとのトレードオフ、という現実的な問題がつきまとうわけですよ
ましてやSambaなんてサーバ屋さん御用達ソフトの筆頭のひとつだからね
「バージョンアップしたら文字コード周りが重くなって性能落ちた」なんて事になったら、皆して古いSamba使っちゃうわけ
そうなったら本末転倒でしょ?
Re:なにか勘違いしてるみたいだけど… (スコア:2, すばらしい洞察)
Windows NTは1996年にUTF-16(まあ当時はUCS-2だったけど)固定でしたが?
2004年ですら遅すぎたくらい
Re: (スコア:0)
# 共有にファイル置くとファイル名化けるんだなんてことで呼ばれたくない
# un*x側のファイル名を sjisで保存なんてしないですよね?
保存ファイル名に UNICODE系使わないとどっちにしろコード変換がおきる罠
Re: (スコア:0)
>実際問題、7年前の時点でSambaがUTF-16固定で実装されてたら、重すぎてユーザ激減してたでしょ?
7年前の議論は、Samba4に向けてどうしようって議論ですよ。
つまり、正式リリースされるのは数年後ということを前提にした論争。
Re: (スコア:0)
オフトピで恐縮ですが...
>>例えばMule-2.3が現役の頃、あえてMule使ってた人なんてごく少数で、殆どの人達は日本語のDemacsやMg使ってたっしょ?
それはOSによるでしょう。
自分はテキスト処理は既にLinuxに移行していたので
メールもmule-2.3+mew-1.06という環境でした。
だからソース書きなんかもmuleだったと思います。
この頃(恐らく1996年頃)ってWindows95がそこそこ普及して
CPUパワーもそれなりに上がっていたので
Emacs/Muleが使いたいならFreeBSDやLinuxに
移行していた人もそれなりにいたのでは?
いずれにせよ (スコア:0)
やっぱり結局㍉
Re: (スコア:0)
Rubyもあとに続け~ (スコア:0)
Re:Rubyもあとに続け~ (スコア:1)
そういう意味では、UTF-8化が完了しているperlは進んでいるなぁと思うんですが、言語としての人気はさっぱりになってしまいましたね。なんでなんだろう。perlでのUTF-8の扱いも癖はありますけど、流儀を覚えてしまえばそれほど苦労ではないと個人的には思ってます。(ヘビーに使ってる人にとっては違う感想かもしれませんが)
しかも、perlってメイン開発者が日本人じゃないのに。これについては、小飼弾氏の功績はもっと評価されていいんじゃないかと思うのです。
Re:Rubyもあとに続け~ (スコア:1)
PythonやRubyなどの勢いに押されていますが、さっぱりということもないのでは。
まだまだバージョンアップが続いているのは需要があるからですよね。
Larryさんは日本文化に理解があるみたいなので、そのせいもあったのでしょうか。
Re: (スコア:0)
force_encodingしないとほとんど使い物にならないしな。