アカウント名:
パスワード:
自分のすべての HTML ファイルを Shift JIS で書いてるんですが、UTF-8 化するには何をどうすればよい?
以前は Content-Type の Charset を Shift_JIS から UTF-8 に変えただけの“対応”をしたペイジに出くわした事もあるけれど、今どきはさすがにないんでしょうか。
まとめて nkf して、Charset を一括置換……というだけでは足りないのでしょうか?
いやいやいや全然全く足りませんよ そもそもUTF-8はShiftJISの上位互換では無いですから、単純にnkfすれば良いという訳ではないです ましてやUTF-8自体もBOM有り/無しとありまして、OSによっては片方のみをUTF-8として認識し、もう片方は認識出来ずに文字化けの嵐なんて事もありますし 私も昨年、PostgreSQLのDBをEUC_JPからUTF-8に変換しようとして難儀しましたよ 有名なバックスラッシュとなみ線問題から、一部の漢字の誤変換問題 更にはそれらをシコシコと手作業で直していたのですが、端末上ではVim、Windowsでは秀丸を使っていましたら、改行はLFで統一されていたものの、何故かBOMが混在した状態になってしまっていたりして・・・・・本当に疲れた
> そもそもUTF-8はShiftJISの上位互換では無いですから、上位互換ならそもそも変換の必要はありませんから、上位互換でないのは自明だと思いますが…(でもこのものすごい部門名を見るとそう自明でもないのかな)。> UTF-8自体もBOM有り/無しとありまして、OSによっては片方のみをUTF-8として認識し、元コメントの人は> 自分のすべての HTML ファイルをと言っています。HTMLに限って言えば両方認識できなければならないことは明確ですし実際のブラウザもそうなっています。まあ手もとで作業するとき文字化けすると不便かもしれませんが。本当はHTMLに限った話ではないのですが認識できないものはできないし当初「ASCIIの上位互換だ」(つまりBOMなし)ということになっていたところから泥沼にはまってるわけですからね。> 一部の漢字の誤変換問題CP51932とeucJP-msで「鷗」とか「彅」とかの変換されかたが違う系の問題でしょうか。もう少し詳細を書いていただけると同じところでハマるに違いない他の方の参考になるかと思います。それとも深追いしないで手作業で直しちゃったのでしょうか。修正量によってはそっちのほうがコストが低いかもしれませんが、楽するためならどんな苦労でもするプログラマ的にはいまいちです。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
最初のバージョンは常に打ち捨てられる。
Shift JIS→UTF-8変換。 (スコア:1)
自分のすべての HTML ファイルを Shift JIS で書いてるんですが、UTF-8 化するには
何をどうすればよい?
以前は Content-Type の Charset を Shift_JIS から UTF-8 に変えただけの“対応”を
したペイジに出くわした事もあるけれど、今どきはさすがにないんでしょうか。
Re: (スコア:0)
まとめて nkf して、Charset を一括置換……というだけでは足りないのでしょうか?
Re: (スコア:3, 参考になる)
いやいやいや全然全く足りませんよ
そもそもUTF-8はShiftJISの上位互換では無いですから、単純にnkfすれば良いという訳ではないです
ましてやUTF-8自体もBOM有り/無しとありまして、OSによっては片方のみをUTF-8として認識し、もう片方は認識出来ずに文字化けの嵐なんて事もありますし
私も昨年、PostgreSQLのDBをEUC_JPからUTF-8に変換しようとして難儀しましたよ
有名なバックスラッシュとなみ線問題から、一部の漢字の誤変換問題
更にはそれらをシコシコと手作業で直していたのですが、端末上ではVim、Windowsでは秀丸を使っていましたら、改行はLFで統一されていたものの、何故かBOMが混在した状態になってしまっていたりして・・・・・本当に疲れた
Re:Shift JIS→UTF-8変換。 (スコア:0)
> そもそもUTF-8はShiftJISの上位互換では無いですから、
上位互換ならそもそも変換の必要はありませんから、上位互換でないのは自明だと思いますが…(でもこのものすごい部門名を見るとそう自明でもないのかな)。
> UTF-8自体もBOM有り/無しとありまして、OSによっては片方のみをUTF-8として認識し、
元コメントの人は
> 自分のすべての HTML ファイルを
と言っています。HTMLに限って言えば両方認識できなければならないことは明確ですし実際のブラウザもそうなっています。まあ手もとで作業するとき文字化けすると不便かもしれませんが。本当はHTMLに限った話ではないのですが認識できないものはできないし当初「ASCIIの上位互換だ」(つまりBOMなし)ということになっていたところから泥沼にはまってるわけですからね。
> 一部の漢字の誤変換問題
CP51932とeucJP-msで「鷗」とか「彅」とかの変換されかたが違う系の問題でしょうか。もう少し詳細を書いていただけると同じところでハマるに違いない他の方の参考になるかと思います。それとも深追いしないで手作業で直しちゃったのでしょうか。修正量によってはそっちのほうがコストが低いかもしれませんが、楽するためならどんな苦労でもするプログラマ的にはいまいちです。