Re:Shift JIS→UTF-8変換。 (#1711489) | Webで利用される文字コード、UTF-8がもうすぐ50％を突破

「Webで利用される文字コード、UTF-8がもうすぐ50％を突破」記事へのコメント

記事ページを表示すべてのコメント取得

検索116コメント Log In/Create an Account

Shift JIS→UTF-8変換。 (スコア:1)

by mitchie1970 (12436)

自分のすべての HTML ファイルを Shift JIS で書いてるんですが、UTF-8 化するには
何をどうすればよい?
以前は Content-Type の Charset を Shift_JIS から UTF-8 に変えただけの“対応”を
したペイジに出くわした事もあるけれど、今どきはさすがにないんでしょうか。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  まとめて nkf して、Charset を一括置換……というだけでは足りないのでしょうか？
  - Re: (スコア:3, 参考になる)
    
    by Anonymous Coward
    
    まとめて nkf して、Charset を一括置換……というだけでは足りないのでしょうか？
    
    いやいやいや全然全く足りませんよ
    そもそもUTF-8はShiftJISの上位互換では無いですから、単純にnkfすれば良いという訳ではないです
    ましてやUTF-8自体もBOM有り/無しとありまして、OSによっては片方のみをUTF-8として認識し、もう片方は認識出来ずに文字化けの嵐なんて事もありますし
    
    私も昨年、PostgreSQLのDBをEUC_JPからUTF-8に変換しようとして難儀しましたよ
    有名なバックスラッシュとなみ線問題から、一部の漢字の誤変換問題
    更にはそれらをシコシコと手作業で直していたのですが、端末上ではVim、Windowsでは秀丸を使っていましたら、改行はLFで統一されていたものの、何故かBOMが混在した状態になってしまっていたりして・・・・・本当に疲れた
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      BOM付きUTF-8なんてローカルルールで標準ではないんですよ。
      ISO-2022-JPで半角カナを拡張して使ってるようなもんです。
      - Re:Shift JIS→UTF-8変換。 (スコア:2)
        
        by yasu (7) on 2010年01月31日 17時38分 (#1711489) ホームページ
        
        BOM付きUTF-8なんてローカルルールで標準ではないんですよ。
        
        → 付ける必要は無いが、付けた場合でも規格の範囲内。
        ISO-2022-JPで半角カナを拡張して使ってるようなもんです。
        
        → 規格外。
        では? もっとも、HTTPはエンコードを指定できるプロトコルなので、BOMを禁止するべきである (RFC 3629) という話はありますが。
        
        --
        HIRATA Yasuyuki
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        RFCもISOの規格票もTUSも読まないでBOM付きのUTF-8はローカルルールだとか勝手に思い込んでる人がこんなに多いんじゃ、面倒でも毎回毎回言及するたびに引用するしかないですね…。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        規格内ですよ。標準ではないですよ。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        BOM付きUTF-8なんてローカルルールで標準ではないんですよ。
        
        → 付ける必要は無いが、付けた場合でも規格の範囲内。
        
        付けた場合はBOMではなく幅のないスペースです。
        
        Re:Shift JIS→UTF-8変換。 (スコア:2)
        
        by yasu (7) on 2010年02月01日 20時27分 (#1712048) ホームページ
        
        BOM付きUTF-8なんてローカルルールで標準ではないんですよ。
        
        Unicode Consortiumは「UTF-8 can contain a BOM」と言ってます。 (cf. Unicode FAQ [unicode.org]) もっとも、UTF-8の並びはエンディアンネスは関係無いので「BOM」の役割ではなく、シグネチャ的な用途にとどまりますが。
        …もしかして「(Unicodeの規格ではなく) 一部のローカルルールでは標準的ではない」という意図でしょうか? 場所によってはそのようなローカルルールがあることは否定しません。たとえば文字コードをUTF-8に決め打ちする場合、BOMを付けないルールは有用でConsortiumのガイドラインにも適っていると思います。
        付けた場合はBOMではなく幅のないスペースです。
        
        途中に現れた場合に「ZERO WIDTH NON-BREAKING SPACE」と見なす、というルールと混同していませんか? (もっとも、これは後方互換性のためのようですが。)
        
        --
        HIRATA Yasuyuki
        
        シェア
        
        親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

Webで利用される文字コード、UTF-8がもうすぐ50％を突破 More ログイン

「Webで利用される文字コード、UTF-8がもうすぐ50％を突破」記事へのコメント

Shift JIS→UTF-8変換。 (スコア:1)

Re: (スコア:0)

Re: (スコア:3, 参考になる)

Re: (スコア:0)

Re:Shift JIS→UTF-8変換。 (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:Shift JIS→UTF-8変換。 (スコア:2)

スラド

Webで利用される文字コード、UTF-8がもうすぐ50％を突破 More ログイン

「Webで利用される文字コード、UTF-8がもうすぐ50％を突破 」記事へのコメント

Shift JIS→UTF-8変換。 (スコア:1)

Re: (スコア:0)

Re: (スコア:3, 参考になる)

Re: (スコア:0)

Re:Shift JIS→UTF-8変換。 (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:Shift JIS→UTF-8変換。 (スコア:2)

「Webで利用される文字コード、UTF-8がもうすぐ50％を突破」記事へのコメント