パスワードを忘れた? アカウント作成
13433927 story
インターネット

世界のWebサイトで文字コードがUTF-8のページが90%を超える 53

ストーリー by hylom
ちゃんと指定してくれれば問題は無いのだが 部門より

W3Techsが公開している「Usage of character encodings for websites」という統計情報によると、世界中のWebサイトにおいて使われている言語のうち、UTF-8の割合が90%に達している(INTERNET Watch)。

とはいえ、Shift-JISやEUC-JPも多少ではあるがまだ使われており、Shift-JISについてはKakaku.comや2ch.netなど、EUC-JPについてはRakuten.co.jpやGeocities.jp、Mixi.jpなどで使われているという。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by nemui4 (20313) on 2017年10月18日 13時27分 (#3297538) 日記

    未だに社内向けの適当なWeb頁では charset=x-euc-jp つこてまんがな。
    #Terminal環境設定のまま

  • by Anonymous Coward on 2017年10月18日 13時56分 (#3297553)

    ISO-8859-1がたったの4.6%というのに驚いた

    何の根拠もなく漫然と、50%くらいあるんじゃないかと思ってた

  • HTML5では (スコア:0, 興味深い)

    by Anonymous Coward on 2017年10月18日 13時56分 (#3297554)

    UTF-8以外は規格違反だそうですね。
    なんでそんなことになったんだか…。

  • by Anonymous Coward on 2017年10月18日 14時05分 (#3297565)

    utf-8 が大多数なのは想定内としても、
    それ以外の数字がかなり意外。感想を並べると、

    ・iso-8859-1が思ったより随分少ない。

    ・世界統計であって日本国内限定でないのに、パーセンテージの4番目に ShiftJISがある。

    ・中国語圏のBig5が極端に少ない。

    ・アラビア系が少ないのは逆に想定内か。

    ・EUC-KRはまぁこんなもんか。

    ・ロシア系キリル文字圏や、イタリア、スペイン、フランス等のアクセント記号付きアルファベット文化圏は全部Unicodeに含まれるとして、固有のエンコードって無かったのかしら。

    ぱっと頭をよぎったのはこんな感想。

    • by Anonymous Coward

      Windows-なんちゃらがそうだよ。

      >固有のエンコードって無かったのかしら。

      • by Suzuno (48093) on 2017年10月18日 20時31分 (#3297816) 日記

        Windows-なんちゃらがそうだよ。

        おっと、Windows-31Jの悪口はそこまでです。

        # ある種のbad know-howとして、悩んだらcsWindows31Jと書くのは鉄板だったりするような?
        # Shift_JISは論外だし(Javaとかで扱いがころころ変わってた)Windows-31JはIEが理解しない
        # x-mac-japanease?知りません:p

        親コメント
  • by Anonymous Coward on 2017年10月18日 14時23分 (#3297580)

    ISO-2022-JPじゃなくてUTF-8になってくれ。

  • by Anonymous Coward on 2017年10月18日 14時35分 (#3297588)

    取り扱う文書が全部 UTF-8 になって苦労がないのになぁ。

    • by Anonymous Coward
      VisualStudioの標準でさえUTF-8になったんだし、わざわざメモ帳とかで明示的に指定して作らない限りUTF-8じゃないファイルなんてWindows上にもなくない?
      もう何年もエロげのREADME以外でSJISのテキストは見たことないよ
      • by Anonymous Coward on 2017年10月18日 15時21分 (#3297617)

        ファイル名もUTF-8にしてほしいでありんす。
        LinuxもMacもUTF-8なのにシェア多数のWindowsだけがSJISなせいで圧縮ファイルのやりとり面倒。
        MacでUTF-8で書いたテキストファイルもWindowsの知り合いのマシンじゃ文字化けと文句言われる。
        ほんとWindowsさんもうそろそろ勘弁してほしい。

        Appleも思いきって(APFSに)ファイルシステム変えるまで強引にしてきたし、Windowsさんも文字コード変えちゃいましょうよ。

        親コメント
        • NTFSはUTF-16ですよ。FATもLFN使ってるならUTF-16です。
          圧縮ファイルっていうところからzipの問題だと思いますが、フォーマット自体の問題もありますが、世の中に出回っている圧縮展開ソフトの実装がクソすぎるのでどうにもならないでしょう。zipは捨てて7zにしよう。
          親コメント
          • by Anonymous Coward

            OneDriveと圧縮(Zip形式)フォルダーで違うことするのをやめるくらいはできるだろ

          • by Anonymous Coward

            文字コード変換にOS自体がSJISの都合を交えるからワヤくちゃになってんよ
            「・」「·」が一番わかり易い。

          • by Anonymous Coward

            実は MSYS2 を使うと Shift_JIS ファイル名の問題の大部分が解決するのではと思っている。

            ファイル名は NTFS の UTF-16 ファイル名を UTF-8 に変換して扱っているので Unicode → Shift_JIS 変換の非互換にまつわる問題に悩まされることもない。

            zip ファイルは MSYS2 の zip/unzip が UTF-8 ファイル名を扱える…が、逆に Shift_JIS な zip ファイルがちゃんと扱えなかった。

        • by Anonymous Coward

          UTF8同士でも化けるのよね
          http://macwiki.osdn.jp/wiki/index.php/UTF-8-MAC [macwiki.osdn.jp]

        • by Anonymous Coward

          世界中から殺到するであろうゴカンセイガーという苦情に対して
          お前がMSに代わって半永久的に無料で24時間サポートするんならやってくれるよ、多分

        • by Anonymous Coward

          使ってる圧縮ツールの問題ですよね。
          Windows上のアーカイバって、メジャーなものはエンコードは選択できるのが普通。
          WinRar/WinZip あたりは、デフォルトエンコードも UTF-8 、7zip は、オプション指定が必要ですけどね。

          まぁ UTF-8 に統一されても MacはUTF-8を名乗ってても UTF-8-MACのことでUTF-8ではないので、問題は解決しませんが。

          • by Anonymous Coward

            Windows自体(エクスプローラ)にも圧縮機能があってですね…。
            しっかりSHIFT_JISになってるようです。(Windows7では)
            じゃあそれに含まれない文字のファイル名なファイルを圧縮…できない模様。

      • by Anonymous Coward

        WSHとかシェル(コマンドプロンプト)のリダイレクトとか。

      • by Anonymous Coward

        メモ帳でBOMありUTF-8しか作れないの何とかして欲しい。

        • by Anonymous Coward

          逆だろ
          unixがBOM付きUTF-8をサポートするのが正解

          https://twitter.com/aetos382/status/670084294631649280 [twitter.com]

          • by Anonymous Coward on 2017年10月18日 18時33分 (#3297749)

            ASCII で書かれたものがそのまま変換の必要なしに UTF-8 として
            扱えるのが、数ある Unicode のエンコード方式の 中での UTF-8 の
            メリットなのに、わざわざ BOM を付けて ASCII でなくせという
            主張が通るわけがない。

            あと、 UNIX が BOM 付き UTF-8 を "サポートしていない" というより、
            "ZERO WIDTH NO-BREAK SPACE として扱っている" と考えるのが
            妥当だと思う。

            親コメント
            • by Anonymous Coward

              わざわざ BOM を付けて ASCII でなくせという主張が通るわけがない。

              そうじゃないでしょ。
              リーダーはBOMが付いてても付いて無くても解釈できるべき。書く側はどっちでもいい。

              でも非対応と明示するならそれもいいと思う。それが仕様なら仕様外のものを食わせる人間が悪い。

          • by Anonymous Coward on 2017年10月18日 18時41分 (#3297752)

            バッチファイルが BOM 付き UTF-8 をサポートしたら考えてやっても良い :-p

            親コメント
            • by Anonymous Coward
              VisualStudioで.batファイル作るとしれっとBOMつけやがるのがまた可笑しい
            • by Anonymous Coward

              今どきバッチファイル(笑)
              「さっさとPowerShellに移行しろ」で終わる話だな

              • by Anonymous Coward
                逆にPowerShellはBOMなしだと動かないんですが
                設計者は頭おかしいよね
              • by Anonymous Coward

                BOMを付ければいいじゃない

          • by Anonymous Coward

            The Unicode Standard, Version 5.0
            Use of a BOM is neither required nor recommended for UTF-8

            BOMがあっても誤りではないが、推奨ではない。

            • by Anonymous Coward on 2017年10月18日 23時30分 (#3297905)

              ところが最近は下記のような文章が追加されてたり。 (最新の 10.0 から引用)

              , but may be encountered in contexts where UTF-8 data is converted from other encoding forms that use a BOM or where the BOM is used as a UTF-8 signature.

              ざっくり訳すと、他の BOM 付のエンコードから変換された場合や、 UTF-8 であることを示すシグネチャとして使われる場合に見られるということで、まさに Windows が BOM を UTF-8 の判別に使っているのを追認するような形。

              で、そのすぐ後の表でも UTF-8 の "BOM Allowed?" が yes になってる。

              親コメント
          • by Anonymous Coward

            いやいやUTF-8にバイトオーダーは(1つしか)無いんだから
            BOMを付ける事自体無意味でしょ
            BOMはエンコードを区別するための印じゃないよ?

            • by Anonymous Coward

              ストレージのことをROMと呼ぶ [hardware.srad.jp]のと同じようなものだろ
              名前と実態が乖離してるってだけ

              BOMを付けてほしくないならUTF-8と他のエンコーディングを区別できるような方法を提案してくれ

  • by Anonymous Coward on 2017年10月18日 14時50分 (#3297596)

    リンク先にあった

    See technologies overview for explanations on the methodologies used in the surveys.

    を辿って出たページに、こう書いてあった。
    https://w3techs.com/technologies [w3techs.com] 

    We include only the top 10 million websites (top 1 million before June 2013) in the statistics in order to limit the impact of domain spammers. We use website popularity rankings provided by Alexa (an Amazon.com company) using a 3 months average ranking. Alexa rankings are sometimes considered inaccurate for measuring website traffic, but we find that they serve our purpose of providing a representative sample of established sites very well.

    ここ5年以内で、Alexaのランキング100万を占めた1000万のサイトの文字コードから判定しているらしい、程度にしかおいらにはわからんので、引用していない部分も含め、精確な解説希望。

  • by Anonymous Coward on 2017年10月18日 15時44分 (#3297646)

    同じソースのserver locations for websites [w3techs.com]によると日本にあるサーバーは5.5%。

    単純に国内以外に日本語のページがないと考えちゃうと、
    Shift JIS 0.8%、EUC-JP 0.3%は合計20%に相当。UTF8は80%相当ということかな。世界が90%だからちょっと遅れてる感じ。

    #統計にある「language」は意味が違った・・・

  • by Anonymous Coward on 2017年10月18日 20時59分 (#3297829)

    自動的に utf-8 扱い?
    それとも encoding として指定されてるものをカウントしてる?

  • by Anonymous Coward on 2017年10月18日 22時11分 (#3297865)

    お前らの使ってるファイル名の文字コードを確認せよ

    • by Anonymous Coward

      だいぶ前にUTF-8に移行したよ(Debian/GNU Linux)。

typodupeerror

一つのことを行い、またそれをうまくやるプログラムを書け -- Malcolm Douglas McIlroy

読み込み中...