Unicodeは実用上２バイト (#2665434) | ゼンリンが国内主要都市の3Dモデルデータを提供へ

「ゼンリンが国内主要都市の3Dモデルデータを提供へ」記事へのコメント

記事ページを表示すべてのコメント取得

検索33コメント Log In/Create an Account

Unicodeは実用上２バイト (スコア:1)

by nim (10479) on 2014年08月28日 12時24分 (#2665434)

サロゲートペアなんて対応してないソフトだって未だあるんだし、実用上はBMPだけでいいでしょ。
そうしたら（英数字も含めて）2バイトですよ。
（あえて誤解を招きかねない言い方をすると）Unicode に 3 バイトの文字はありません。
日本語が3バイトになるのは、単にUTF-8というエンコード方式によるもので。
- Re:Unicodeは実用上２バイト (スコア:1)
  
  by minet (45149) on 2014年08月28日 12時36分 (#2665439) 日記
  
  カタコトの日本語というと、半角カナになってしまうのかなぁ。
  あ、半角カナもUTF-8だと3バイトか。
  
  シェア
  
  親コメント
  - Re:Unicodeは実用上２バイト (スコア:1)
    
    by Anonymous Coward on 2014年08月28日 12時55分 (#2665452)
    
    外来語をカタカナで書いたりするので勘違いしやすいですが、今、日本語を勉強している外国人は「ひらがな」から勉強を始めるので、カタカナは非常に弱いです。
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      片仮名にされると辞書で調べることもできないしね。元の綴りのままにしてくれないんだったら文字が意味を持っているし調べることのできる漢語の方がマシなんだな。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  （あえて誤解を招きかねない言い方をすると）Unicode に 3 バイトの文字はありません。
  それを「誤解を招きかねない言い方」で済ますのはいかがかと。
  それを言うのなら、そもそも Unicode 自体はバイト数と関連しません。
  よって、「Unicodeは実用上２バイト」も間違い。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    「誤解を招きかねない言い方」っていうのは、厳密な表現ではないけど許してね、という語彙だから、
    そこで厳密には違うと指摘しても無意味じゃないかな。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    Unicodeとバイト数は関係いない以上、
    『サロゲートペアや合成文字や異体字などを無視すれば、「Unicodeは実用上2バイト」で1文字を識別する情報を格納できる』
    と解釈する以外ないのでは?
    どのように解釈したのかきいてみたい。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      元々の理念だった2オクテット固定長で扱いやすいUTF-16が真っ先に思い浮かんだのでは？
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        いや、それは UTF-16 でなく UCS-2。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      正規化という手続きがある以上、ユニコードは、一文字二バイトと決めつけてはならないが妥当かと。濁点に関して、Mac OS Xでは濁点とかは合字ですし。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  テキスト系のプログラミングをやってる人はわかると思うけど、ユニコードをUTF-8やUTF-16でエンコードするのは、環境の問題なので、普通は4バイトの配列にする。つまり、UCS-4が一番ナチュラルだし、unicode.orgでもそうやってインデックスを付けている。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    >普通は4バイトの配列にする
    普通ってどこの普通だよ。内部エンコーディングでもUTF-16かUTF-8が大半で、32bitで持つシステムが少数派でしょ。Pythonくらいか。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      wchar_t は 4 バイトが普通ですよ。
      UTF-8 が主流なのは情報交換用。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      まさに環境依存の話してるじゃないか……。それじゃねーんだよ。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  絵文字「」

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

ゼンリンが国内主要都市の3Dモデルデータを提供へ More ログイン

「ゼンリンが国内主要都市の3Dモデルデータを提供へ」記事へのコメント

Unicodeは実用上２バイト (スコア:1)

Re:Unicodeは実用上２バイト (スコア:1)

Re:Unicodeは実用上２バイト (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

スラド