Twitterの文字数、正式に280文字となる

Twitterの文字数、正式に280文字となる 37

ストーリー by hylom 2017年11月09日 15時27分
特にユーザーの満足度が向上するとは思えないが部門より

Sune曰く、

Twitterの文字制限が従来の140文字から280文字に拡張された（Twitter公式ブログ、ITmedia）。長文の場合、単純に今までの半分のツイート数で投稿できるようになる。ただし日本語は対象外。
一方で、非公式リツイート（っていうんだっけ？）による中途半端な引用がどんどん長くなっていくことも想定でき、議論系のTogetterまとめなどが今までより見づらくなるのではないかとタレコミ主は心配している。
興味深いのは英語・日本語のツイートあたりの文字数の比較だ。英語のツイートは34文字くらいに山があり、140文字寸前のツイートが多くなる。それに対し、日本語のツイートは15文字のところに山があり、140文字寸前のツイートはそれほど多くない。英語圏と日本語圏のTwitterの使い方の違いとみるか、日本語の特性とみるか、気になるところである。

文字数制限の緩和は9月に実験的に導入すると発表されていた。実験のときと同様、日本語・中国語・韓国語は対象外。ITmediaの別記事によると、英数字などは2文字で1文字とカウントされる仕様になっているという。さらに、文字数ではなく円形のインジケータで入力可能な文字数が表示されるようになったことも話題となっている。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索37コメント Log In/Create an Account

使える文字の種類が違いすぎる (スコア:3, 興味深い)

by akiraani (24305) on 2017年11月09日 15時30分 (#3309582) 日記
Twitterの字数制限変更　日本語と英語の「140文字」はどれだけ情報量が違うのか？ [itmedia.co.jp]
　翻訳会社ジェスコに話を伺ったところ、翻訳業界では一般的に「日本語400字の情報量＝英語1000字（スペースを含む/約200単語に相当）の情報量」と考えられているそうです。つまり、日本語1文字あたりの情報量は英語の2.5倍。従来のTwitterの字数制限に当てはめてみると
140字の日本語＝英語350字分
140字の英語＝日本語56字分
　ということになります。
というわけで、倍にしてもまだ日本語のほうが情報詰め込めるっぽいです。
そもそも中国語とかの漢字交じりの言語と比較したら、使える文字のバリエーションがぜんぜん違うわけで、「文字数」でカウントすること自体がおかしいのではないのかと。
せめて、バイト数で換算すべきだったのでは……。
--
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
- 占有面積にはチューイせよ (スコア:1)
  
  by hinatan (24342) on 2017年11月09日 15時50分 (#3309596) 日記
  
  ここにぶら下げます。
  製品マニュアルとかで、複数の言語で同じ説明が書いてある時「どの言語がコンパクトに表現できるのかな？」っていつも見ちゃうんですが、大差なく見えるんです。
  一文字当たりの情報量は多いのかもしれないけど、占有スペースは同じなんだろうなと。PCの上では固定フォントの場合、通常日本語はアルファベットの２文字分占有しますしね。（半角カタカナとか、㌧㌦とか例外やで）
  
  シェア
  
  親コメント
  - Re:占有面積にはチューイせよ (スコア:1)
    
    by Anonymous Coward on 2017年11月09日 16時03分 (#3309608)
    
    日本語の場合、丁寧語使うと無駄に長くなりますねぇ。英語と比べて短くなってる印象は無い。
    逆に、命令語調で書くとえらく短い。
    まぁ中国語にはかないませんけど。たぶん一番短い。
    あと、占有スペースって点だと、アルファベットは小さく書いても読めるって点は重要。
    漢字かなだと16ドットは欲しいけど、アルファベットなら半分以下でokてな具合で。印刷だと重要じゃないかな。
    
    シェア
    
    親コメント
    - Re:占有面積にはチューイせよ (スコア:3)
      
      by tmiura (6268) on 2017年11月09日 21時38分 (#3309827) 日記
      
      そういえば昔、雑誌I/Oで8bitパソコンでの高密度表示を目指して3x7ドット(縦横1dotのスペーシングを入れて1文字4x8ドット占有)のフォントを頑張って作ってた人がいました。
      
      シェア
      
      親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    なんとかしてうまく返したいんだけど俺の頭じゃデキッコナイス
- Re:使える文字の種類が違いすぎる (スコア:1)
  
  by nim (10479) on 2017年11月09日 17時48分 (#3309679)
  
  > せめて、バイト数で換算すべきだったのでは……。
  バイト数はエンコードによってぜんぜん違うから、まずそれを指定しないと。
  UTF-8 なら、基本ラテン文字は1オクテット、フランス語やドイツ語で使われるラテン補助は2オクテット、カナや漢字は3オクテット。
  ところがUTF-16ならこれが全部2オクテット。
  
  シェア
  
  親コメント
  - Re:使える文字の種類が違いすぎる (スコア:1)
    
    by nim (10479) on 2017年11月09日 17時49分 (#3309682)
    
    あと、AppleのOSでUTF-8の濁音・半濁音を書くと合成用濁点・半濁点をつかって6オクテットになるから、その違いも加味しないと。
    
    シェア
    
    親コメント
- Re:使える文字の種類が違いすぎる (スコア:1)
  
  by Anonymous Coward on 2017年11月09日 22時34分 (#3309864)
  
  せめて、バイト数で換算すべきだったのでは……。
  開発者は楽かもしれないが、
  ユーザーは知ったこっちゃないし、そもそも理解不能だろ。
  
  シェア
  
  親コメント
  - Re:使える文字の種類が違いすぎる (スコア:1)
    
    by minet (45149) on 2017年11月10日 7時31分 (#3309951) 日記
    
    Shift_JISで等幅フォントならほぼ見た目が一致したのに…
    そうだShift_JISに回帰しよう。
    え、ギリシャ文字とキリル文字圏から不満が出る？
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      回帰した結果が今回の「CJKは140文字、それ以外は280文字」だよ。
      mb_strwidth()で算出出来るからphperは楽だろ。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  極端な例　「菊」⇔「chrysanthemum」
  文字数ではなくバイト数にしたとしても本質的には問題解決にはなっていないですね(表意文字対表音文字)。
  英語換算で何文字かで判断して、ツイッターの公式リアルタイム翻訳エンジンを用意し、その翻訳された英文の文字数でもって判断するとかすれば、より公正な比較になるかもしれない。訳の仕方には文句言わせない。
  - Re:使える文字の種類が違いすぎる (スコア:3)
    
    by tmiura (6268) on 2017年11月09日 21時43分 (#3309834) 日記
    
    そうですねー。
    「珪性肺塵症」⇔「Pneumonoultramicroscopicsilicovolcanoconiosis」
    「早大理工」⇔「Waseda University Faculty of Science and Engineering」
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      早大理工相当だと WUFSE か WUFoSaE では？
      比較するなら早稲田大学理工学部、あるいは早稲田大学理学工学部あたりのように感じますが……いかがでしょう？
      メアリーポピンズで知ったスーパーカリフラジリスティックエクスピアリドーシャスは Supercalifragilisticexpialidocious のようですが、意味がよく分かりません。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        いかがでしょうとか言われても、現実がそうなってるんだから仕方ない。
        https://twitter.com/Ysk_Producer/status/927692420623474689 [twitter.com]
  - Re:使える文字の種類が違いすぎる (スコア:1)
    
    by Anonymous Coward on 2017年11月09日 16時04分 (#3309609)
    
    言語ごとにその言語で使用可能な文字種の数(英語ならアルファベット26文字×2+数字10文字とか、日本語ならJISX0208全部で6000文字ちょいとか)を数えておいて、文字数にその言語の文字種数のlogを掛けると情報論的に公平になる
    
    シェア
    
    親コメント
    - Re:使える文字の種類が違いすぎる (スコア:1)
      
      by shinshimashima (9763) on 2017年11月09日 18時40分 (#3309706) 日記
      
      文字によって出現率が違うんだからそれも加味しないと
      gzipで○○バイトまでにする？
      
      シェア
      
      親コメント
    - Re:使える文字の種類が違いすぎる (スコア:1)
      
      by taka2 (14791) on 2017年11月09日 18時59分 (#3309724) ホームページ日記
      
      280文字になるかも、という噂が出た時に行った計算 [srad.jp]ですが、
      アルファベット26文字+数字10文字+スペースで計37文字、1文字あたりの情報量はlog₂37 = 5.2bit
      漢字第1水準2965文字+第2水準3390文字で計6355文字、1文字あたりの情報量はlog₂6355 = 12.6bit
      12.6bit/5.2bit=2.43倍
      ということで、#3309582 [srad.jp]で挙げられた翻訳会社が直感的に捉えている情報量の差は「2.5倍」という数字とほどよく一致しますね。
      
      シェア
      
      親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        出現確率がすべての文字で等しいとは限りませんよ
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        普通の文字はハフマン符号ではない（使用頻度の多い文字だからといって別に小さいわけじゃない）ので出現確率が均等でないことはここでは関係ない
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    海外移植版のゲームボーイ（ポケモンとか）のプレイ動画なんか見ると、日本語の情報圧縮率すげえなって思う。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ちゃんと読めるかどうかを無視して詰め込めば、て話な気がしなくもないが。
さえずりなんだから (スコア:3)

by manmos (29892) on 2017年11月09日 15時59分 (#3309603) 日記

「音節（モーラ）」にすべし。
＃日本語、ムッチャ不利。
ただし日本語は対象外 (スコア:1)

by nemui4 (20313) on 2017年11月09日 15時22分 (#3309575) 日記

>ITmediaの別記事によると、英数字などは2文字で1文字とカウントされる仕様になっているという。
いっそ単純に、入力データをバイト数で表示したら楽そう。
- Re:ただし日本語は対象外 (スコア:1)
  
  by Anonymous Coward on 2017年11月09日 15時33分 (#3309584)
  
  > 入力データをバイト数で
  UTF-8のバイト数を想像する人と、シフトJISのバイト数を想像する人が出そう。
  twitterはUTF-8であろうと思うけど。
  
  シェア
  
  親コメント
- Re:ただし日本語は対象外 (スコア:1)
  
  by Anonymous Coward on 2017年11月09日 15時46分 (#3309591)
  
  1byteカナで書いたら280文字行けるのかと思ったら、1byteカナで書いても140文字までだった。
  ドイヒー。
  
  シェア
  
  親コメント
  - Re:ただし日本語は対象外 (スコア:3, すばらしい洞察)
    
    by Anonymous Coward on 2017年11月09日 15時56分 (#3309601)
    
    おじいちゃん、それ1byteじゃないのよ
    
    シェア
    
    親コメント
    - Re:ただし日本語は対象外 (スコア:1)
      
      by nemui4 (20313) on 2017年11月09日 16時01分 (#3309606) 日記
      
      半角カナはEUCで2バイト、UTFでは3バイトだっけ。
      
      シェア
      
      親コメント
      - Re:ただし日本語は対象外 (スコア:2)
        
        by nim (10479) on 2017年11月09日 17時42分 (#3309675)
        
        > UTFでは3バイトだっけ。
        UTF-8 では3オクテット、UTF-16 では2オクテット、UTF-32 では4オクテットですね。
        
        シェア
        
        親コメント
  - Re:ただし日本語は対象外 (スコア:1)
    
    by Anonymous Coward on 2017年11月09日 18時13分 (#3309698)
    
    倍角で書いたら70文字でしょうね。
    走召糸色木亥火暴
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      えっ、マイナスモデナのこれ？
      心が狭いなぁ
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        アンチSethたんが言呉火暴したんじゃない？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    なんで1byteカナなら行けると思ったんだ？（そもそも今時カナが1byteの可能性は低いし）
    日本語は対象外だって書いてあるだろ。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  Unicode文字プロパティ見ればそのへん(英数字なの漢字なのか/全角なのか半角なのかなどなど)の判別は簡単にできるんですよ。
  - Re:ただし日本語は対象外 (スコア:1)
    
    by Anonymous Coward on 2017年11月09日 20時32分 (#3309785)
    
    でもTwitterの判定はUnicodeプロパティと全然関係ないみたいだし、そもそも「CJKのレガシーエンコーディング由来の文字か」という極めて恣意的な基準で決められているのであまり役に立たない(罫線素片のうちJISに含まれるものだけが全角とか)。emojiはEastAsianWidthにかかわらずだいたい全角でデザインされるし。
    
    シェア
    
    親コメント
コード片 (スコア:0)

by Anonymous Coward on 2017年11月09日 16時11分 (#3309616)

とか書きやすくなるのも意外と嬉しいかも．
@TwitterJPがまたろくに仕様を知らされていないことを自白している件 (スコア:0)

by Anonymous Coward on 2017年11月09日 22時42分 (#3309870)

もういい…! もう…喋るな…!
長い名前 (スコア:0)

by Anonymous Coward on 2017年11月10日 15時49分 (#3310234)

早速BMGがネタにしてる
https://twitter.com/borussia_en/status/928204251674894336 [twitter.com]

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

Twitterの文字数、正式に280文字となる 37

Twitterの文字数、正式に280文字となる More ログイン

使える文字の種類が違いすぎる (スコア:3, 興味深い)

占有面積にはチューイせよ (スコア:1)

Re:占有面積にはチューイせよ (スコア:1)

Re:占有面積にはチューイせよ (スコア:3)

Re: (スコア:0)

Re:使える文字の種類が違いすぎる (スコア:1)

Re:使える文字の種類が違いすぎる (スコア:1)

Re:使える文字の種類が違いすぎる (スコア:1)

Re:使える文字の種類が違いすぎる (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re:使える文字の種類が違いすぎる (スコア:3)

Re: (スコア:0)

Re: (スコア:0)

Re:使える文字の種類が違いすぎる (スコア:1)

Re:使える文字の種類が違いすぎる (スコア:1)

Re:使える文字の種類が違いすぎる (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

さえずりなんだから (スコア:3)

ただし日本語は対象外 (スコア:1)

Re:ただし日本語は対象外 (スコア:1)

Re:ただし日本語は対象外 (スコア:1)

Re:ただし日本語は対象外 (スコア:3, すばらしい洞察)

Re:ただし日本語は対象外 (スコア:1)

Re:ただし日本語は対象外 (スコア:2)

Re:ただし日本語は対象外 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:ただし日本語は対象外 (スコア:1)

コード片 (スコア:0)

@TwitterJPがまたろくに仕様を知らされていないことを自白している件 (スコア:0)

長い名前 (スコア:0)

スラド