Twitterの文字数、正式に280文字となる 37
ストーリー by hylom
特にユーザーの満足度が向上するとは思えないが 部門より
特にユーザーの満足度が向上するとは思えないが 部門より
Sune曰く、
Twitterの文字制限が従来の140文字から280文字に拡張された(Twitter公式ブログ、ITmedia)。長文の場合、単純に今までの半分のツイート数で投稿できるようになる。ただし日本語は対象外。
一方で、非公式リツイート(っていうんだっけ?)による中途半端な引用がどんどん長くなっていくことも想定でき、議論系のTogetterまとめなどが今までより見づらくなるのではないかとタレコミ主は心配している。
興味深いのは英語・日本語のツイートあたりの文字数の比較だ。英語のツイートは34文字くらいに山があり、140文字寸前のツイートが多くなる。それに対し、日本語のツイートは15文字のところに山があり、140文字寸前のツイートはそれほど多くない。英語圏と日本語圏のTwitterの使い方の違いとみるか、日本語の特性とみるか、気になるところである。
文字数制限の緩和は9月に実験的に導入すると発表されていた。実験のときと同様、日本語・中国語・韓国語は対象外。ITmediaの別記事によると、英数字などは2文字で1文字とカウントされる仕様になっているという。さらに、文字数ではなく円形のインジケータで入力可能な文字数が表示されるようになったことも話題となっている。
使える文字の種類が違いすぎる (スコア:3, 興味深い)
Twitterの字数制限変更 日本語と英語の「140文字」はどれだけ情報量が違うのか? [itmedia.co.jp]
というわけで、倍にしてもまだ日本語のほうが情報詰め込めるっぽいです。
そもそも中国語とかの漢字交じりの言語と比較したら、使える文字のバリエーションがぜんぜん違うわけで、「文字数」でカウントすること自体がおかしいのではないのかと。
せめて、バイト数で換算すべきだったのでは……。
しもべは投稿を求める →スッポン放送局がくいつく →バンブラの新作が発売される
占有面積にはチューイせよ (スコア:1)
ここにぶら下げます。
製品マニュアルとかで、複数の言語で同じ説明が書いてある時「どの言語がコンパクトに表現できるのかな?」っていつも見ちゃうんですが、大差なく見えるんです。
一文字当たりの情報量は多いのかもしれないけど、占有スペースは同じなんだろうなと。PCの上では固定フォントの場合、通常日本語はアルファベットの2文字分占有しますしね。(半角カタカナとか、㌧㌦ とか例外やで)
Re:占有面積にはチューイせよ (スコア:1)
日本語の場合、丁寧語使うと無駄に長くなりますねぇ。英語と比べて短くなってる印象は無い。
逆に、命令語調で書くとえらく短い。
まぁ中国語にはかないませんけど。たぶん一番短い。
あと、占有スペースって点だと、アルファベットは小さく書いても読めるって点は重要。
漢字かなだと16ドットは欲しいけど、アルファベットなら半分以下でokてな具合で。印刷だと重要じゃないかな。
Re:占有面積にはチューイせよ (スコア:3)
そういえば昔、雑誌I/Oで8bitパソコンでの高密度表示を目指して3x7ドット(縦横1dotのスペーシングを入れて1文字4x8ドット占有)のフォントを頑張って作ってた人がいました。
Re: (スコア:0)
なんとかしてうまく返したいんだけど俺の頭じゃデキッコナイス
Re:使える文字の種類が違いすぎる (スコア:1)
> せめて、バイト数で換算すべきだったのでは……。
バイト数はエンコードによってぜんぜん違うから、まずそれを指定しないと。
UTF-8 なら、基本ラテン文字は1オクテット、フランス語やドイツ語で使われるラテン補助は2オクテット、カナや漢字は3オクテット。
ところがUTF-16ならこれが全部2オクテット。
Re:使える文字の種類が違いすぎる (スコア:1)
あと、AppleのOSでUTF-8の濁音・半濁音を書くと合成用濁点・半濁点をつかって6オクテットになるから、その違いも加味しないと。
Re:使える文字の種類が違いすぎる (スコア:1)
開発者は楽かもしれないが、
ユーザーは知ったこっちゃないし、そもそも理解不能だろ。
Re:使える文字の種類が違いすぎる (スコア:1)
Shift_JISで等幅フォントならほぼ見た目が一致したのに…
そうだShift_JISに回帰しよう。
え、ギリシャ文字とキリル文字圏から不満が出る?
Re: (スコア:0)
回帰した結果が今回の「CJKは140文字、それ以外は280文字」だよ。
mb_strwidth()で算出出来るからphperは楽だろ。
Re: (スコア:0)
極端な例 「菊」⇔「chrysanthemum」
文字数ではなくバイト数にしたとしても本質的には問題解決にはなっていないですね(表意文字対表音文字)。
英語換算で何文字かで判断して、ツイッターの公式リアルタイム翻訳エンジンを用意し、その翻訳された英文の文字数でもって判断するとかすれば、より公正な比較になるかもしれない。訳の仕方には文句言わせない。
Re:使える文字の種類が違いすぎる (スコア:3)
そうですねー。
「珪性肺塵症」⇔「Pneumonoultramicroscopicsilicovolcanoconiosis」
「早大理工」⇔「Waseda University Faculty of Science and Engineering」
Re: (スコア:0)
早大理工相当だと WUFSE か WUFoSaE では?
比較するなら早稲田大学理工学部、あるいは早稲田大学理学工学部あたりのように感じますが……いかがでしょう?
メアリーポピンズで知ったスーパーカリフラジリスティックエクスピアリドーシャスは Supercalifragilisticexpialidocious のようですが、意味がよく分かりません。
Re: (スコア:0)
いかがでしょうとか言われても、現実がそうなってるんだから仕方ない。
https://twitter.com/Ysk_Producer/status/927692420623474689 [twitter.com]
Re:使える文字の種類が違いすぎる (スコア:1)
Re:使える文字の種類が違いすぎる (スコア:1)
文字によって出現率が違うんだからそれも加味しないと
gzipで○○バイトまでにする?
Re:使える文字の種類が違いすぎる (スコア:1)
280文字になるかも、という噂が出た時に行った計算 [srad.jp]ですが、
アルファベット26文字+数字10文字+スペースで計37文字、1文字あたりの情報量はlog237 = 5.2bit
漢字第1水準2965文字+第2水準3390文字で計6355文字、1文字あたりの情報量はlog26355 = 12.6bit
12.6bit/5.2bit=2.43倍
ということで、#3309582 [srad.jp]で挙げられた翻訳会社が直感的に捉えている情報量の差は「2.5倍」という数字とほどよく一致しますね。
Re: (スコア:0)
出現確率がすべての文字で等しいとは限りませんよ
Re: (スコア:0)
Re: (スコア:0)
海外移植版のゲームボーイ(ポケモンとか)のプレイ動画なんか見ると、日本語の情報圧縮率すげえなって思う。
Re: (スコア:0)
ちゃんと読めるかどうかを無視して詰め込めば、て話な気がしなくもないが。
さえずりなんだから (スコア:3)
「音節(モーラ)」にすべし。
#日本語、ムッチャ不利。
ただし日本語は対象外 (スコア:1)
>ITmediaの別記事によると、英数字などは2文字で1文字とカウントされる仕様になっているという。
いっそ単純に、入力データをバイト数で表示したら楽そう。
Re:ただし日本語は対象外 (スコア:1)
> 入力データをバイト数で
UTF-8のバイト数を想像する人と、シフトJISのバイト数を想像する人が出そう。
twitterはUTF-8であろうと思うけど。
Re:ただし日本語は対象外 (スコア:1)
1byteカナで書いたら280文字行けるのかと思ったら、1byteカナで書いても140文字までだった。
ドイヒー。
Re:ただし日本語は対象外 (スコア:3, すばらしい洞察)
おじいちゃん、それ1byteじゃないのよ
Re:ただし日本語は対象外 (スコア:1)
半角カナはEUCで2バイト、UTFでは3バイトだっけ。
Re:ただし日本語は対象外 (スコア:2)
> UTFでは3バイトだっけ。
UTF-8 では3オクテット、UTF-16 では2オクテット、UTF-32 では4オクテットですね。
Re:ただし日本語は対象外 (スコア:1)
走召糸色木亥火暴
Re: (スコア:0)
えっ、マイナスモデナのこれ?
心が狭いなぁ
Re: (スコア:0)
Re: (スコア:0)
なんで1byteカナなら行けると思ったんだ?(そもそも今時カナが1byteの可能性は低いし)
日本語は対象外だって書いてあるだろ。
Re: (スコア:0)
Unicode文字プロパティ見ればそのへん(英数字なの漢字なのか/全角なのか半角なのかなどなど)の判別は簡単にできるんですよ。
Re:ただし日本語は対象外 (スコア:1)
でもTwitterの判定はUnicodeプロパティと全然関係ないみたいだし、そもそも「CJKのレガシーエンコーディング由来の文字か」という極めて恣意的な基準で決められているのであまり役に立たない(罫線素片のうちJISに含まれるものだけが全角とか)。emojiはEastAsianWidthにかかわらずだいたい全角でデザインされるし。
コード片 (スコア:0)
とか書きやすくなるのも意外と嬉しいかも.
@TwitterJPがまたろくに仕様を知らされていないことを自白している件 (スコア:0)
もういい…! もう…喋るな…!
長い名前 (スコア:0)
早速BMGがネタにしてる
https://twitter.com/borussia_en/status/928204251674894336 [twitter.com]