Vivaldi 4.0に搭載された翻訳機能、翻訳結果で一部の漢字が文字化け 20
ストーリー by headless
?? 部門より
?? 部門より
Vivaldi Technologiesは9日、WebブラウザーVivaldiの最新版となるVivaldi 4.0をリリースした(Vivaldi Blogの記事[1]、 [2]、 リリースノート、 Ghacksの記事)。
本バージョンではデスクトップ版・Android版ともに翻訳機能「Vivaldi翻訳」が内蔵され、拡張機能なしでWebページの翻訳ができるようになった。Vivaldiの翻訳機能はLingvanexによるプライバシーに配慮した翻訳サービスを使い、翻訳エンジンをVivaldiのサーバーにホストすることでGoogleやMicrosoftなどに内容を読み取られることはない。ローカルで翻訳処理が完結するFirefox Nightlyの翻訳機能とは異なり、翻訳時にはサーバーへの接続が必要になるが、ユーザーのプライベートな翻訳アクティビティはVivaldiにも読み取ることはできないとのこと。
なお、原因は不明だが、翻訳先の言語が日本語の場合は翻訳結果で一部の文字が文字化けする。化けている文字を正確に特定するのは難しいものの、翻訳元と照合した感じでは、たとえば「彗」「倣」「醒」「彙」「渦」「塵」「隕」「冥」「八」「鷹」「閃」「杉」といった文字が「??」のように表示されるようだ。そのため、「Comet」という単語を含む英文記事を日本語に翻訳すると、該当部分は「??星」と表示される。一方、同じ記事を中国語に翻訳する場合は簡体字・繁体字ともに「彗星」と正しく表示される。また、絵文字を翻訳しようとして失敗していたり、翻訳済みの部分をさらに翻訳しようとして壊れていったりという場面もみられる。
本バージョンにはこのほか、電子メールクライアント機能のVivaldi Mailやカレンダー機能、フィードリーダー機能のベータ版が搭載されている。
本バージョンではデスクトップ版・Android版ともに翻訳機能「Vivaldi翻訳」が内蔵され、拡張機能なしでWebページの翻訳ができるようになった。Vivaldiの翻訳機能はLingvanexによるプライバシーに配慮した翻訳サービスを使い、翻訳エンジンをVivaldiのサーバーにホストすることでGoogleやMicrosoftなどに内容を読み取られることはない。ローカルで翻訳処理が完結するFirefox Nightlyの翻訳機能とは異なり、翻訳時にはサーバーへの接続が必要になるが、ユーザーのプライベートな翻訳アクティビティはVivaldiにも読み取ることはできないとのこと。
なお、原因は不明だが、翻訳先の言語が日本語の場合は翻訳結果で一部の文字が文字化けする。化けている文字を正確に特定するのは難しいものの、翻訳元と照合した感じでは、たとえば「彗」「倣」「醒」「彙」「渦」「塵」「隕」「冥」「八」「鷹」「閃」「杉」といった文字が「??」のように表示されるようだ。そのため、「Comet」という単語を含む英文記事を日本語に翻訳すると、該当部分は「??星」と表示される。一方、同じ記事を中国語に翻訳する場合は簡体字・繁体字ともに「彗星」と正しく表示される。また、絵文字を翻訳しようとして失敗していたり、翻訳済みの部分をさらに翻訳しようとして壊れていったりという場面もみられる。
本バージョンにはこのほか、電子メールクライアント機能のVivaldi Mailやカレンダー機能、フィードリーダー機能のベータ版が搭載されている。
Lingvanexの問題(Vivaldiわるくないやい) (スコア:2, 興味深い)
下記リンクで検証できる
https://lingvanex.com/english-to-japanese/ [lingvanex.com]
コードで見てみた (スコア:1)
彗
Unicode
16進:5F57
10進:24407
JIS X 0208(-1978,1983,1990)
JIS
16進:5742
Shift JIS
16進:9C61
区点:1面55区34点
四角号碼 : 55174
倉頡入力法 : 手十尸一 (QJSM)
倣
Unicode
16進:5023
10進:20515
JIS X 0208(-1978,1983,1990)
JIS
16進:4A6F
Shift JIS
16進:95ED
区点:1面42区79点
四角号碼 : 28240
倉頡入力法 : 人卜尸大 (OYSK)
醒
Unicode
16進:9192
10進:37266
JIS X 0208(-1978,1983,1990)
JIS
16進:4043
Shift JIS
16進:90C1
区点:1面32区35点
四角号碼 : 16614
倉頡入力法 : 一田日竹一 (MWAHM)
彙
Unicode
16進:5F59
10進:24409
JIS X 0208(-1978,1983,1990)
JIS
16進:5743
Shift JIS
16進:9C62
区点:1面55区35点
四角号碼 : 27904
倉頡入力法 : 女一月田木 (VMBWD)
渦
Unicode
16進:6E26
10進:28198
JIS X 0208(-1978,1983,1990)
JIS
16進:3132
Shift JIS
16進:8951
区点:1面17区18点
四角号碼 : 37127
倉頡入力法 : 水月月口 (EBBR)
塵
Unicode
16進: 5875 塵
10進: 22645 塵
JIS X 0208(-1978,1983,1990)
JIS
16進:3F50
Shift JIS
Re: (スコア:0)
>続きを読む...
本当に10年ぶりくらいに見た
わからん (スコア:1)
漢数字をDEMO [lingvanex.com]で検証してみたけど、まったく法則性がわからん。
文字化けしない
→「一」(U+4E00)「二」(U+4E8C)「三」(U+4E09)「四」(U+56DB)「五」(U+4E94)「七」(U+4E03)「十」(U+5341)
文字化けする
→「六」(U+516D)「八」(U+516B)「九」(U+4E5D)
なお、Unicode表で「六」(U+516D)と「八」(U+516B)に挟まれた「公」(U+516C)は問題なし。
制御文字をブラウザが解釈できず文字化けするのではなく、APIを叩いて帰ってくるJSONの時点で「 ⁇ 」に置き換わっているので、外部からはこれ以上わからんな。
Re:わからん (スコア:1)
Re: (スコア:0)
中華圏はそのまま表示してんだから
辞書コンバートの段階で日本語処理プログラムが壊した以外の可能性はないでしょ
ダメ文字 (スコア:0)
ダメ文字みたい
Linuxでよく見るやつだ (スコア:0)
リナックスだと日本語の文字化けは当たり前のように存在するからバレない説
もしくは、オープンソースで拙速主義なので文字化けをイチイチ気にするのは老害 とか言い出しそう
炎上 (スコア:0)
絶対炎上してると思ったのに、普通に原因分析とかやってて期待外れ。
Re:炎上 (スコア:2)
Re: (スコア:0)
他の翻訳エンジン使えなくされたわけじゃないから炎上する理由がないというか。
選択肢を奪った上で精度がダメダメなら炎上するだろうけど。
Re: (スコア:0)
ほらね。
Re: (スコア:0)
このツリーにこれだけコメント付きながら、
本当に話題になってなくてユーザ数と関心の少なさに感心する。
https://forest.watch.impress.co.jp/docs/serial/yajiuma/1330704.html [impress.co.jp]
Re: (スコア:0)
創業者の1人が日本人なのに自分の母言語すらまともに扱えなくて情けないわ
Re: (スコア:0)
余計な機能つけてんじゃねえよ!と思ったが誰も書いてね〜な…
Re:炎上 (スコア:2)
OperaMailでアドレス帳にもラベルを付けられるようにしてくれれば十分だったのだけど。
Re: (スコア:0)
既存の機能が劣化したわけじゃないし
有料の機能でもないし
使えたら儲けもん
Re: (スコア:0)
新機能の話をしているのでは?
Re: (スコア:0)
#4049864は新機能だから「既存の機能が劣化したわけじゃないし」「使えたら儲けもん」だと書いてるわけで、何が疑問なの?
絵文字翻訳… (スコア:0)
ムリだと思う…特定言語に縛られない文字だけど意味も使い方も様々だし。