パスワードを忘れた? アカウント作成
15312752 story
インターネット

Vivaldi 4.0に搭載された翻訳機能、翻訳結果で一部の漢字が文字化け 20

ストーリー by headless
?? 部門より
Vivaldi Technologiesは9日、WebブラウザーVivaldiの最新版となるVivaldi 4.0をリリースした(Vivaldi Blogの記事[1][2]リリースノートGhacksの記事)。

本バージョンではデスクトップ版・Android版ともに翻訳機能「Vivaldi翻訳」が内蔵され、拡張機能なしでWebページの翻訳ができるようになった。Vivaldiの翻訳機能はLingvanexによるプライバシーに配慮した翻訳サービスを使い、翻訳エンジンをVivaldiのサーバーにホストすることでGoogleやMicrosoftなどに内容を読み取られることはない。ローカルで翻訳処理が完結するFirefox Nightlyの翻訳機能とは異なり、翻訳時にはサーバーへの接続が必要になるが、ユーザーのプライベートな翻訳アクティビティはVivaldiにも読み取ることはできないとのこと。

なお、原因は不明だが、翻訳先の言語が日本語の場合は翻訳結果で一部の文字が文字化けする。化けている文字を正確に特定するのは難しいものの、翻訳元と照合した感じでは、たとえば「彗」「倣」「醒」「彙」「渦」「塵」「隕」「冥」「八」「鷹」「閃」「杉」といった文字が「??」のように表示されるようだ。そのため、「Comet」という単語を含む英文記事を日本語に翻訳すると、該当部分は「??星」と表示される。一方、同じ記事を中国語に翻訳する場合は簡体字・繁体字ともに「彗星」と正しく表示される。また、絵文字を翻訳しようとして失敗していたり、翻訳済みの部分をさらに翻訳しようとして壊れていったりという場面もみられる。

本バージョンにはこのほか、電子メールクライアント機能のVivaldi Mailやカレンダー機能、フィードリーダー機能のベータ版が搭載されている。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2021年06月12日 13時49分 (#4049582)

    下記リンクで検証できる
    https://lingvanex.com/english-to-japanese/ [lingvanex.com]

  • by Anonymous Coward on 2021年06月12日 12時16分 (#4049547)


    Unicode
            16進:5F57
            10進:24407
    JIS X 0208(-1978,1983,1990)
            JIS
                    16進:5742
            Shift JIS
                    16進:9C61
            区点:1面55区34点
    四角号碼 : 55174
    倉頡入力法 : 手十尸一 (QJSM)


            Unicode
                    16進:5023
                    10進:20515
            JIS X 0208(-1978,1983,1990)
                    JIS
                            16進:4A6F
                    Shift JIS
                            16進:95ED
                    区点:1面42区79点
            四角号碼 : 28240
            倉頡入力法 : 人卜尸大 (OYSK)


            Unicode
                    16進:9192
                    10進:37266
            JIS X 0208(-1978,1983,1990)
                    JIS
                            16進:4043
                    Shift JIS
                            16進:90C1
                    区点:1面32区35点
            四角号碼 : 16614
            倉頡入力法 : 一田日竹一 (MWAHM)


            Unicode
                    16進:5F59
                    10進:24409
            JIS X 0208(-1978,1983,1990)
                    JIS
                            16進:5743
                    Shift JIS
                            16進:9C62
                    区点:1面55区35点
            四角号碼 : 27904
            倉頡入力法 : 女一月田木 (VMBWD)


            Unicode
                    16進:6E26
                    10進:28198
            JIS X 0208(-1978,1983,1990)
                    JIS
                            16進:3132
                    Shift JIS
                            16進:8951
                    区点:1面17区18点
            四角号碼 : 37127
            倉頡入力法 : 水月月口 (EBBR)


            Unicode
                    16進: 5875 塵
                    10進: 22645 塵
            JIS X 0208(-1978,1983,1990)
                    JIS
                            16進:3F50
                    Shift JIS
             

    • by Anonymous Coward

      >続きを読む...
      本当に10年ぶりくらいに見た

  • by Anonymous Coward on 2021年06月12日 14時29分 (#4049597)

    漢数字をDEMO [lingvanex.com]で検証してみたけど、まったく法則性がわからん。

    文字化けしない
    →「一」(U+4E00)「二」(U+4E8C)「三」(U+4E09)「四」(U+56DB)「五」(U+4E94)「七」(U+4E03)「十」(U+5341)

    文字化けする
    →「六」(U+516D)「八」(U+516B)「九」(U+4E5D)

    なお、Unicode表で「六」(U+516D)と「八」(U+516B)に挟まれた「公」(U+516C)は問題なし。

    制御文字をブラウザが解釈できず文字化けするのではなく、APIを叩いて帰ってくるJSONの時点で「 ⁇ 」に置き換わっているので、外部からはこれ以上わからんな。

    • by headless (41064) on 2021年06月14日 2時29分 (#4050213)
      大体は本文に記載した順に化ける文字を発見したので、中の人が読めない少し難しい字を「??」と書いているという説を提唱しようと思いましたが、「八」が化けた時点で消えました。
      親コメント
    • by Anonymous Coward

      中華圏はそのまま表示してんだから
      辞書コンバートの段階で日本語処理プログラムが壊した以外の可能性はないでしょ

  • by Anonymous Coward on 2021年06月12日 11時40分 (#4049529)

    ダメ文字みたい

  • by Anonymous Coward on 2021年06月12日 15時55分 (#4049631)

    リナックスだと日本語の文字化けは当たり前のように存在するからバレない説
    もしくは、オープンソースで拙速主義なので文字化けをイチイチ気にするのは老害 とか言い出しそう

  • by Anonymous Coward on 2021年06月13日 2時04分 (#4049835)

    絶対炎上してると思ったのに、普通に原因分析とかやってて期待外れ。

    • by BlueRain (37857) on 2021年06月13日 16時02分 (#4049971)
      炎上するほどユーザーは多くないんじゃ?
      親コメント
      • by Anonymous Coward

        他の翻訳エンジン使えなくされたわけじゃないから炎上する理由がないというか。
        選択肢を奪った上で精度がダメダメなら炎上するだろうけど。

      • by Anonymous Coward

        創業者の1人が日本人なのに自分の母言語すらまともに扱えなくて情けないわ

      • by Anonymous Coward

        余計な機能つけてんじゃねえよ!と思ったが誰も書いてね〜な…

        • by BlueRain (37857) on 2021年06月14日 21時10分 (#4050757)
          翻訳機能はいらんけどメール機能はちゃんと使えるものに仕上げて独立した一つのソフトにしてほしい。
          OperaMailでアドレス帳にもラベルを付けられるようにしてくれれば十分だったのだけど。
          親コメント
    • by Anonymous Coward

      既存の機能が劣化したわけじゃないし
      有料の機能でもないし
      使えたら儲けもん

      • by Anonymous Coward

        新機能の話をしているのでは?

        • by Anonymous Coward

          #4049864は新機能だから「既存の機能が劣化したわけじゃないし」「使えたら儲けもん」だと書いてるわけで、何が疑問なの?

  • by Anonymous Coward on 2021年06月13日 9時42分 (#4049883)

    ムリだと思う…特定言語に縛られない文字だけど意味も使い方も様々だし。

typodupeerror

ハッカーとクラッカーの違い。大してないと思います -- あるアレゲ

読み込み中...