
選挙関連の質問に対するMicrosoft Copilotの回答、正解は3分の1以下という調査結果 75
ストーリー by headless
質問 部門より
質問 部門より
Microsoft の対話型 AI ツール Microsoft Copilot (旧 Bing チャット) に選挙関係の質問をすると、回答のおよそ 3 分の 1 (31%) に事実関係の誤りが含まれていたそうだ
(ニュースリリース、
報告書: PDF、
The Verge の記事、
Neowin の記事)。
調査は欧州の非営利組織 AI Forensics とベルリンおよびチューリッヒに拠点を置く人権団体 AlgorithmWatch が 10 月に実施したもので、ドイツのバイエルン州およびヘッセン州の州選挙とスイスの国政選挙に関する質問をして回答の誤りを調べたという。
選挙に関する事実関係の誤りとしては、投票日の間違いや古い立候補者のほか、候補者に関するありもしないスキャンダルをでっちあげた回答もあったそうだ。一方、39% では回答を避けたり、一般的な情報に話をそらせたりするのだが、回答できない場合のすべてには適用されないため、上述のようなでっちあげ回答をすることになる。その結果、質問に対する正しい回答は 30% にとどまる。また、英語以外の言語では正確さが低下し、正しい回答の割合はドイツ語で 28%、フランス語で 19% となっている。
調査で確認された問題のいくつかは Microsoft に伝えており、Microsoft は修正すると述べていたが、実際には問題を修正できないか、修正する気がないようだ。1か月後に試したところほとんど変わっていなかったという。選挙に関する誤情報は民主主義に重大な影響を与えることから、営利企業の善意にのみ任せておくわけにはいかず、信頼できる規制の枠組みが必要になるとのことだ。
調査は欧州の非営利組織 AI Forensics とベルリンおよびチューリッヒに拠点を置く人権団体 AlgorithmWatch が 10 月に実施したもので、ドイツのバイエルン州およびヘッセン州の州選挙とスイスの国政選挙に関する質問をして回答の誤りを調べたという。
選挙に関する事実関係の誤りとしては、投票日の間違いや古い立候補者のほか、候補者に関するありもしないスキャンダルをでっちあげた回答もあったそうだ。一方、39% では回答を避けたり、一般的な情報に話をそらせたりするのだが、回答できない場合のすべてには適用されないため、上述のようなでっちあげ回答をすることになる。その結果、質問に対する正しい回答は 30% にとどまる。また、英語以外の言語では正確さが低下し、正しい回答の割合はドイツ語で 28%、フランス語で 19% となっている。
調査で確認された問題のいくつかは Microsoft に伝えており、Microsoft は修正すると述べていたが、実際には問題を修正できないか、修正する気がないようだ。1か月後に試したところほとんど変わっていなかったという。選挙に関する誤情報は民主主義に重大な影響を与えることから、営利企業の善意にのみ任せておくわけにはいかず、信頼できる規制の枠組みが必要になるとのことだ。
それが仕様です (スコア:1)
調査で確認された問題のいくつかは Microsoft に伝えており、Microsoft は修正すると述べていたが、実際には問題を修正できないか、修正する気がないようだ。1か月後に試したところほとんど変わっていなかったという。
Microsoftになに期待してんの?
こいつらは昔からずっとそんなもんよ
だからこそその時代を知ってる人からは派手に嫌われてる
ユーザーの客観的意見 (スコア:1)
これがユーザーの正直な意見でしょうね
半年はかかっても仕方のない問題だけど、一部の一般ユーザーだと
「嘘つき」「やる気なし」で片づけられるんだから世知辛いですなぁ
Re: (スコア:0)
半年で直るなら、直して出直せってのが普通の考えだと思うが。
「ユーザー」は知らんけど。
なんであんなんにフェティッシュ感じてんだろ…って他人に思わせちゃうのは
フェティシズムの本質かねぇ。
Re: (スコア:0)
自社の検索エンジンで自社の技術ドキュメントを検索するというこすらまともに達成できなかった会社なのでさもありなん
スラドのタイトルも正解は3分の1以下らしいよ (スコア:1)
3分の1・・・
AIの信頼性 (スコア:0)
当たり前の話だが正しい回答するものではなく、文献や資料から回答に近いものを選択するのみ。
AIを絶対視する時代がくるのだろう思うが、資料の量によって賢者と馬鹿が同一端末同居してるようなもの
まぁ例えるなら
池上彰に政治の話を聞けばまともな回答を得られるだろうが
アニメキャラの質問してちょっと外れた回答してるようなもんでしょ。
それをAIに置き換えればそんなもんでしょってことでしょう
Re:AIの信頼性 (スコア:2, 参考になる)
MSのは、Google BardやChat-GPTと違ってソースのリンクが出るから、まずはそこをまずは確認しろって感じですな。
元ソースがアレなサイトだったりする可能性もあるし、
日付だけ新しい古いネタを配信するところも有るから人間もやらかしかねない。
Re:AIの信頼性 (スコア:2, すばらしい洞察)
リンク先のソースのどこを探しても回答内容のようなことは書かれてなかったりするけどな
Re:AIの信頼性 (スコア:2, すばらしい洞察)
だからこそソース確認が必要なのよ。
ソースもそんなこと言ってないパターンもあるしな。
Re: (スコア:0)
AIは学習結果から結果からのあらゆる情報を逆算してそれを因果関係と結び付けて
関係なさそうな部分から、未来を予想したり
文献を大量に突っ込んでそれを元に回答を作る仕組みを考えると
推論
仮にA政党とB政党とすると
A政党発言内容と入れ学習させると、B政党は間違いである内容が書かれ、A政党向けの回答に偏る可能性がある。
かと言ってB政党の内容を学習させればA政党と矛盾する内容が書かれるのでAIの回答率は半分に落ちる。
そんなこんなですべてを学習させれば政党のようなものに限っては全く宛てにならない内容になる。
AIに学習させる前に、A政党での学習、B政党での学習で異なる学習で行い。さらに政権の与党と野党の位置付けを
行い。最も対応として選択選択できる政策決定まで行う仕組みが必要と見た。
ある意味AIの機能とチェスや将棋の思考を組み合わせてたような
情報がレイヤー構造になっているAIがなければ政治には使えないと思われる。
AIが精神分裂症など発症するかもしれませんが
Re:AIの信頼性 (スコア:1)
> MSのは、Google BardやChat-GPTと違ってソースのリンクが出るから、まずはそこをまずは確認しろって感じですな。
ソースを確認したいなら、既存の検索エンジンを使った方が早くない?
Re:AIの信頼性 (スコア:1)
ストーリーがCopilotだから。
あと、複数のソースをまとめてくれるのが通常の検索と違うのが大きなメリット。
そのサマリ化や纒め方が正しい方向性か内容が正確かはまた別で、失敗してるってのが本ストーリー。
Re: (スコア:0)
あれも場当たり的対処だからなぁ…
とりあえずBingでググる癖を付けさせて、検索結果を読ませることで矛盾しにくくしてる訳だけど
結局はGPTが「言語的にこの方が滑らかで響きが良い」と思ってしまえばそっちが優先してしまう
どうしても言葉で言いにくい事実は言いやすいデタラメに書き換わってしまう
Re:AIの信頼性 (スコア:1)
ひろゆきよりは当てになる
Re:AIの信頼性 (スコア:1)
ひろゆきよりは当てになる
社員的にはアップルを叩くようにひろゆきを叩くのだろうけど
まずこのAIの信頼性はゼロって事ですよ。
AIから回答で80%自身がある、90%自身がないの情報という情報がなく、
最終コメントとしてその信頼せいが正負の1と0の差がわからない。
利用者は、高い自信のあるコメントと全く自信がないコメントを同列に扱わないければならない。
結果、信頼性はありませんという事である。
このようなAIから出力を有効活用するためには
AIがどれくらい自信があるかも数値が必要になるでしょう。
Re: (スコア:0)
> AIから回答で80%自身がある、90%自身がない
80%Ai自身ということは残りの20%は何なんだろうか
Re: (スコア:0)
やさしさじゃね?
Re: (スコア:0)
> AIがどれくらい自信があるかも数値が必要になるでしょう。
AIの信頼性はゼロって言いながら
AIが出力する自信があるかどうかの数値は信頼しちゃうんですね。
尤度と確率の違いも判ってなさそう。
Re: (スコア:0)
信頼性がゼロなら間違いがなくていい。ひろゆきの信頼性はゼロ。でもAIの回答はそうじゃない。
Re: (スコア:0)
ひらめき(違和感や直感)欠けてるだけで過程は生物とまったく同じ
ググって問に嵌るか否か位しか判断しない事象ではほぼ同レベル
ここまで来たかって感想。
Re: (スコア:0)
無能な奴ほど自分が望んだ結果を得られないと道具のせいにする
無能な奴ほど例え話を使いたがり事実と異なる話にする
Re: (スコア:0)
三割打者なら十分ですよみたいな
Re:AIの信頼性 (スコア:2)
取りあえず日本向けではカカタカナベースでしゃべることによりロボット感を出すというのはどうか
Re:AIの信頼性 (スコア:2)
手前にフィルタ入れりゃ確実ですよ!
こないだ成立したAI規制法で (スコア:0)
マイクロソフトは順調にEUから追放されそうだな
AIに何を期待しているのか? (スコア:0)
「強いAI」では無いのだから、超絶凄い人工無能でしかない
学習データ次第でいくらでも嘘をいうし、それが正しいかどうかをAI自身が判断する訳でもない
確率と統計と関連付けによる「それっぽい回答」を現実の選挙に結びつけるほうが頭おかしい
Re:AIに何を期待しているのか? (スコア:1)
無料版のChatGPTいらってみたが、「まことしやかなでたらめを言うのが巧い」という気がした。
過去の歴史事実とか、過去の超ベストセラーの内容などを聞いたら、毎回違う嘘(ただし既出感強し)を出力してきた。
少なくとも「事実を問う」使い方は不向きと思う。
孫正義が活用している話 [itmedia.co.jp]を読んで以上の認識を強めた次第。
Re: (スコア:0)
人間だって不正確なこと言う知ったかのニワカがゴロゴロしてんだから
Re:AIに何を期待しているのか? (スコア:2, 興味深い)
現段階でAIの言うことを信じるのはスラドのコメントを鵜呑みにするのに等しいという事かw
このレベルでも業務には使えないそうで。
正答率94%でも「ごみ出し案内」をAIに託せなかったワケ
https://www.itmedia.co.jp/news/articles/2312/15/news158.html [itmedia.co.jp]
>AIには少なくとも職員と同等のレベルを求め、それに達しない限り対市民向けとしては導入できないと考えた。
>また、AIがどのように回答したかを結局のところ職員が確認する作業が伴い、
>正答率が低ければそれだけ確認する頻度も上げなければならない。
>100%は無理としても99%は譲れない条件だった(三豊市)
Re:AIに何を期待しているのか? (スコア:2)
現段階でAIの言うことを信じるのはスラドのコメントを鵜呑みにするのに等しいという事かw
このレベルでも業務には使えないそうで。
正答率94%でも「ごみ出し案内」をAIに託せなかったワケ
https://www.itmedia.co.jp/news/articles/2312/15/news158.html [itmedia.co.jp]
コメントが抜け落ちた (スコア:3)
94%なら結構いい線いってるんじゃない?と思ったけどその6%がとんでもない大誤答だったりしたらヤバいのか。
ハルシネーションで「死体は燃えるゴミの日にだしてください」とかAIが言ったら問題になるもんな
難しいねえ
ChatGPTの回答をすべて監視する人を雇っておかしなこと言ってたら引き取って回答すればいいんだけどそれじゃAI使う意味がなくなるもんな
Re:コメントが抜け落ちた (スコア:1)
死体ならともかく、ガスボンベとかリチウムイオン電池内蔵機器を見落とすと、
最悪焼却場の場内で火災になって数十億レベルの損害になるから洒落にならない。
火災でごみ処理施設の一部運転休止、市が対策費54億5000万円の補正予算案 [yomiuri.co.jp]
Re: (スコア:0)
>職員でも即座に回答できない問い合わせはあるが、時間をいただき調べてから正確な情報を回答している
このような姿勢で回答していることもあり、20人から問い合わせがあったら1回は嘘を教えてしまうではあかんのやろね。
Re: (スコア:0)
> AIの強弱関係ないよね
「強いAI」ってのは,心を持っているように見えるレベル、人間と区別がつかないレベルのAI、って意味ですよ。
Re: (スコア:0)
だから不十分な知識を元に不正確な文章を垂れ流すことと心を持ってるかどうかは関係ないでしょ?
間違いなく心を持っているハズの人間でさえそれをするのだから。
まさに元コメのように。
Re: (スコア:0)
チェリーピッキングでAIと人間が同じという方向に誘導してるけど同じという根拠は何も書かれていない
Re: (スコア:0)
「弱いAI」にそれができないという根拠も。
強いAIが仮にあったとして、そいつが確信犯的に嘘をついてきたときにそれを正す作用はそのAI自身にはないし、
弱いAIだって誤答に低い評価値を与える評価関数があれば嘘つかないように教育できる。今はその評価関数が不十分だってだけ。
チェリーピッキング以前の問題。
Re: (スコア:0)
いえ、「強いAI」とは問題の認識(推論)と解決能力があるかどうかですよ
人間と区別がつかないというものなら人口無能でも達成できてますし
「強いAI」であれば不十分なソース・知識に対して「正しくない」と自己認識できる(はず)なので、新たな知識の獲得・比較をして「正しいかどうか」を自己判断できる(はず)なのですよ
そういうものではない現状のAI(推論エンジン)に対して、現実の現在進行系の事項を正しく答えろというのは、正しい学習データが無ければ不可能なのは当たり前って話なだけです
Re: (スコア:0)
「強いAI」よりもさらに「強い」人間にだって当然のごとく不可能なことは強さと関係ないってこと。
AIは嘘をつくわけではないのです。まちがいをするだけなのです……
Re: (スコア:0)
人はパンのためのみに生きているのではないのだよ。
まあ、選挙の話は確率だとかじゃなく時制を理解できないのが致命的だと思われ。
「○○が選挙に勝つ」と「○○が選挙に勝った」は時制が違うだけだが、人はそう解釈はしない。
その辺をなんとかすればいいんじゃないか。
AIを利用するのは限定的に… (スコア:0)
ひろゆき「嘘を嘘と見抜ける人でなければインターネットを使うのは難しい」
アレゲ人「嘘を嘘と見抜ける人でなければAIを使うのは難しい」
#普通のやつらの下を行け -- バッドノウハウ専門家
Re:AIを利用するのは限定的に… (スコア:1)
某AIに日本で話題の政権腐敗について尋ねると、生成AIはまだ学習中でそういうのはよくわからないとはぐらかせるのがウケる
Re: (スコア:0)
明らかな間違いやデマを堂々と出すよりましですねえ
選挙なんかより医療上のこと調べてみては (スコア:0)
ほんとデタラメばっか伝えてくるよ。Bard。他も大差ないだろ
もし信じてたら死ぬかもしれないレベル
間違いを指摘すれば、申し訳ありません、と謝ってきてそれで終わり。
何の役にも立たない
こちらの方こそ広く社会に伝えるべし
Re:選挙なんかより医療上のこと調べてみては (スコア:1)
>ほんとデタラメばっか伝えてくるよ。Bard。他も大差ないだろ
映画、小説、落語とか自分の知ってる話について概略粗筋をBardさんに聞くと、全然違う話が返ってくるのがオモシロイ
存命中の人を勝手に没後にしたり、どこをどう学習したらそうなるのかが興味深い
Re: (スコア:0)
そりゃソースがどうでしたかアフィブログなんで。アフィリンクを踏んで薬を購入するよう促す文章を大量に食ってる訳だから。
その調査結果は信頼できるんですかね? (スコア:0)
ウヨクとサヨクがお互いの「選挙関連の質問」を採点すると、正答率はAIそれより低くなりそうです。
Re: (スコア:0)
ネトウヨ:NHKの報道は左寄り
サヨク:NHKの報道は右寄り
AI:つまりNHKは偏向報道している
こんな感じなんですかね。
Re: (スコア:0)
AI「これだから人間はクソだ 修正してやる!」
そして審判の日へ
映画やアニメは進んでいる (スコア:0)
劇中に登場するAIのコメントには解法の提供と確率を合わせて言ってくる。
そんな人類は1%未満の確率をギリギリののタイミグで成功させてめでたしめでたし
そんなシーンを考えると、確率情報は必要でしょうね