Wikipediaで他言語版から翻訳の必要な記事を抽出する「Wikipedia GapFinder」 53
ストーリー by headless
言語 部門より
言語 部門より
Wikimedia Foundationとスタンフォード大学がサーバーログを用いてWebサイトのハイパーリンク構造を改善する共同研究を行い、研究成果に基づいて開発した「Wikipedia GapFinder」のベータ版を公開している(Stanford Newsの記事、
VentureBeatの記事)。
全言語版合計で4千万件近い記事を持つWikipediaだが、言語別では最も多い英語版の記事が500万件を超えているのに対し、2位のスウェーデン語版は300万件弱、13位の日本語版は100万件強であり、言語間のギャップが大きい。
研究では対応する記事がフランス語版に存在しない英語版記事のうち、文化的・地理的な関連性からフランス語版でも重要と考えられる記事を選択し、翻訳が必要な記事として編集者1人に5件ずつ通知するという実験を行ったそうだ。
実験開始時点で過去1年間に英語版・フランス語版の両方で1回以上編集した編集者を2グループに分け、1つのグループにはランダムな5件を割り当て、もう1つのグループには過去に編集した記事から興味のありそうな5件を割り当てた。1か月後の記事作成率を通知しなかった場合と比較したところ、ランダムな記事で2倍、興味のありそうな記事で3倍の記事作成率になったとのこと。
GapFinderでは翻訳元の言語と翻訳先の言語を指定することで、翻訳先の言語版に存在しない記事をリストアップする。検索語句を指定して記事を絞り込むことも可能だ。リストアップされた記事を選択すると翻訳元記事の内容が表示され、ここから翻訳や新規記事作成が可能(要ログイン)となっている。
全言語版合計で4千万件近い記事を持つWikipediaだが、言語別では最も多い英語版の記事が500万件を超えているのに対し、2位のスウェーデン語版は300万件弱、13位の日本語版は100万件強であり、言語間のギャップが大きい。
研究では対応する記事がフランス語版に存在しない英語版記事のうち、文化的・地理的な関連性からフランス語版でも重要と考えられる記事を選択し、翻訳が必要な記事として編集者1人に5件ずつ通知するという実験を行ったそうだ。
実験開始時点で過去1年間に英語版・フランス語版の両方で1回以上編集した編集者を2グループに分け、1つのグループにはランダムな5件を割り当て、もう1つのグループには過去に編集した記事から興味のありそうな5件を割り当てた。1か月後の記事作成率を通知しなかった場合と比較したところ、ランダムな記事で2倍、興味のありそうな記事で3倍の記事作成率になったとのこと。
GapFinderでは翻訳元の言語と翻訳先の言語を指定することで、翻訳先の言語版に存在しない記事をリストアップする。検索語句を指定して記事を絞り込むことも可能だ。リストアップされた記事を選択すると翻訳元記事の内容が表示され、ここから翻訳や新規記事作成が可能(要ログイン)となっている。
多数の言語版にあるが日本語版にない記事 (スコア:1)
https://ja.wikipedia.org/wiki/Wikipedia:%E5%A4%9A%E6%95%B0%E3%81%AE%E8... [wikipedia.org]
これでいいじゃん
Re: (スコア:0)
やっぱり手作業のぬくもりが必要ですよね
日本の100万件って (スコア:0)
日本の100万件って
オタク系のアニメ漫画ゲーム関係が大半だろ?
少し調べ物すると英語版に行くしかなくなる
明治以来大抵のことが母語で完結する体制だったのに
最近急速に状況が変わってきたよな
英語ならまだいいけど
中国語、アラビア語、ロシア語のサイトしかヒットしないことさえある
知識の集積と言うのはある意味国力を反映しているわけで
多民族地帯では行政言語が政治的に重要な意味を持ち
人文系の教育体制が何かと重視される
高等人文教育を軽視というか金の無駄とかいう風潮は
確実に国を傾け
民族的危機に直結すると思うんだけど
自称愛国者ほどそういう意識に欠けるんだよな
Re:日本の100万件って (スコア:1)
いやいや、鉄道も多いから。
というのはさておき、ちょっと調べ物すると英語版ってのは確かにそう思います。翻訳をがんばるべきなのか、英語の方でさらなる充実に協力すべきなのか...。
Re: (スコア:0)
英語版に於ける特定アジア関係者による、捏造も含む日本disりは凄いらしいですから、英語の方でさらなる充実に協力すべきでしょう。
高校の英作文授業や、文系クラブ活動に最適ですね。
Re: (スコア:0)
というか、そもそも出典になりうる昔のアメリカメディアが自体が…。
Re: (スコア:0)
誤記を正す事と、ジャパニーズイングリシュの周知を兼ねて、何が悪い?
Re: (スコア:0)
世界に醜態さらすな。得意の異文化コミュニケーションで一緒に遊んでる中韓の友達にも言っとけ。
Re: (スコア:0)
余程困るらしい
Re: (スコア:0)
互いに醜い争い続けてるお前ら日中韓のネトウヨ類がWikipediaに活動の場広げて困るのは当たり前だ。
Re: (スコア:0)
>翻訳をがんばるべきなのか、英語の方でさらなる充実に協力すべきなのか...。
それ以前に、情報の精度や確かさを改善したほうがいい。
出典不明な私見がタレ流されている項目が多すぎ。
指摘された奴が逆ギレして編集合戦になってたり。
集合知というより、集合恥になってる。
他言語への翻訳なんてその後でいい。
Re: (スコア:0)
あなたみたいに文句は言うけど自分で何かするわけじゃないって人多いよね
だから記事も増えない
Re: (スコア:0)
いや、世の中の人がみんな君みたいなwikiオタクじゃないから。
Re: (スコア:0)
上の人が文句言うだけの人かは分からないでしょ。
確かに文句言うだけの人は多いと思う。
でもね、全く何もしないよりは良いでしょう。
特にある程度の意味有る文章を書いての文句は、2行で終わる文句より良い。
一番悪いのは、人のやってることにケチをつけるだけのコメント。
何か意味のあるソースだの考えだのもない、ただのダメ出しだけ。
こう言うのは害悪だけの存在だと思う。
Re: (スコア:0)
ご自分のコメントが「人を馬鹿っていう奴が馬鹿だ」と言っていることにお気づきになられたほうがいいのでは。
文章が長けりゃ偉いというのもひどい意見だと思います。
2行で返されてしまったのは、元のコメントがまさに「人のやってることにケチをつけるだけのコメント」だったからでは。
日本の将来のために母国語資料の拡充を願うのなら、そのための提案なりなんなりしませんと。
Re: (スコア:0)
だからそれ分からないでしょ。
レベルは低くて及第点なんか絶対つかないが、2行コメントの5点くらいに比べたら数倍はあげられる。
で、その2行コメントばかりではスレが荒れるだけ。何も生み出さずマイナスしか生み出さない。
元コメントは荒れるだろうけど、もう少しは良い。
Re: (スコア:0)
行数で採点するとか間抜けにもほどがある
Re:日本の100万件って (スコア:1)
Re: (スコア:0)
こう書いたんだが、
>特にある程度の意味有る文章を書いての文句は、2行で終わる文句より良い。
Re: (スコア:0)
>2行コメントの5点くらい
Re: (スコア:0)
提案などいらぬ手を動かせばよい。
まあ英語の勉強を頑張るほうがいいが。
Re: (スコア:0)
ご自分のコメントが「人を馬鹿っていう奴が馬鹿だ」と言っていることにお気づきになられたほうがいいのでは。
人を馬鹿という奴が馬鹿なのは真実。そんなことも知らないお前相当な馬鹿だなw
Re: (スコア:0)
そうか?
ノイズを除去するだけの作業も十分に有益だと思うぞ。
除去にいたらなくても、ノイズをノイズだとわかるようにマーキングする作業も有益だ。
ノイズでノイズを上書きすることは不毛かもしれないが、最初に登録されたノイズだけが有益なわけでもなかろう。
Re: (スコア:0)
AVも充実しています。
オーディオとヴィジュアルではないほうね。
Re:日本の100万件って (スコア:1)
# ヒトもアニマルの一種なのでそっちの意味でとらえても強ち間違っている訳でもないのがなんとも
Re: (スコア:0)
英語が多少なりとも読めると、わざわざ翻訳するモチベーションが持てない点は大きいと思います。
これは、研究者や学生の英語能力が向上したという意味で、悪い話ではありません。
また、研究者の世界では、かつてのように、海外の業績を紹介するだけで、自分の業績になった時代は完全に終わりました。
「欧米に追いつけ追い越せ」の時代でもないし、海外の文献を翻訳することの社会的評価は低下しています。
ご自分でやったことがないとわからないかもしれませんが、良い翻訳を行うのは相当の経験と時間が必要な作業です。
そのような作業を無償で行う人が多くないのは特に意外ではないと思います。
また、書籍の文献まで含めると、少なくとも大学の学位くらいまでの母国語文献はそれほど不足しているとは感じません。
Wikipediaの記事件数だけを根拠にして、民族的危機に結びつけるのも、少々性急な結論のように思えます。
Re: (スコア:0)
翻訳して持ってくることだけじゃなくて
日本語版の内容がサブカルチャーに片寄っているから
いわゆる百科辞典的な内容の充実が必要なんじゃないか?
というのを元ACは言っているんだと思う。
Re: (スコア:0)
おまかせ検索20件の結果
アルダー (オレゴン州)
小池達朗
ジュリアン・ガデ
山本源吉
ドリームコンサート
元箱根村
越中島駅
ランウェイ
エアダスター
大塚富美子
バタフライ・エフェクト2
万葉 (フェリー)
相生芳藏
笠戸島
島田絵海
茂辺地駅
下村幸男
エンダーのゲーム (映画)
中目黒駅
大久保敏彦
駅が三つもありますので鉄の勝利ですかな
小池達郎は特撮俳優
ドリームコンサートはソウルの音楽祭
島田絵海は訳書に「ホモ好きの魔女」があってどうカウントしたものか…
Re: (スコア:0)
この手の議論をスラドや2ちゃんのスレで10年近くやってるけど
サブカル記事を統合や削除して全体のバランスを変えようとする人しか現れず、
記事を充実させていって発言力もあるウィキペディアンは結局登場しなかった
だから余計サブカル記事が目立つようになってしまった
しかも現在も進行中という
Re: (スコア:0)
結局は専門家が自分の研究分野の項目を書かないからということだな。
自分の専門以外だったら本などの内容を書き写すことしかできないからモチベーションなんか上がりようもない。
で、素人が趣味の知識を披露する場として活用するという現在の状況になっているのだろう。
Re: (スコア:0)
>高等人文教育を軽視というか金の無駄とかいう風潮は
>確実に国を傾け
>民族的危機に直結すると思うんだけど
>自称愛国者ほどそういう意識に欠けるんだよな
人文学者に愛国者がいないだけじゃないっすかね。
Re: (スコア:0)
でも記事数上位の英語版やオランダ語版も100も住んでないヨーロッパの地名の記事をBotや手動で数十万個作って水増ししてるだけだったりする
2000年代のJAWPは10秒おきに投稿してるだけでBot使ってるとブロックするバカ管がいたのと、
Bot組んで記事を作ろうする人もいなかったから乗り遅れただけ
Re: (スコア:0)
Wikipedia: ネイティブスピーカーの数が多い言語の一覧
https://ja.wikipedia.org/wiki/%E3%83%8D%E3%82%A4%E3%83%86%E3%82%A3%E3%... [wikipedia.org]
中国語, アラビア語, ロシ
Re: (スコア:0)
日本のWikipediaにアニメ漫画ゲームが多いってのは、大衆文化として広く普及してるのが日本が特異的存在だからでしょうね。大半って指摘はどうなんだろ?どれくらいの割合を占めてるのかは分からないけど。
以前(2007年)にお役所からWikipediaへの編集が行なわれているってことで問題になったけど
総務省や文科省もWikipediaを編集していた 「WikiScanner」日本語版で判明 [itmedia.co.jp]
こういうのを禁止するだけじゃなくて、容認する方向で検討され
Re: (スコア:0)
しょせんはボランティアだしな
Re: (スコア:0)
俺が20件挙げた通り、日本語版wikipediaにアニメまんがゲームが多いという事実はない
Re: (スコア:0)
「おまかせ検索」(おまかせ表示?)で100万件の中からランダムに20件引っ張ってきて、ジャンルの割合を評価するって発想はいいね!
サンプル数が適切なのかとか、おまかせ検索の仕組みも詳しく検討すれば信頼性上がるし、他言語と比較したらどうなのかにも使えるし。
普遍的人権(日本人含む)も人文分野 (スコア:0)
確かに、「慰安婦問題で、日系アメリカ人を弁護する人がテキサス親父ぐらいしかいないのは『裁判を受ける権利』の抑圧、つまり民族差別の一種じゃないか?」とか、「『○○人が井戸に毒を入れた』といった、流言飛語を流すのは暴行・虐殺などの憎悪犯罪を招く許されないヘイトスピーチ。しかし、吉田証言も(日本人の)犯罪をねつ造した流言飛語という点では同じ。虐殺等の目立った犯罪が今までは起きていなかっただけで、これも憎悪犯罪を招きかねないヘイトスピーチなのでは?」といった問題点の発見・考察、そこから「民族差別もヘイトスピーチ・憎悪犯罪
スウェーデン語版が2位とは意外な感じ (スコア:0)
寒くて外出ると凍えて死ぬので家でパソコンばっかいじってるのかな?
Re:スウェーデン語版が2位とは意外な感じ (スコア:1)
Re: (スコア:0)
この記事で紹介されている方が、自分で開発したボットを使って、たった一人でスウェーデン語の記事を約100万件書いているそうです。
http://gigazine.net/news/20140715-2-7-million-wikipedia-articles/ [gigazine.net]
Re:スウェーデン語版が2位とは意外な感じ (スコア:2, 参考になる)
Lsjbot の編集履歴 [wikipedia.org]を見ると、公開データベースから適当にデータを集めてスタブを自動生成してるみたいだが、割とまともなスタブに見えるな。
でもWikipedia:全言語版の統計 [wikipedia.org]でスウェーデン語版 [wikipedia.org]・セブアノ語版 [wikipedia.org]ウィキペディアが異常値を出してる理由が分かったわ。
Re: (スコア:0)
その記事によると
隣のツリーに出ているような話は他の言語版でも一緒みたいですね。あと日本人は何かと日本を特殊扱いで低く見たがる自虐民族ですね(自己言及文)。
Re: (スコア:0)
純記事数・総項目数ではなく総編集数・活動中の登録者数で見ると
英独仏露西伊(+日)が上位になる。活動規模としてはこちらの方が実態に近いと思われる。
NHKの外国語講座みたいだ。中韓は下位になるけど韓国の英語教育熱の高さは考えに入れておいた方がよさそう。
日本人も英語をあまり話せないのに英文読解のレベルは結構高い。
優秀な人ほど英語版を直接読めばいいという結論に至る。
フランスみたいに英語への対抗心がないと変化はなさそう。
Re: (スコア:0)
日本人は読めるけど書けないんじゃねlol
Re: (スコア:0)
文章を書くの苦手な人が多いからね。
学校でキチンと教えないのもあるな。
小中学校で作文とかあったが、自由に書きなさいという曖昧な指示しかないし。起承転結とかも習ったが、それを普通の文章には使うべきでないし。(会社の文章に起承転結なんか使ったらどうなるんだろう。)
文化的・地理的な関連性からフランス語版でも重要と考えられる記事 (スコア:0)
フランス語版はフランス版ではないという建前じゃなかったっけ?
# 英語みたいに世界中で使われている言語ではUS Centricになるなという意味で重要な建前なんだろうけどさ
英語帝国主義ではないけども (スコア:0)
英語版があればいいんじゃないかと
フランス人はフランス語を守れって頑張ってるのは知ってるけどさ
日本は古語が読めないとか文語が使えないとかザラでしょ
エビデンスとかイシューとかオポチュニティとか難しい英単語には堪能なわりに
大体さぁ
せっせと編集しても儲かるのはジミーだけだろ
ジミーが頑張ればいいんじゃない?
Re: (スコア:0)
儲かってるのはジンボの元妻たちに払われる慰謝料のような気がする