MITの研究チーム、文法や構文の注釈を入れた非ネイティブ英語話者による英文のデータベースを公開 51
ストーリー by headless
特徴 部門より
特徴 部門より
米国・マサチューセッツ工科大学(MIT)の研究チームが、ネイティブでない英語話者が書いた英文に文法や構文の注釈をすべて入れ、データベースとして公開した。この種のデータベースとしては初の大規模なものだという(MIT Newsの記事、
The Vergeの記事)。
データセットは英語を第2言語とする学生が試験で書いた論文から抽出した5,124の文で構成され、それぞれ1つ以上の誤りを含む。世界人口のおよそ40%が母国語とする10言語のネイティブスピーカーがほぼ均等になるように抽出されているという。データセットのオリジナルソースは英ケンブリッジ大学が公開したもので、誤りに関する注釈だけが入れられていたそうだ。
データセットに情報を追加するため、研究チームはMITの学生および大学院生を募集し、8週間にわたって注釈の入れ方についての指導を行った後に作業を開始した。注釈は品詞の区分、単数・複数や時制などの区分、Universal Dependencies (UD)の手法に基づく単語間の構文上の関係、という3つのレベルで、誤りの訂正前・訂正後両方の文に対して入れられている。研究を率いたYevgeni Berzak氏はオンラインインターフェイスも作成しており、Webブラウザー上でデータセットを参照可能だ。
英語はインターネット上で最も多く使われる言語だが、英語話者や英文作成者の大半は英語を母国語としない人々が占める。しかし、科学的な英語研究や自然言語処理を行う際には、この点が軽視されがちだという。ネイティブでない英語話者には前置詞を外す/追加する。特定の時制を別の時制に置き換える、特定の助動詞を誤用するといった傾向がある。今回のようなデータセットを機械学習に用いることで、非ネイティブ英語話者をターゲットにした文法訂正ソフトウェアの開発などにつながることを研究者らは期待しているとのことだ。
データセットは英語を第2言語とする学生が試験で書いた論文から抽出した5,124の文で構成され、それぞれ1つ以上の誤りを含む。世界人口のおよそ40%が母国語とする10言語のネイティブスピーカーがほぼ均等になるように抽出されているという。データセットのオリジナルソースは英ケンブリッジ大学が公開したもので、誤りに関する注釈だけが入れられていたそうだ。
データセットに情報を追加するため、研究チームはMITの学生および大学院生を募集し、8週間にわたって注釈の入れ方についての指導を行った後に作業を開始した。注釈は品詞の区分、単数・複数や時制などの区分、Universal Dependencies (UD)の手法に基づく単語間の構文上の関係、という3つのレベルで、誤りの訂正前・訂正後両方の文に対して入れられている。研究を率いたYevgeni Berzak氏はオンラインインターフェイスも作成しており、Webブラウザー上でデータセットを参照可能だ。
英語はインターネット上で最も多く使われる言語だが、英語話者や英文作成者の大半は英語を母国語としない人々が占める。しかし、科学的な英語研究や自然言語処理を行う際には、この点が軽視されがちだという。ネイティブでない英語話者には前置詞を外す/追加する。特定の時制を別の時制に置き換える、特定の助動詞を誤用するといった傾向がある。今回のようなデータセットを機械学習に用いることで、非ネイティブ英語話者をターゲットにした文法訂正ソフトウェアの開発などにつながることを研究者らは期待しているとのことだ。
テスト用example (スコア:1)
“All your base are belong to us”
Re: (スコア:0)
テストとはいえ、その文章が意味するところを論じる論文って一体……?
Re: (スコア:0)
すべての基底はus(u スペース)に属します。
その空間はusのサブスペースだということですね。
Re: (スコア:0)
数学の基底を示す英語って、basis じゃなかったっけ
Re: (スコア:0)
むしろネイティブ英語話者が和気あいあい使ってるよねこれ。
研究を率いたYevgeni Berzak氏 (スコア:1)
ところで、以前にStack Overflowに質問を投稿したら速攻で文法を校正されて、勉強になった。
それぞれのネイティブで書かせて翻訳したほうがいい (スコア:0)
と思う。
Re:それぞれのネイティブで書かせて翻訳したほうがいい (スコア:3, すばらしい洞察)
論文翻訳できる人なんてそんなにいない。
日本語で論文書いても、それを英語に翻訳するには、
・英語がネイティブレベルで
・日本語が十分に理解できて
・その分野の専門用語を知っている
人を探してこないといけない。
それに比べれば、
・怪しい英語で論文を書く
・英語圏の専門家がそれを直す
ほうがよっぽど簡単。
Re: (スコア:0)
英語ネイティブに翻訳させる発想に拘りすぎているのでは?
むしろ、逆方向だよ。
日本だと、1億もいるんだから、英語できる人もそれなりにいて、十分可能だと思いますけどね。(英語論文訳すのも)
小国は知らん。
問題になってるのは用語ではなく、文法なんだから、執筆している人間が苦労しながら翻訳するよりも翻訳者使った方がいい。
用語は機械支援でどうとでもなるし、そもそも日本語化されてないものも多いだろうし。
#むしろ、日本語のままにして、世界から隠したほうがいい
Re:それぞれのネイティブで書かせて翻訳したほうがいい (スコア:3, 興味深い)
何を言いたいのか今ひとつ分からないが、
日本だと、1億もいるんだから、英語できる人もそれなりにいて、十分可能だと思いますけどね。(英語論文訳すのも)
すごいお金持ちか「研究室というところには有り余るほどお金がある」と思っているかのどちらかだろうな、と上の一文を見て思った。そりゃできるよ、お金さえかければ。
現実には、英語の文献を手に入れることすら難しい研究室が増えつつあるくらい、日本の大学等にはお金がない。オンラインジャーナルを毎年解約せざるを得ず、紙コピーの文献複写請求制度がまた使われるようになるくらい。
#むしろ、日本語のままにして、世界から隠したほうがいい
なんで??
あるとき特殊な病気が発生して緊急に研究し対策を行ったが、とにかく時間がないので論文は多数が日本語で出版された。同じ病気が数十年後に中国・韓国で発生すると、彼らは日本の成果を知った上で「日本語だから引用しないもんねー知らないもんねー」と世界初みたいな顔をして英語の論文を大量に発表した。それでいいのか?
まあ今ではクラウドサービスで大概の言語の論文は専門家なら分かる程度には訳せるけどね。でもまだドイツ語は日本語にするより英語にして読んだ方がマシかな。
Jubilee
Re:それぞれのネイティブで書かせて翻訳したほうがいい (スコア:1)
研究者はだいたい英語読めるだろうから、英語の論文を日本語に翻訳する必要はないんでは?
Re: (スコア:0)
現場を知らん人間は研究室には天才しかおらんと思ってるんだろうな
Re:それぞれのネイティブで書かせて翻訳したほうがいい (スコア:1)
さすがに大学や国立研究所における理系の研究では、英語が読めないと自分の研究の進展に支障があると思います。
関連研究の世界の動向について知ることができない、ということを意味しますから。
どうしても英語が読めなければ、和訳業者に関連研究の論文を和訳してもらうということもできますが、
世界の多数の研究のうち、どれが自分に関連があるのかを判別するにも英語が必要ですので、
世界中の関連するかもしれない論文を全部和訳とかやっていてはお金がいくらあっても足りません。
英語が読めない研究者って、どうしてるの?今まではともかく、今後は淘汰されるんじゃないですかね?
自分の研究成果を英語で発表する際には、英語の品質向上についてお金で解決することはよくあるけど。
企業の研究者や文系の研究については知りません。
Re: (スコア:0)
> 現場を知らん人間は研究室には天才しかおらんと思ってるんだろうな
英語が読めるだけで天才と言われる「現場」もあれば
英語なんて読み書きできて当たり前の「現場」もあります
ただ今の時代、英語なんて出来て当たり前です
英語ができない研究者やその手の「現場」はどんどん消滅していくと思います
Re: (スコア:0)
> 英語ができない研究者やその手の「現場」はどんどん消滅していくと思います
増加してます。
理由は簡単、人手が足りなくて、構ってられない。
ま、技術レベルもそれなりだけど。
Re: (スコア:0)
元コメをちゃんと読みましょう。
「英語がネイティブレベル」って言ってるだけで「英語ネイティブ」だとは言ってませんよ。
そして、学術的な文書は理解してないと翻訳もクソもないので、英語が出来るだけではダメです。
「その内容を理解できて、なおかつ英語もできる人」か、
「専門外の分野の論文でも理解して翻訳できる人」でないと意味が無い。
後者はどう考えてもありふれた人材ではないし、
前者は研究分野単位で絞った時点で母数が激減するのでお察しです。
まぁそれでも居なくはないから完全に翻訳を請け負っているようなところもあるし、
研究者自身が怪しい英語で書いて校正・添削を受けるとかは実際行われてるようですけどね。
でもそんな簡単でありふれた技能ではない。金も手間も時間も掛かってる。
Re: (スコア:0)
間違いだとわかるならついでに訂正しといてくれればいいんじゃないだろうかねぇ。
母語で不自由なく暮らす人が英文法の細則を覚える必要はないわけだから。
Re: (スコア:0)
オレなんかは日本語も自信がない。
Re: (スコア:0)
翻訳業者に依頼すると相当に費用がかさみますよ。執筆者が第一言語で書いて第二言語に翻訳するのは時間の無駄が大きいしどのみち文法上の誤りが発生してしまう。
そもそも試験用の論文だと…
訂正……? (スコア:0)
これホントにちゃんと校正してるのかね。
たとえば適当に検索してみたら
が
になってたよ。
pay for はわかるけど、これ don't have にするところじゃないの?
ひとつだけでどうこう言ってはいけないと思うけど、
なんだかもう調べる気をなくしちゃったなあ。
Re:訂正……? (スコア:2)
Re:訂正……? (スコア:1)
イギリス英語では「haven't」で正解。
データセットのオリジナルソースは英ケンブリッジ大学が公開したもの
の一部でしょう。
Re: (スコア:0)
実は、"haven't"は"don't have"の意味で通じるのです。
ただ、どちらかというとイギリス英語で使われることが多いみたい。
Re: (スコア:0)
英国では口語でそういう言い方は「あり」の内だ。
Re: (スコア:0)
正しい英語に越したことはないのは否定しない。
が、
校正できるということは、元の文章でも意味が通じているということだよね?
さすがに何言っているかわからない文章はサンプルからはずされるか・・・
Re: (スコア:0)
地域差はあるが古臭いだけで文法的には正しい。
論文に拙者の思うところ~とか書いても文法的には正しい。
まんだいちゅーずだいうぇんずだい
Re: (スコア:0)
イギリスでは・・・みたいのはありなの?
論文ってちゃんと正しい記述で書かないといけないものだと思うんだけど。
こういうのがありになったら、
映画とか出てくるヘイヨーみたいなアホ文章が散乱する事になるよ。
Re: (スコア:0)
むしろ「正しい英語」ってどう定義されてるの?
Re:訂正……? (スコア:1)
これやってる人たちは、イングランドの中産階級以上の英語が「正しい英語」だと思ってるんでしょう。
実際、何人かしかいないけど英国人の知り合いはみんな米語をバカにする。
Re: (スコア:0)
英国人のイメージ的に、米語以外も割と平気でバカにしてそうな気が…
Re: (スコア:0)
口語じゃない文章ではないでしょうか。
口語って時代と共に変わっていくだろうし文法の間違いにも繋がる。
Re: (スコア:0)
正しい記述で書かれた100点満点の論文でないと投稿する価値はありませんよりは
文法ミスだらけでも投稿される方がはるかにましだがな。
100点満点でないと恥みたいな馬鹿なこと考えてるから日本は凋落したんだろ。
論文だってコミュニケーションなんだ。
相手に意思を伝えることが何より大事なんだ。
Re: (スコア:0)
論文なんで文法の間違いは致命的な誤解を招きます。
不適切な時制や助詞の誤用は文章を全く違う意味にしてしまうこともある。
Re: (スコア:0)
color vs colour
fiber vs fibre
Re: (スコア:0)
それはつづりが違う同じ発音で同じ意味の単語だから問題はない。
個人的には1st floorを挙げる。
Re: (スコア:0)
この前に見学したイギリスの研究所のエレベータが、北棟にアメリカ製、南棟はイギリス製で、混乱したわ
Re: (スコア:0)
イングランド語はイングランドを中心に発展発達した言語です。イングランドにおいて伝統的に使われてきた表現を映画とか出てくるヘイヨーみたいなアホ文章と同列に扱うなんて映画とか出てくるヘイヨーみたいなアホ文章を散乱させてしまう人でないとできない。
"映画とか出てくるヘイヨーみたいなアホ文章が散乱する事になるよ"って映画とか出てくるヘイヨーみたいなアホ文章みたいですね。文法的におかしいし。
まあアメリカの映画って超お下品な表現満載なんでまあどうでもいいかも。
英国英語だとかBritish Englishという表現はあほくさくて嫌い。
Re: (スコア:0)
「正しい漢字」を定義しようとしたときに中国人が中国ではここははねるものだと言ってくるような感じ。
日本ではここはとめるのが正しいと主張しても意味がないし、どちらかは間違っているなんて決めようがないでしょ。
Re: (スコア:0)
Re: (スコア:0)
こまけぇこたぁいいんだよ!!
常用漢字表の字体・字形に関する指針(報告)について
( http://www.bunka.go.jp/koho_hodo_oshirase/hodohappyo/2016022902.html [bunka.go.jp] )
Re: (スコア:0)
というか「英語」なんだから、英国で使われている表現が正しいのでは?
Re: (スコア:0)
英国の英語って世界一方言が多様なんですよ…。
どれを持って正しいというのか。BBCか?
ロンドン市内だけでも紛争が勃発しますよw
私関東人なので関西弁の違いなんてわかりまへん。
でも大阪と神戸と京都で当然違うんでしょ? コレが正しい関西弁だ! って言うと喧嘩になるっしょ。
ちなみに英国で英語方言が多様なのは、英語発祥の地だからです。
その一部の方言を持ったグループが米国などに移住して、拡散しました。
だから、まだ米語を標準とした方がよっぽどマシかもしれません…。
※EnglishではなくEnglikeを定義した方がマシだと思うけどね。文法整理したピジン言語。
※ネイティブには違和感出るだろうけど英語、米語に続く新たな方言だと思えばいいっしょ。
その前にスラドも (スコア:0)
日本語ネイティブの校正が必要じゃね?
Re:その前にスラドも (スコア:1)
スラドのtypoデータベースを作ったら興味深…い…?
「実践 日本人の英語」(おふとぴ) (スコア:0)
実践 日本人の英語 [amazon.co.jp]を読んで、
…… 耳が痛かったわ。うん、それやったことあるわー
方言いろいろ (スコア:0)
中国人英語 (【らんま1/2】 中国人の「~アル」は英語ではこうなるアル! [webry.info]) とか、シングリッシュ [wikipedia.org]とか、ポーランドボール英語 [fc2.com]のような、役割語 [wikipedia.org]も収録されているのかな?
# desu?
でもさぁ (スコア:0)
ネイティブだけど同じ間違いを同じくらいしている論文もたくさんあるんじゃないの?
自分は英語ネイティブではないけど、意味不明な日本語を他者への説明文で書く人は仕事で頻繁に出くわすし
Re: (スコア:0)
後段についてはまったく同感だけど、前段については、ネイティヴの間違い方と非ネイティヴの間違い方には統計的に差が出てくるような気がする。
Re: (スコア:0)
自分は院生時代に大学で、日本の中世史を専門とする先生と仕事をしたときに、日本語の文体を獲得した。
中学生向けの教科書に書かれているように、短い文節で文章を区切り、複雑な説明が必要な個所は
思い切って簡明な表現で言い切る。すると、全体として実に首尾一貫としたすっきりとした、
何が言いたいかはっきりとした文章になる。
何かの非母国語を完全に習得した者だけが、不完全な非ネイティブ英語話者に石を投げるべき。 (スコア:0)
なんか、その研究から「非ネイティブ話者が混ざっている場でのコミュニティは、このような表現は複雑で難解又は誤解をされるような表現を避けるべきだ」みたいな結論にもっていかず、「非ネイティブ話者はここを直せ」みたいな方向にもっていくあたりに英語帝国主義的な放漫さを感じるんだよな。
不完全でも自分たちの言語を使ってくれる、ありがたい、って思わんのだな。