米国・マサチューセッツ工科大学(MIT)の研究チームが、ネイティブでない英語話者が書いた英文に文法や構文の注釈をすべて入れ、データベースとして公開した。この種のデータベースとしては初の大規模なものだという(
MIT Newsの記事、
The Vergeの記事)。
データセットは英語を第2言語とする学生が試験で書いた論文から抽出した5,124の文で構成され、それぞれ1つ以上の誤りを含む。世界人口のおよそ40%が母国語とする10言語のネイティブスピーカーがほぼ均等になるように抽出されているという。データセットのオリジナルソースは英ケンブリッジ大学が公開したもので、誤りに関する注釈だけが入れられていたそうだ。
データセットに情報を追加するため、研究チームはMITの学生および大学院生を募集し、8週間にわたって注釈の入れ方についての指導を行った後に作業を開始した。注釈は品詞の区分、単数・複数や時制などの区分、
Universal Dependencies (UD)の手法に基づく単語間の構文上の関係、という3つのレベルで、誤りの訂正前・訂正後両方の文に対して入れられている。研究を率いたYevgeni Berzak氏は
オンラインインターフェイスも作成しており、Webブラウザー上でデータセットを参照可能だ。
英語はインターネット上で最も多く使われる言語だが、英語話者や英文作成者の大半は英語を母国語としない人々が占める。しかし、科学的な英語研究や自然言語処理を行う際には、この点が軽視されがちだという。ネイティブでない英語話者には前置詞を外す/追加する。特定の時制を別の時制に置き換える、特定の助動詞を誤用するといった傾向がある。今回のようなデータセットを機械学習に用いることで、非ネイティブ英語話者をターゲットにした文法訂正ソフトウェアの開発などにつながることを研究者らは期待しているとのことだ。