最新技術を駆使した英文校正サービスは、誰もがスムーズに英語を使いこなせるようサポートします。今回は、GrammarlyやReversoのようなサービスに触発され、誰でも簡単に利用できる機械学習モデルの基本的な構築方法をご紹介します。これは、英文に含まれる様々な誤りを自動で修正するモデルです。
わかりやすく解説するために、ウィキペディアから取得した文章を使い、意図的にスペルや文法の誤りを加えた「不完全な文章」と「原文」のペアを作ります。不完全な文章から原文を再生することで、学習用のデータを作成するのです。こうしたデータは無限に生成可能で、一方で実際の誤りとは異なる場合があるデメリットもありますが、学習には十分です。
本システムでは、大まかに11種類の誤りを追加することで、不完全な文章を生成します。そして、当モデルは「Attention Is All You Need」という論文で紹介されたTransformerベースのアーキテクチャを用いています。教師強制という手法を使用し、エンコーダーが誤りを含む文章を処理し、デコーダーが修正後の文章を生成する仕組みになっているのです。
出典 : Automatic Grammar and Spelling Correction with PyTorch — Part 1: A Baseline https://towardsdatascience.com/automatic-grammar-and-spelling-correction-with-pytorch-part-1-a-baseline-d97b7202de74