GPTの開発元であるOpenAIが提供するWebページでは、テキストを細かい単位で分割する「Tokenizer」のデモ機能を体験することができます。
文章を入力すると、その解析結果がカラフルに表示されるため、GPTがどのようにテキストを読み取り、理解しているのかがひと目でわかります。
例えば、「What’s」という言葉が「What」と「’s」に分けられる様子や、単語が途中で分割される場合など、興味深い分割方法を目の当たりにすることができます。
英語で試すと動作し、日本語のテキストは文字化けする可能性があるので注意が必要ですが、自然言語処理の複雑さを感じることができるでしょう。
出典 : https://xtech.nikkei.com/atcl/nxt/column/18/02832/052400004/