OpenAIが発表した言語モデルGPT-3はパフォーマンスの高さから各方面で注目されており、ついにはMicrosoftが学習済みモデルの利用を独占化しました。 私個人の所感としてこれまで学習済みモデルは無料公開するという流れを無視し、(アーキテクチャではなく)学習済みモデルが商品化するのはAIビジネスの一つの転換期と感じています。 深層学習による自然言語処理分野で巨大化していくモデルを十分に学習させるためにはWebデータの活用が大きな役割を果たしています。一方、その量に関する話題はあるものの、利用にあたっての細かな前処理に関する議論はあまりなされていない印象です。 そこで本記事は学習データの構築にフォーカスします。 GPT-3の論文でも言及されている通り、学習データはGoogle Researchが発表したT5のデータを踏襲したと書かれていますので、まずはT5のデータから見て行きましょう。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く