[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

タグ

2024年9月6日のブックマーク (1件)

  • 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など

    *チームでの評価. **13Bは推論時のアクティブパラメータ数、47Bは総パラメータ数をあらわす。 (Nejumi leaderboard NEOを使いチーム内で評価。GPT-4の採点不具合で評価が-1となった項目は採点から除外した。) 2.2 開発アプローチ Tanukiの開発では、以下のような革新的なアプローチを採用しました: データ合成: これまで主流とされてきたインターネットデータ(Common Crawl)の過度の依存から脱却し、対話や作文に特化した合成データを活用 対話・指示データの合成: 人工的に生成した対話および指示データを事前学習に組み込み モデルのアップサイクリング: 8x8Bモデルはゼロから作るのではなく、先に構築した8Bモデルを素材に用いるアップサイクリングと呼ばれるアプローチをとることで、限られた計算リソースから高性能なモデルを得ることに成功 効率的な試行錯誤:

    大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など
    DNPP
    DNPP 2024/09/06