[NEW Model] add jamba #8517

JunnYu · 2024-05-31T06:21:16Z

PR types

New features

PR changes

Models

Description

新增 ddp_find_unused_parameters 参数，与huggingface的逻辑保持一致。
修复 unified ckpt的时候保存_tied_weights_keys的错误
新增 warning_once，log时候可以只打印一次。
新增jamba， DP训练需要开启ddp_find_unused_parameters True，纯TP的时候不需要添加，目前写法sharding存在问题。
--max_grad_norm 1 --bf16 1 --fp16_opt_level O2 --tensor_parallel_degree 4 --recompute 1 --recompute_use_reentrant 0 --lora 1 --max_length 4096

Jamba: A Hybrid Transformer-Mamba Language Model
huggingface仓库
 huggingface_hub权重

run.py代码

import paddle
from paddlenlp.transformers import JambaForCausalLM, JambaConfig, JambaTokenizer
from paddlenlp.trainer import TrainingArguments, PdArgumentParser
from paddlenlp.transformers.configuration_utils import LlmMetaConfig

parser = PdArgumentParser((TrainingArguments,))
training_args = parser.parse_args_into_dataclasses()[0]

model_name_or_path = "ai21labs/Jamba-v0.1"
dtype = "bfloat16"

tokenizer = JambaTokenizer.from_pretrained(model_name_or_path)
config = JambaConfig.from_pretrained(
    model_name_or_path,
    dtype=dtype,
)
LlmMetaConfig.set_llm_config(config, training_args)

model = JambaForCausalLM.from_pretrained(model_name_or_path, config=config, low_cpu_mem_usage=True)
model.eval()

prompt = "In the recent Super Bowl LVIII, "
input_ids = tokenizer(prompt, return_tensors='pd').input_ids

with paddle.no_grad():
    outputs = model.generate(input_ids=input_ids, max_new_tokens=512)
    for e in tokenizer.batch_decode(outputs[0], skip_special_tokens=True):
        print(prompt + e)
        print('-'*100)

2卡80G启动。

python -u -m paddle.distributed.launch --gpus "6,7" run.py --output_dir debug --tensor_parallel_degree 2

4卡40G启动。

python -u -m paddle.distributed.launch --gpus "4,5,6,7" run.py --output_dir debug --tensor_parallel_degree 4

paddle-bot · 2024-05-31T06:21:21Z

Thanks for your contribution!

codecov · 2024-06-03T03:07:33Z

Codecov Report

Attention: Patch coverage is 74.01848% with 225 lines in your changes missing coverage. Please review.

Project coverage is 55.03%. Comparing base (12107af) to head (0a75927).
Report is 219 commits behind head on develop.

Files with missing lines	Patch %	Lines
paddlenlp/transformers/jamba/modeling.py	72.87%	217 Missing ⚠️
paddlenlp/trainer/trainer.py	0.00%	7 Missing ⚠️
paddlenlp/utils/llm_utils.py	0.00%	1 Missing ⚠️

Additional details and impacted files

@@             Coverage Diff             @@
##           develop    #8517      +/-   ##
===========================================
+ Coverage    54.96%   55.03%   +0.07%     
===========================================
  Files          646      646              
  Lines       103133   101970    -1163     
===========================================
- Hits         56687    56124     -563     
+ Misses       46446    45846     -600

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

JunnYu · 2024-07-22T08:57:45Z

paddlenlp/trainer/training_args.py

+        ddp_find_unused_parameters (`bool`, *optional*):
+            When using distributed training, the value of the flag `find_unused_parameters` passed to
+            `paddle.DataParallel`. Will default to `False` if recompute is used, `True` otherwise.


新增 ddp_find_unused_parameters 参数，与huggingface的逻辑保持一致。

paddlenlp/trainer/plugins/unified_checkpoint.py

paddlenlp/utils/log.py

ZHUI

LGTM

* Add jamba

JunnYu added 2 commits May 31, 2024 14:08

add jamba

04a74aa

typo

b7833c6

JunnYu added 3 commits June 3, 2024 10:36

Merge branch 'develop' into add_jamba

ee1e861

warning_once

f0ac7c9

add auto model auto tokenizer

445d1db

JunnYu added 15 commits June 3, 2024 12:03

updat

edcda58

Merge branch 'develop' into add_jamba

f2b6e73

update

dc6c5a0

Merge branch 'develop' into add_jamba

34d0468

support jamba train lora

e8a0b6a

add test

1124030

Merge branch 'develop' into add_jamba

60b0a23

update

6d355fc

更新jamba的写法

cc32b96

修改jamba初始化, trainer添加dp_find_unused_parameters参数,在DP时候

ebd6c77

ddp

2e1e039

find_unused_parameters

10000

3b01a9d

更新jamba单测

52d29ea

Merge branch 'develop' into add_jamba

7aa4771

update init

348c0e9

JunnYu commented Jul 22, 2024

View reviewed changes

paddlenlp/trainer/plugins/unified_checkpoint.py Outdated Show resolved Hide resolved

JunnYu commented Jul 22, 2024

View reviewed changes

paddlenlp/utils/log.py Outdated Show resolved Hide resolved

JunnYu added 5 commits July 22, 2024 17:53

更新JambaPretrainingCriterion的写法

ecb6225

add is_autocast_enabled

11c5aae

减少不必要的transpose

f6656ce

当开启sharding的时候,添加fake梯度

153c10e

Merge branch 'develop' into add_jamba

c2ff206

JunnYu and others added 13 commits August 14, 2024 17:51

Merge branch 'develop' into add_jamba

38801b1

Merge branch 'PaddlePaddle:develop' into add_jamba

e2064f2

Merge branch 'develop' into add_jamba

680e7db

see bug

8c1e244

fix jamba

359acf0

fix tests

4647464

Merge branch 'develop' into add_jamba

ad50537

typo

5101198

fix

9627547

fix

f422452

fix

4a17ab6

fix

d8fcbd4

Merge branch 'PaddlePaddle:develop' into add_jamba

0a75927

ZHUI approved these changes Aug 19, 2024

View reviewed changes

ZHUI merged commit 0ec78aa into PaddlePaddle:develop Aug 19, 2024
8 of 12 checks passed

Mangodadada pushed a commit to Mangodadada/PaddleNLP that referenced this pull request Sep 10, 2024

[NEW Model] Add jamba (PaddlePaddle#8517)

83608d4

* Add jamba

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[NEW Model] add jamba #8517

[NEW Model] add jamba #8517

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

[NEW Model] add jamba #8517

[NEW Model] add jamba #8517

Uh oh!

Conversation

Uh oh!

PR types

PR changes

Description

Uh oh!

Uh oh!

Uh oh!

Codecov Report

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!