[Cherry-pick] Fix safetensors shape #8703

DesmonDay · 2024-07-03T03:06:27Z

PR types

Bug fixes

PR changes

Others

Description

Cherry-pick #8702

* Upgrade paddlenlp to 2.8.0 * fix try import * Add regex to requirements.txt

…lePaddle#8274) * try except sp * fix sp import

This reverts commit 7314063.

* support llama-3 * Add llama-3 tokenizer * fix for llama3

…ddlePaddle#8303) * [Distributed] adapt sequence parallel on LoRA (PaddlePaddle#8235) * [Distributed] [CustomDevices] adapt lora sp && polish MC2 APIs

Remove truncate

* [DistDataloader] Update implementation, add nested.py (PaddlePaddle#8380) * fix distdataloader, fix eval with dp group (PaddlePaddle#8420)

* [Performance] Optimize unified checkpoint save/load speed. (PaddlePaddle#8204) * opt unified checkpoint save/load speed.

* [XPU] llama add xpu support (PaddlePaddle#8282) * [XPU] llama add xpu support * fix * use try import * fix * refine * refine * refine * refine * update (PaddlePaddle#8399) * [LLM] Support fuse attention q, k, v weights (PaddlePaddle#8202) 1. add use-interface & fuse action 1.1. modify 1., code order 2. switch to name_mapping 3. solve tp branch 3.2 follow hui, handel qkv separately 3.3 handle pdparams 3.4 from torch 3.5 abandon low_cpu_mem_usage 3.6 solve shard branch * 3.6.1 solve shard branch after rebase develop * code clean * remove debug comment * Redefine fuse and split functions * Redefine fuse and split functions 8000 * comment and fix * update method * update QKV fuse and split * support fuse weights in multi-files * add precision compare * simplify function call * support use_fast_ffn * clean modeling and configuration * add test for gpt and opt * fix tp_actions get * add fast_ffn test * add Qwen2Moe * Revert "add Qwen2Moe" This reverts commit 113b883. * add test for split * update doc * update filter_dict_keys --------- Co-authored-by: Zii <ziangqin.baidu@gmail.com> * [LLM] Fix fuse or split with same key (PaddlePaddle#8378) * fix fuse or split with same key * fix * fix eps * update format * [LLM] add decay steps option for finetuning (PaddlePaddle#8251) * [LLM] add memory stats to logger of trainer (PaddlePaddle#8269) * [Distributed] fix lora (PaddlePaddle#8325) * [LLM] fix lora target modules on llama (PaddlePaddle#8372) * [Distributed] metric calculation supports tp logits (PaddlePaddle#8370) * Update model_utils.py * Update model_utils.py * Update model_utils.py --------- Co-authored-by: Jianbang Yang <yangjianbang112@gmail.com> Co-authored-by: DrownFish19 <DrownFish19@gmail.com> Co-authored-by: Zii <ziangqin.baidu@gmail.com> Co-authored-by: Tian <121000916+SylarTiaNII@users.noreply.github.com>

* [fea] moe support (PaddlePaddle#8498) Co-authored-by: kebo01 <kebo01@baidu.com> * [fix] Broadcast optimizer state using broadcast_dp without shard-reshard. (PaddlePaddle#8522)

…#8419) (PaddlePaddle#8533) Co-authored-by: Tian <121000916+SylarTiaNII@users.noreply.github.com>

* [Safetensors] Fix fast safe open slice. (PaddlePaddle#8512) * [FIX DDP] fix ddp (PaddlePaddle#8549)

* Update sequence_parallel for predict * Do not save moe_group * Fix safetensors reading

paddle-bot · 2024-07-03T03:06:31Z

Thanks for your contribution!

lugimzzz and others added 27 commits April 12, 2024 13:39

cherry-pick add scaling (PaddlePaddle#8264)

0da8c5d

Upgrade paddlenlp to 2.8.0 (PaddlePaddle#8266)

4749af3

* Upgrade paddlenlp to 2.8.0 * fix try import * Add regex to requirements.txt

[BugFix] Try except sequence parallel utils (PaddlePaddle#8189) (Padd…

6c1f449

…lePaddle#8274) * try except sp * fix sp import

save_model: checkpoint_done --> model_done

dc5a6af

fix import

7314063

Revert "fix import"

d4062e5

This reverts commit 7314063.

Support Llama3 (PaddlePaddle#8315)

590cee9

10000
* support llama-3 * Add llama-3 tokenizer * fix for llama3

bug fixer (PaddlePaddle#8314) (PaddlePaddle#8318)

871070d

[Distributed] [CustomDevices] Adapt SP on lora && polish MC2 APIs (Pa…

0f428bb

…ddlePaddle#8303) * [Distributed] adapt sequence parallel on LoRA (PaddlePaddle#8235) * [Distributed] [CustomDevices] adapt lora sp && polish MC2 APIs

fix 0f428bb try import

3105c18

[Trainer] Fix sharding overlap bug (PaddlePaddle#8334)

89daaa3

Remove truncate (PaddlePaddle#8375)

27d0e60

Remove truncate

Fix llama3 eot id. (PaddlePaddle#8373)

9e4a4f4

[Trainer] update distributed dataloader (PaddlePaddle#8426)

debb2ad

* [DistDataloader] Update implementation, add nested.py (PaddlePaddle#8380) * fix distdataloader, fix eval with dp group (PaddlePaddle#8420)

Fix load RNG compatibility. (PaddlePaddle#8451)

fc860a3

Cherry-Pick fast_safe_open (PaddlePaddle#8458)

08898bf

* [Performance] Optimize unified checkpoint save/load speed. (PaddlePaddle#8204) * opt unified checkpoint save/load speed.

Cherry pick type promotion fix. (PaddlePaddle#8463)

7a24bcc

quick fix from pretrained. (PaddlePaddle#8487)

8879f79

quick fix os.path.split (PaddlePaddle#8508)

82a7177

[fea] Cherry-picked MOE updates from develop (PaddlePaddle#8531)

4d33655

* [fea] moe support (PaddlePaddle#8498) Co-authored-by: kebo01 <kebo01@baidu.com> * [fix] Broadcast optimizer state using broadcast_dp without shard-reshard. (PaddlePaddle#8522)

[LLM] relocate tensor_parallel_output to avoid conflict (PaddlePaddle…

6757ff9

…#8419) (PaddlePaddle#8533) Co-authored-by: Tian <121000916+SylarTiaNII@users.noreply.github.com>

Update sequence_parallel for predict (PaddlePaddle#8547)

7c8d713

Cp/fix (PaddlePaddle#8569)

c628f12

* [Safetensors] Fix fast safe open slice. (PaddlePaddle#8512) * [FIX DDP] fix ddp (PaddlePaddle#8549)

Don't save moe_group (PaddlePaddle#8570)

5b027c8

release 2.8.1 (PaddlePaddle#8636)

db99efd

[Safetensors] Fix safetensors shape (PaddlePaddle#8702)

ad271a6

* Update sequence_parallel for predict * Do not save moe_group * Fix safetensors reading

DesmonDay closed this Jul 3, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Cherry-pick] Fix safetensors shape #8703

[Cherry-pick] Fix safetensors shape #8703

Uh oh!

Uh oh!

Uh oh!

Uh oh!

[Cherry-pick] Fix safetensors shape #8703

[Cherry-pick] Fix safetensors shape #8703

Uh oh!

Conversation

PR types

PR changes

Description

Uh oh!

Uh oh!

Uh oh!