GitHub - Mddct/transformer-vocos

ongoing

Why vocos with transformer or conformer ?

Easy to scale and Good control over latency and caching

Why sequence mask in gan?

No data length limit is required, such as 1s

Why in wenet ？

cache and multiple speech models are available out of the box

Data Prepare

{"wav": "/data/BAC009S0764W0121.wav"}
{"wav": "/data/BAC009S0764W0122.wav"}

train

train_data = 'train.jsonl'
model_dir = 'vocos/exp/2025/0.1/transformer/'
tensorboard_dir = ${model_dir}/runs/

mkdir -p $model_dir $tensorboard_dir
torchrun --standalone --nnodes=1 --nproc_per_node=8 vocos/main.py -- \
        --config vocos/configs/default.py \
        --config.train_data=${train_data} \
        --config.model_dir=${model_dir} \
        --config.tensorboard_dir=${tensorboard_dir} \
        --config.max_train_steps 1000000

TODO:

Name		Name	Last commit message	Last commit date
Latest commit History 46 Commits
test/resources		test/resources
vocos		vocos
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ongoing

Why vocos with transformer or conformer ?

Why sequence mask in gan?

Why in wenet ？

Data Prepare

train

About

Releases

Packages

Languages

Mddct/transformer-vocos

Folders and files

Latest commit

History

Repository files navigation

ongoing

Why vocos with transformer or conformer ?

Why sequence mask in gan?

Why in wenet ？

Data Prepare

train

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages