GitHub - justin4ai/image-captioning: RNN/LSTM/Transformer image caption generator implementation in Pytorch.

Image Captioning

This repositoriy contains RNN, LSTM and Transformer-based image captioning models implementation during Computer Vision 2024 course.

Models are trained on COCO dataset and evaluated on NICE Challenge dataset.

Note

In Transformer_Load.ipynb and load_checkpoint.py, beam search, which allows my Transformer to achieve higher scores in terms of BLEU@k and CIDEr, is implemented.

Also I figured out that applying n_gram blocking together was also helpful in achieving higher CIDEr scores.

Evaluation

My implementation of CIDEr evaluation metric is available at cider-python3 repository.

Summary Report

Summary report of my work is attached as ./report/image_captioning.pdf.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
CV		CV
report		report
.gitignore		.gitignore
LSTM_Captioning.ipynb		LSTM_Captioning.ipynb
README.md		README.md
RNN_Captioning.ipynb		RNN_Captioning.ipynb
Transformer_Captioning.ipynb		Transformer_Captioning.ipynb
Transformer_Load.ipynb		Transformer_Load.ipynb
load_checkpoint.py		load_checkpoint.py
requirements.txt		requirements.txt
train_transformer.py		train_transformer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Image Captioning

Note

Evaluation

Summary Report

About

Releases

Packages

Languages

justin4ai/image-captioning

Folders and files

Latest commit

History

Repository files navigation

Image Captioning

Note

Evaluation

Summary Report

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages