oumi-ai · nikg4 · Jan 29, 2025 · Jan 29, 2025 · Jan 29, 2025
diff --git a/configs/recipes/vision/llama3_2_vision/sft/11b_full/train.yaml b/configs/recipes/vision/llama3_2_vision/sft/11b_full/train.yaml
@@ -22,7 +22,7 @@ data:
         transform_num_workers: "auto"
         dataset_kwargs:
           processor_name: "meta-llama/Llama-3.2-11B-Vision-Instruct"
-          limit: 4096
+          # limit: 4096 # Uncomment to limit dataset size!
           return_tensors: True
       # - dataset_name: "HuggingFaceH4/llava-instruct-mix-vsft"
       #   split: "train"
@@ -31,14 +31,6 @@ data:
       #   transform_num_workers: "auto"
       #   dataset_kwargs:
       #     processor_name: "meta-llama/Llama-3.2-11B-Vision-Instruct"
-      #     limit: 4096
-      #     return_tensors: True
-      # - dataset_name: "coco_captions"
-      #   split: "train"
-      #   transform_num_workers: "auto"
-      #   dataset_kwargs:
-      #     processor_name: "meta-llama/Llama-3.2-11B-Vision-Instruct"
-      #     limit: 100
       #     return_tensors: True
       # - dataset_name: vision_language_jsonl
       #   dataset_path: "training.jsonl"  # See notebook for example how to generate this file

diff --git a/configs/recipes/vision/llama3_2_vision/sft/11b_lora/train.yaml b/configs/recipes/vision/llama3_2_vision/sft/11b_lora/train.yaml
@@ -26,7 +26,7 @@ data:
         transform_num_workers: "auto"
         dataset_kwargs:
           processor_name: "meta-llama/Llama-3.2-11B-Vision-Instruct"
-          limit: 4096
+          # limit: 4096 # Uncomment to limit dataset size!
           return_tensors: True
 
 training:

diff --git a/configs/recipes/vision/llama3_2_vision/sft/90b_full/train.yaml b/configs/recipes/vision/llama3_2_vision/sft/90b_full/train.yaml
@@ -26,8 +26,8 @@ data:
         transform_num_workers: "auto"
         dataset_kwargs:
           processor_name: "meta-llama/Llama-3.2-90B-Vision-Instruct"
-          return_tensors: True
           limit: 4096
+          return_tensors: True
 
 training:
   output_dir: "output/vlm_finetuned"

diff --git a/configs/recipes/vision/llava_7b/sft/train.yaml b/configs/recipes/vision/llava_7b/sft/train.yaml
@@ -14,7 +14,7 @@ model:
 data:
   train:
     collator_name: "vision_language_with_padding"
-    use_torchdata: False
+    use_torchdata: True
     datasets:
       - dataset_name: "merve/vqav2-small"
         split: "validation"
@@ -23,7 +23,7 @@ data:
         transform_num_workers: "auto"
         dataset_kwargs:
           processor_name: "llava-hf/llava-1.5-7b-hf"
-          limit: 8192
+          # limit: 8192 # Uncomment to limit dataset size!
           return_tensors: True
 
       # Below are examples of other vision SFT datasets