OptimalScale · research4pan · Apr 4, 2024 · Apr 4, 2024 · Apr 4, 2024
diff --git a/scripts/tools/print_model_architecture.py b/scripts/tools/print_model_architecture.py
@@ -0,0 +1,22 @@
+#!/usr/bin/env python
+#coding=utf-8
+import argparse
+import sys
+from transformers import AutoModel
+
+def parse_argument(sys_argv):
+    parser = argparse.ArgumentParser(formatter_class=argparse.RawTextHelpFormatter)
+    parser.add_argument("--model_name_or_path", type=str, default='gpt2')
+    args = parser.parse_args(sys_argv[1:])
+    return args
+
+def main():
+    args = parse_argument(sys.argv)
+    model_name = args.model_name_or_path
+    model = AutoModel.from_pretrained(model_name)
+
+    print(model.config)
+    print(model)
+
+if __name__ == "__main__":
+    main()
diff --git a/src/lmflow/args.py b/src/lmflow/args.py
@@ -591,6 +591,12 @@ class FinetunerArguments(TrainingArguments):
             "help": "the number of steps in each freezing interval of LISA, i.e. the selected unfreezed layers are randomly switched every {lisa_interval_steps} steps."
         }
     )
+    lisa_layers_attribute: int = field(
+        default="model.model.layers",
+        metadata={
+            "help": "where the layer attribute stores, e.g. model.model.layers"
+        }
+    )
 
 
 @dataclass

diff --git a/src/lmflow/pipeline/finetuner.py b/src/lmflow/pipeline/finetuner.py
@@ -311,10 +311,14 @@ def __init__(self, n_layers, interval_steps, model):
                         self.layers_attribute = 'model.model.layers'  # Layer access path for Qwen model
                     elif self.model.__class__.__name__ == 'MistralForCausalLM':
                         self.layers_attribute = 'model.model.layers'
+                    elif self.model.__class__.__name__ == 'MixtralForCausalLM':
+                        self.layers_attribute = 'model.model.layers'
                     elif self.model.__class__.__name__ == 'GemmaForCausalLM':
                         self.layers_attribute = 'model.model.layers'
+                    elif self.model.__class__.__name__ == 'GPT2LMHeadModel':
+                        self.layers_attribute = 'model.transformer.h'
                     else:
-                        self.layers_attribute = 'model.transformer.h'  # General access path
+                        self.layers_attribute = training_args.lisa_layers_attribute
                     self.total_layers = len(eval('self.' + self.layers_attribute))  # Dynamically execute to get the number of layers
 
                     self.active_layers_indices = []