Fix mix-up with params

zer0int · web-flow · commit 5aa4c7699db7 · 2024-09-26T06:25:26.000+02:00
diff --git a/ft-B-train-OpenAI-CLIP-ViT-L-14.py b/ft-B-train-OpenAI-CLIP-ViT-L-14.py
@@ -253,10 +253,10 @@ def forward(self, logits_per_image, logits_per_text):
 
 # Potentially useful if you get gigantic gradient norms at the delicate layers near the input
 param_groups = [
-    {'params': visual_parameters[:len(transformer_parameters)//2], 'lr': 1e-6},  # First half of the transformer
-    {'params': visual_parameters[len(transformer_parameters)//2:], 'lr': 3e-6},   # Second half of the transformer
-    {'params': transformer_parameters[:len(visual_parameters)//2], 'lr': 1e-6},  # First half of the vision transformer
-    {'params': transformer_parameters[len(visual_parameters)//2:], 'lr': 3e-6},   # Second half of the vision transformer
+    {'params': transformer_parameters[:len(transformer_parameters)//2], 'lr': 1e-6},  # First half of the transformer
+    {'params': transformer_parameters[len(transformer_parameters)//2:], 'lr': 3e-6},   # Second half of the transformer
+    {'params': visual_parameters[:len(visual_parameters)//2], 'lr': 1e-6},  # First half of the vision transformer
+    {'params': visual_parameters[len(visual_parameters)//2:], 'lr': 3e-6},   # Second half of the vision transformer
 ]
 
 # Default optimizer AdamW (not recommended). Set to "AdamW(param_groups, ...)" to use above differential learning rates