athms · Niccolo-Ajroldi · Dec 5, 2024 · Dec 5, 2024
diff --git a/mad/model/language_model.py b/mad/model/language_model.py
@@ -1,3 +1,4 @@
+from collections import OrderedDict
 import torch
 import typing as tp
 from torch import nn
@@ -46,9 +47,16 @@ def __init__(self,
 
         self.model = nn.ModuleList([])
         for layer, layer_cfg in zip(layers, layer_cfgs):
-            self.model.append(nn.Sequential(norm(layer_cfg['dim']), layer(**layer_cfg)))
-
-        self.unembed = nn.Sequential(norm(layer_cfg['dim']), nn.Linear(dim, vocab_size))
+            self.model.append(nn.Sequential(OrderedDict([
+                ('norm', norm(layer_cfg['dim'])),
+                ('layer', layer(**layer_cfg))
+            ])))
+
+        self.unembed = nn.Sequential(OrderedDict([
+            ('norm', norm(layer_cfg['dim'])), 
+            ('lm_head', nn.Linear(dim, vocab_size))
+        ]))
+
         self.apply(self._init_weights)
 
     def embed(self,

diff --git a/mad/model/pl_model_wrapper.py b/mad/model/pl_model_wrapper.py
@@ -93,18 +93,29 @@ def test_step(self,
         return self.phase_step(batch, batch_idx, phase='test')
 
     def configure_optimizers(self) -> tp.Union[torch.optim.Optimizer, tp.Dict[str, tp.Any]]:
+        # param groups
+        decay_params, no_decay_params = [], []
+        for n, p in self.model.named_parameters():
+            if p.requires_grad:
+                if not getattr(p, '_no_weight_decay', False) and ("bias" not in n) and ("norm" not in n):
+                    decay_params.append(p)
+                else:
+                    no_decay_params.append(p)
+        param_groups = [
+            {"params": decay_params, "weight_decay": self.mad_config.weight_decay},
+            {"params": no_decay_params, "weight_decay": 0.0},
+        ]
+
         # optimizer:
         if self.mad_config.optimizer == 'adamw':
             optimizer = torch.optim.AdamW(
-                self.parameters(),
-                lr=self.mad_config.lr,
-                weight_decay=self.mad_config.weight_decay
+                param_groups,
+                lr=self.mad_config.lr
             )
         elif self.mad_config.optimizer == 'sgd':
             optimizer = torch.optim.SGD(
-                self.parameters(),
-                lr=self.mad_config.lr,
-                weight_decay=self.mad_config.weight_decay
+                param_groups,
+                lr=self.mad_config.lr
             )
         else:
             raise ValueError(f"invalid optimizer: {self.mad_config.optimizer}")