nntile · Muxas · Jul 12, 2024 · Jul 12, 2024 · Jul 12, 2024
diff --git a/wrappers/python/examples/gpt2_training.py b/wrappers/python/examples/gpt2_training.py
@@ -641,12 +641,19 @@ def check_grads(model_torch, nntile_model):
                 requires_grad=False).contiguous())
         torch_input.append(minibatch_input)
         torch_output.append(minibatch_output)
-    optim = Adam(model_torch.parameters(), lr=args.lr)
     loss_func = nn.CrossEntropyLoss(reduction="mean")
+    if args.optimizer == "adam":
+        optimizer = Adam(model_torch.parameters(), args.lr)
+    elif args.optimizer == "sgd":
+        optimizer = SGD(model_torch.parameters(), args.lr)
+    elif args.optimizer == "adamw":
+        optimizer = AdamW(model_torch.parameters(), args.lr)
+    else:
+        raise ValueError
     # Warmup training
     for i in range(args.torch_nepochs_warmup):
         for j in range(num_train_batches):
-            optim.zero_grad()
+            optimizer.zero_grad()
             loss = torch.zeros(1, dtype=torch_dtype, device=args.torch_device)
             for k in range(num_minibatch):
                 train_input = torch_input[j][k].to(args.torch_device)
@@ -657,14 +664,14 @@ def check_grads(model_torch, nntile_model):
                 loss_local.backward()
                 loss += loss_local
             print("loss={}".format(loss.item()), flush=True)
-            optim.step()
+            optimizer.step()
     # Actual training
     if args.torch_device.startswith("cuda"):
         torch.cuda.synchronize()
     time0 = time.time()
     for i in range(args.torch_nepochs):
         for j in range(num_train_batches):
-            optim.zero_grad()
+            optimizer.zero_grad()
             loss = torch.zeros(1, dtype=torch_dtype, device=args.torch_device)
             for k in range(num_minibatch):
                 train_input = torch_input[j][k].to(args.torch_device)
@@ -677,7 +684,7 @@ def check_grads(model_torch, nntile_model):
             print("Batch={}/{} Epoch={}/{} Loss={}".format(j+1, num_train_batches,
                                                            i+1, args.torch_nepochs,
                                                            loss.item()), flush=True)
-            optim.step()
+            optimizer.step()
     if args.torch_device.startswith("cuda"):
         torch.cuda.synchronize()
     time1 = time.time() - time0

diff --git a/wrappers/python/nntile/optimizer/sgd.py b/wrappers/python/nntile/optimizer/sgd.py
@@ -52,17 +52,16 @@ def unregister(self):
     def step(self):
         for i, p in enumerate(self.params):
             if self.weight_decay != 0.:
-                nntile.tensor.axpy_async(self.weight_decay, p.value, p.grad)
+                nntile.tensor.add_async(self.weight_decay, p.value, 1., p.grad)
 
             if self.momentum > 0:
                 if self.num_iter == 0:
                     nntile.tensor.copy_async(p.grad, self.states[i])
                 else:
-                    nntile.tensor.scal_inplace_async(self.momentum, self.states[i])
-                    nntile.tensor.axpy_async(1 - self.damping, p.grad, self.states[i])
+                    nntile.tensor.add_async(1 - self.damping, p.grad, self.momentum, self.states[i])
                 if self.nesterov:
-                    nntile.tensor.axpy_async(self.momentum, self.states[i], p.grad)
+                    nntile.tensor.add_async(self.momentum, self.states[i], 1., p.grad)
                 else:
                     nntile.tensor.copy_async(self.states[i], p.grad)
-            nntile.tensor.axpy_async(-self.lr, p.grad, p.value)
+            nntile.tensor.add_async(-self.lr, p.grad, 1., p.value)
         self.num_iter += 1