pytorch
diff --git a/‎fbgemm_gpu/codegen/genscript/generate_backward_split.py
+1-1 b/‎fbgemm_gpu/codegen/genscript/generate_backward_split.py
+1-1
diff --git a/‎fbgemm_gpu/codegen/training/backward/embedding_backward_split_template.cu
+1 b/‎fbgemm_gpu/codegen/training/backward/embedding_backward_split_template.cu
+1
diff --git a/‎fbgemm_gpu/codegen/training/python/lookup_args.template
+2-31 b/‎fbgemm_gpu/codegen/training/python/lookup_args.template
+2-31
@@ -447,7 +447,7 @@ def generate() -> None:
                     ssd_optimizers.append(optim)
 
             BackwardSplitGenerator.generate_backward_split(
-                ssd_tensors=ssd_tensors, **optimizer
+                ssd_tensors=ssd_tensors, aux_args=aux_args, **optimizer
             )
         BackwardSplitGenerator.generate_rocm_backward_split()
 
 
@@ -601,6 +601,7 @@ Tensor {{ embedding_cuda_op }}(
 
     {%- if "learning_rate" in args.split_kernel_arg_names %}
     // convert `learning rate` to float since `learning rate` is float in kernels
+    TORCH_CHECK(learning_rate_tensor.is_cpu(), "learning_rate_tensor tensor needs to be on CPU. Ensure learning_rate_tensor is on CPU or contact FBGEMM team if you get this error.")
     const float learning_rate = learning_rate_tensor.item<float>();
     {%- endif %}
 
 
@@ -50,7 +50,8 @@ class CommonArgs(NamedTuple):
     ssd_tensors: Dict[str, torch.Tensor]
     {%- endif %}
 
-
+# Do not add a parameter of Type tensor here. It will cause JIT script error due to a bug in PyTorch.
+# See more detail in D71010630.
 class OptimizerArgs(NamedTuple):
     stochastic_rounding: bool
     gradient_clipping: bool
@@ -108,36 +109,6 @@ class CommonArgsPT2(NamedTuple):
     ssd_tensors: Dict[str, torch.Tensor]
     {%- endif %}
 
-class OptimizerArgsPT2(NamedTuple):
-    """
-    Optimizer arguments for PT2 interface
-    """
-    stochastic_rounding: bool
-    gradient_clipping: bool
-    max_gradient: float
-    max_norm: float
-    learning_rate_tensor: torch.Tensor
-    eps: float
-    beta1: float
-    beta2: float
-    weight_decay: float
-    weight_decay_mode: int
-    eta: float
-    momentum: float
-    counter_halflife: int
-    adjustment_iter: int
-    adjustment_ub: float
-    learning_rate_mode: int
-    grad_sum_decay: int
-    tail_id_threshold: float
-    is_tail_id_thresh_ratio: int
-    total_hash_size: int  # Required for OptimType.NONE
-    weight_norm_coefficient: float
-    lower_bound: float
-    regularization_mode: int
-    use_rowwise_bias_correction: bool # Used for OptimType.ADAM
-
-
 class Momentum(NamedTuple):
     dev: torch.Tensor
     host: torch.Tensor
Original file line number	Diff line number	Diff line change
`@@ -447,7 +447,7 @@ def generate() -> None:`
`447`	`447`	`ssd_optimizers.append(optim)`
`448`	`448`
`449`	`449`	`BackwardSplitGenerator.generate_backward_split(`
`450`		`- ssd_tensors=ssd_tensors, **optimizer`
	`450`	`+ ssd_tensors=ssd_tensors, aux_args=aux_args, **optimizer`
`451`	`451`	`)`
`452`	`452`	`BackwardSplitGenerator.generate_rocm_backward_split()`
`453`	`453`