Gradient Multi-Normalization for Stateless and Scalable LLM Training

Jan 1, 2025·

M Scetbon

C Ma

Wenbo Gong

E Meeds

· 0 min read

PDF Cite Source Document

Type

Conference paper

Publication

NeurIPS 2025

Last updated on Jan 1, 2025

Optimization LLM Learning Dynamics

Authors

Wenbo Gong

Senior Researcher

Senior Researcher at Microsoft Research Cambridge working on learning dynamics and optimization for foundation models, with prior work on causality and approximate inference.

SWAN: SGD with Normalization and Whitening Enables Stateless LLM Training Jan 1, 2025 →