SWAN: SGD with Normalization and Whitening Enables Stateless LLM Training

Jan 1, 2025·

C Ma

Wenbo Gong

M Scetbon

E Meeds

· 0 min read

PDF Cite Source Document

Type

Conference paper

Publication

ICML 2025

Last updated on Jan 1, 2025

Optimization LLM Learning Dynamics

Authors

Wenbo Gong

Senior Researcher

Senior Researcher at Microsoft Research Cambridge working on learning dynamics and optimization for foundation models, with prior work on causality and approximate inference.

← Gradient Multi-Normalization for Stateless and Scalable LLM Training Jan 1, 2025

Towards Efficient Optimizer Design for LLM via Structured Fisher Approximation with a Low-Rank Extension Jan 1, 2025 →