deepspeedai · ksugama · Jan 25, 2026 · Jan 26, 2026 · Jan 27, 2026 · Jan 28, 2026
@@ -14,6 +14,7 @@
 from deepspeed.runtime.zenflow import zenflow_utils
 
 import gc
+import math
 from typing import Container
 from deepspeed.runtime.zero.offload_states import offload_optimizer_states, reload_optimizer_states
 from deepspeed.runtime.base_optimizer import ZeROOptimizer
@@ -366,18 +367,29 @@ def _enforce_cpu_offload():
             # not sure why apex was cloning the weights before flattening
             # removing cloning here
 
-            see_memory_usage(f"Before moving param group {i} to CPU")
-            # move all the parameters to cpu to free up GPU space for creating flat buffer
-
-            # Create temp CPU param copies, free accelerator tensors
-            orig_group_numel = 0
-            for param in self.bit16_groups[i]:
-                orig_group_numel += param.numel()
-                param.cpu_data = param.data.cpu()
-                param.data = torch.empty(1).to(param.device)
+            # Compute group size for VRAM check (need 2x model size on GPU to flatten in place: params + flat copy)
+            orig_group_numel = sum(param.numel() for param in self.bit16_groups[i])
+            alignment = self.nccl_start_alignment_factor * dist.get_world_size(group=self.real_dp_process_group[i])
+            aligned_numel = int(math.ceil(orig_group_numel / alignment)) * alignment
+            param_dtype = self.bit16_groups[i][0].dtype
+            element_size = torch.tensor([], dtype=param_dtype).element_size()
+            flat_buffer_bytes = aligned_numel * element_size
 
             empty_cache()
-            see_memory_usage(f"After moving param group {i} to CPU", force=False)
+            accelerator = get_accelerator()
+            available_vram = accelerator.available_memory() if accelerator.is_available() else 0
 def available_memory(self, device_index=None): 
     if pynvml: 
         if device_index is None: 
             device_index = self.current_device() 
         handle = pynvml.nvmlDeviceGetHandleByIndex(self._get_nvml_gpu_id(device_index)) 
         info = pynvml.nvmlDeviceGetMemoryInfo(handle) 
         return info.free 
     else: 
         return self.total_memory(device_index) - self.memory_allocated(device_index) 
 def available_memory(self, device_index=None): 
     if pynvml: 
         if device_index is None: 
             device_index = self.current_device() 
         handle = pynvml.nvmlDeviceGetHandleByIndex(self._get_nvml_gpu_id(device_index)) 
         info = pynvml.nvmlDeviceGetMemoryInfo(handle) 
         return info.free 
     else: 
         return self.total_memory(device_index) - self.memory_allocated(device_index) 
+            # Flatten on GPU only if we have enough VRAM for the flat buffer (2x = params already there + copy)
+            flatten_on_gpu = (accelerator.is_available() and (available_vram >= flat_buffer_bytes))
+
+            if not flatten_on_gpu:
+                see_memory_usage(f"Before moving param group {i} to CPU")
+                # move all the parameters to cpu to free up GPU space for creating flat buffer
+                for param in self.bit16_groups[i]:
+                    param.cpu_data = param.data.cpu()
+                    param.data = torch.empty(1).to(param.device)
+
+                empty_cache()
+                see_memory_usage(f"After moving param group {i} to CPU", force=False)
 
             # Reorder group parameters for load balancing of gradient partitioning during backward among ranks.
             # This ensures that gradients are reduced in a fashion such that ownership round robins among the ranks.
@@ -396,24 +408,35 @@ def _enforce_cpu_offload():
             # Create meta tensors list, ordered according to round_robin_tensors
             meta_tensors = []
             for param in round_robin_tensors:
-                meta_tensors.append(torch.zeros_like(param.cpu_data, device="meta"))
+                if flatten_on_gpu:
+                    meta_tensors.append(torch.zeros_like(param.data, device="meta"))
+                else:
+                    meta_tensors.append(torch.zeros_like(param.cpu_data, device="meta"))
             self.round_robin_bit16_meta.append(meta_tensors)
 
-            # create flat buffer in CPU
-            flattened_buffer = self.flatten_dense_tensors_aligned(
-                self.round_robin_bit16_groups[i],
-                self.nccl_start_alignment_factor * dist.get_world_size(group=self.real_dp_process_group[i]),
-                use_cpu_data=True)
+            if flatten_on_gpu:
+                logger.info(f"Flattening param group {i} on GPU (sufficient VRAM)")
+                flattened_buffer = self.flatten_dense_tensors_aligned(self.round_robin_bit16_groups[i],
+                                                                      alignment,
+                                                                      use_cpu_data=False)
+                self.bit16_groups_flat.append(flattened_buffer)
+                see_memory_usage(f"After flattening param group {i} on GPU", force=False)
+            else:
+                logger.info(f"Flattening param group {i} on CPU (insufficient VRAM)")
+
+                flattened_buffer = self.flatten_dense_tensors_aligned(self.round_robin_bit16_groups[i],
+                                                                      alignment,
+                                                                      use_cpu_data=True)
 
-            # free temp CPU params
-            for param in self.bit16_groups[i]:
-                del param.cpu_data
+                # free temp CPU params
+                for param in self.bit16_groups[i]:
+                    del param.cpu_data
 
-            # Move CPU flat tensor to the accelerator memory.
-            self.bit16_groups_flat.append(flattened_buffer.to(get_accelerator().current_device_name()))
-            del flattened_buffer
+                # Move CPU flat tensor to the accelerator memory.
+                self.bit16_groups_flat.append(flattened_buffer.to(get_accelerator().current_device_name()))
+                del flattened_buffer
 
-            see_memory_usage(f"After flattening and moving param group {i} to GPU", force=False)
+                see_memory_usage(f"After flattening and moving param group {i} to GPU", force=False)
 
             if dist.get_rank(group=self.real_dp_process_group[i]) == 0:
                 see_memory_usage(f"After Flattening and after emptying param group {i} cache", force=False)

@@ -0,0 +1,109 @@
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+"""
+Test that ZeRO Stage 1 and 2 use the GPU flatten path when VRAM is sufficient.
+Parametrized over zero_stage (1, 2) and dtype (fp32, fp16, bf16).
+"""
+
+import pytest
+import deepspeed
+from deepspeed.accelerator import get_accelerator
+from deepspeed.utils import set_log_level_from_string
+from unit.common import DistributedTest
+from unit.simple_model import SimpleModel
+
+
+def _apply_dtype_to_config(config_dict, dtype):
+    """Set bf16/fp16 in config_dict based on dtype; skip if not supported."""
+    if dtype == "bf16":
+        if not get_accelerator().is_bf16_supported():
+            pytest.skip("bf16 is not supported on this accelerator")
+        config_dict["bf16"] = {"enabled": True}
+    elif dtype == "fp16":
+        if not get_accelerator().is_fp16_supported():
+            pytest.skip("fp16 is not supported on this accelerator")
+        config_dict["fp16"] = {"enabled": True, "initial_scale_power": 8}
+    # fp32: no half-precision block
+
+
+@pytest.mark.parametrize("zero_stage", [1, 2])
+@pytest.mark.parametrize("dtype", ["fp32", "fp16", "bf16"], ids=["fp32", "fp16", "bf16"])
+class TestStage2FlattenOnGPU(DistributedTest):
+    """ZeRO-1 and ZeRO-2 with small model should flatten on GPU (sufficient VRAM)."""
+
+    world_size = 2  # Run on 2 GPUs when available
+
+    def test_flatten_on_gpu_path_taken(self, monkeypatch, zero_stage, dtype):
+        """Assert the GPU flatten path was used (not CPU flatten + move)."""
+        if not get_accelerator().is_available():
+            pytest.skip("Accelerator not available")
+        config_dict = {
+            "train_micro_batch_size_per_gpu": 2,
+            "gradient_accumulation_steps": 1,
+            "zero_optimization": {
+                "stage": zero_stage
+            },
+            "optimizer": {
+                "type": "Adam",
+                "params": {
+                    "lr": 1e-3
+                }
+            },
+        }
+        _apply_dtype_to_config(config_dict, dtype)
+
+        set_log_level_from_string("info")
+        log_messages = []
+
+        def mock_logger_info(msg, *args, **kwargs):
+            log_messages.append(msg if isinstance(msg, str) else str(msg))
+
+        monkeypatch.setattr("deepspeed.utils.logger.info", mock_logger_info)
+
+        hidden_dim = 64
+        model = SimpleModel(hidden_dim=hidden_dim, nlayers=2)
+        deepspeed.initialize(
+            config=config_dict,
+            model=model,
+            model_parameters=model.parameters(),
+        )
+
+        # Small model + no CPU offload => GPU path; that path logs "on GPU"
+        gpu_path_logs = [m for m in log_messages if "Flattening param group" in m and "on GPU" in m]
+        assert gpu_path_logs, (
+            f"Expected GPU flatten path (logger.info should be called with 'Flattening param group' and 'on GPU'). "
+            f"Captured messages: {log_messages}")
+
+    def test_flat_buffers_on_accelerator(self, zero_stage, dtype):
+        """Regression: flat buffers must end up on the accelerator (not left on CPU)."""
+        if not get_accelerator().is_available():
+            pytest.skip("Accelerator not available")
+        config_dict = {
+            "train_micro_batch_size_per_gpu": 2,
+            "gradient_accumulation_steps": 1,
+            "zero_optimization": {
+                "stage": zero_stage
+            },
+            "optimizer": {
+                "type": "Adam",
+                "params": {
+                    "lr": 1e-3
+                }
+            },
+        }
+        _apply_dtype_to_config(config_dict, dtype)
+
+        hidden_dim = 64
+        model = SimpleModel(hidden_dim=hidden_dim, nlayers=2)
+        engine, _, _, _ = deepspeed.initialize(
+            config=config_dict,
+            model=model,
+            model_parameters=model.parameters(),
+        )
+        opt = engine.optimizer
+        assert hasattr(opt, "bit16_groups_flat"), "ZeRO-1/2 optimizer should have bit16_groups_flat"
+        device_type = get_accelerator().device_name()
+        for i, flat in enumerate(opt.bit16_groups_flat):
+            assert flat.device.type == device_type, (f"Flat buffer {i} must be on {device_type}, got {flat.device}")