[REQ] Use 8B/16B vectorized loads in CUDA kernels for performance #712

adenzler-nvidia · 2025-05-08T15:56:33Z

Description

We should add a fast path to load wider types using float2/float4 loads as this can give a nice performance boost for memory-heavy kernels.

Context

We observed good speedups in Mujoco-Warp doing this, and would like to have this available for any type that is properly aligned such that users can build padded data types on top of it.

adenzler-nvidia added this to the 1.8.0 milestone May 8, 2025

adenzler-nvidia self-assigned this May 8, 2025

adenzler-nvidia added the feature request Request for something to be added label May 8, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[REQ] Use 8B/16B vectorized loads in CUDA kernels for performance #712

[REQ] Use 8B/16B vectorized loads in CUDA kernels for performance #712

[REQ] Use 8B/16B vectorized loads in CUDA kernels for performance #712

[REQ] Use 8B/16B vectorized loads in CUDA kernels for performance #712

Comments

Description

Context