triton-lang · NikhilAPatel · Jun 23, 2025
@@ -39,6 +39,17 @@ SmallVector<int64_t> getTMABlockShape(ArrayRef<int64_t> shapePerCTA,
 inline SmallVector<int64_t> getTMABlockShape(Attribute encoding,
                                              ArrayRef<int64_t> shapePerCTA,
                                              bool packedSize) {
+  auto swizzledEnc =
+      llvm::dyn_cast_or_null<gpu::SwizzledSharedEncodingAttr>(encoding);
+  if (swizzledEnc) {
+    SmallVector<int64_t> blockShape(shapePerCTA);
+    constexpr int64_t dimMax = 256;
+    for (auto &size : blockShape)
+      size = std::min(size, dimMax);
+
+    return blockShape;
+  }
+
   auto mmaEnc = cast<gpu::NVMMASharedEncodingAttr>(encoding);
   return getTMABlockShape(shapePerCTA, mmaEnc.getElementBitWidth(),
                           mmaEnc.getSwizzlingByteWidth(), mmaEnc.getFp4Padded(),

@@ -35,6 +35,7 @@ using ::mlir::LLVM::linearize;
 using ::mlir::triton::gpu::getCTALayout;
 using ::mlir::triton::gpu::getTotalElemsPerThread;
 using ::mlir::triton::gpu::NVMMASharedEncodingAttr;
+using ::mlir::triton::gpu::SwizzledSharedEncodingAttr;
 
 // Toggle this to work around Cooperative Grid Launch ld.acquire optimized path
 static constexpr bool disableLDAcquireLowering = false;
@@ -1307,8 +1308,14 @@ static LinearLayout getMsgToPackedOffsetLayout(ttg::MemDescType ty) {
 static LinearLayout
 getMsgToUnpackedOffsetLayout(const LinearLayout &packedLayout,
                              ttg::MemDescType ty) {
-  auto isFp4Padded =
-      cast<NVMMASharedEncodingAttr>(ty.getEncoding()).getFp4Padded();
+  auto enc = ty.getEncoding();
+  auto swizzledEnc = llvm::dyn_cast_or_null<SwizzledSharedEncodingAttr>(enc);
+
+  if (swizzledEnc) {
+    return packedLayout;
+  }
+
+  auto isFp4Padded = cast<NVMMASharedEncodingAttr>(enc).getFp4Padded();
   if (!isFp4Padded) {
     return packedLayout;
   }