WIP

tyb0807 · tyb0807 · commit abeeefe97f32 · 2025-12-15T22:52:27.000+01:00
diff --git a/water/include/water/Dialect/Wave/IR/WaveOps.td b/water/include/water/Dialect/Wave/IR/WaveOps.td
@@ -110,6 +110,7 @@ def Exp2Op : UnaryWaveOp<"exp2"> {
 
 def MmaOp : WaveOp<"mma",
     [DeclareOpInterfaceMethods<WaveInferTypeOpInterface>,
+     DeclareOpInterfaceMethods<WaveElementsPerThreadOpInterface>,
      DeclareOpInterfaceMethods<WaveInferIndexExprsOpInterface,
       ["initializeIndexExprsForward", "initializeIndexExprsBackward"]>]>,
             WaveArithmeticOpDoc {
@@ -140,6 +141,7 @@ def IterateOp : Op<WaveDialect, "iterate", [
     AttrSizedOperandSegments,
     DeclareOpInterfaceMethods<RegionBranchOpInterface,
         ["areTypesCompatible", "getEntrySuccessorOperands"]>,
+    NoOpElementsPerThreadOpTrait,
     DeclareOpInterfaceMethods<WaveInferIndexExprsOpInterface>]> {
   let summary = "Executes the body repeatedly";
   let description = [{
@@ -249,7 +251,7 @@ def AllocateOp : WaveOp<"allocate"> {
   let hasVerifier = 1;
 }
 
-def ExtractSliceOp : WaveOp<"extract_slice", [WaveInferTypeOpInterface, IdentityTypeInferenceOpTrait, CompatibleOperandsAndResultsOpTrait]> {
+def ExtractSliceOp : WaveOp<"extract_slice", [WaveInferTypeOpInterface, IdentityTypeInferenceOpTrait, CompatibleOperandsAndResultsOpTrait, NoOpElementsPerThreadOpTrait]> {
   let summary = "Extracts a subvector from an n-D tensor";
   let description = [{
     Extracts an n-D subvector from an n-D tensor using k-D offset, size, and
@@ -274,7 +276,7 @@ def ExtractSliceOp : WaveOp<"extract_slice", [WaveInferTypeOpInterface, Identity
 
 def ReadOp : WaveOp<"read", [
     WaveInferTypeOpInterface, IdentityTypeInferenceOpTrait,
-    WaveElementsPerThreadOpInterface, AttrBasedElementsPerThreadOpTrait,
+    DeclareOpInterfaceMethods<WaveElementsPerThreadOpInterface>,
     CompatibleOperandsAndResultsIgnoreSpaceOpTrait,
     WaveInferIndexExprsOpInterface, IdentityIndexExprsOpTrait]> {
   let summary = "Reads from memory";
@@ -328,7 +330,7 @@ def RegisterOp : WaveOp<"register", [
 
 def WriteOp : WaveOp<"write", [
     WaveInferTypeOpInterface, NoOpTypeInferenceOpTrait,
-    WaveElementsPerThreadOpInterface, AttrBasedElementsPerThreadOpTrait,
+    DeclareOpInterfaceMethods<WaveElementsPerThreadOpInterface>,
     CompatibleOperandsAndResultsIgnoreSpaceOpTrait,
     DeclareOpInterfaceMethods<WaveInferIndexExprsOpInterface>]> {
   let summary = "Writes into memory";
diff --git a/water/lib/Dialect/Wave/IR/WaveOps.cpp b/water/lib/Dialect/Wave/IR/WaveOps.cpp
@@ -292,6 +292,57 @@ llvm::FailureOr<mlir::ChangeResult> wave::MmaOp::propagateBackward(
                                            "result", "accumulator", errs);
 }
 
+// Get the MMA result elements per thread for a given MMA kind
+static unsigned getMmaResultElementsPerThreadForMmaKind(mlir::MLIRContext *context, wave::WaveMmaKind kind) {
+  // Get the MMA specification (M, N, K dimensions and element types)
+  wave::WaveMmaSpec spec = wave::WaveMmaKindAttr::getSpec(context, kind);
+
+  // Elements per thread = (M × N) / threads_per_wave
+  // AMD GPU waves have 64 threads
+  constexpr unsigned threadsPerWave = 64;
+  unsigned totalElements = spec.m * spec.n;
+  return totalElements / threadsPerWave;
+}
+
+llvm::FailureOr<mlir::ChangeResult> wave::MmaOp::propagateElementsPerThreadForward(
+    llvm::ArrayRef<wave::ElementsPerThreadLatticeValue> operandElements,
+    llvm::MutableArrayRef<wave::ElementsPerThreadLatticeValue> resultElements,
+    llvm::raw_ostream &errs) {
+  // For MMA, the result elements per thread is determined by the MMA kind, not the operands
+  unsigned expectedElementsPerThread = getMmaResultElementsPerThreadForMmaKind(getContext(), getKind());
+  wave::ElementsPerThreadLatticeValue expectedResult(expectedElementsPerThread);
+
+  // Propagate to result
+  auto joined = wave::ElementsPerThreadLatticeValue::join(expectedResult, resultElements[0]);
+  if (joined.isTop() && !expectedResult.isTop() && !resultElements[0].isTop()) {
+    errs << "mismatched elements per thread for MMA result: expected " << expectedElementsPerThread
+         << " elements per thread for MMA kind " << getKind() << " but got (";
+    resultElements[0].print(errs);
+    errs << ")";
+    return mlir::failure();
+  }
+
+  if (joined != resultElements[0]) {
+    resultElements[0] = joined;
+    return mlir::ChangeResult::Change;
+  }
+
+  return mlir::ChangeResult::NoChange;
+}
+
+llvm::FailureOr<mlir::ChangeResult> wave::MmaOp::propagateElementsPerThreadBackward(
+    llvm::MutableArrayRef<wave::ElementsPerThreadLatticeValue> operandElements,
+    llvm::ArrayRef<wave::ElementsPerThreadLatticeValue> resultElements,
+    llvm::raw_ostream &errs) {
+  // For MMA, operands and result elements per thread may be different
+  // The result is determined by the MMA kind, operands can have their own values
+  // We don't propagate backwards for MMA since operands and result have independent constraints
+  (void)operandElements; // Avoid unused parameter warning
+  (void)resultElements;
+  (void)errs;
+  return mlir::ChangeResult::NoChange;
+}
+
 // Set the value of `lattice` to `newLattice` and return whether a change
 // happened. Note that this does NOT verify whether the lattice change goes into
 // the direction of top or bottom.
@@ -1331,6 +1382,41 @@ LogicalResult ReadOp::verify() {
                                bounds.getMapping());
 }
 
+llvm::FailureOr<mlir::ChangeResult> wave::ReadOp::propagateElementsPerThreadForward(
+    llvm::ArrayRef<wave::ElementsPerThreadLatticeValue> operandElements,
+    llvm::MutableArrayRef<wave::ElementsPerThreadLatticeValue> resultElements,
+    llvm::raw_ostream &errs) {
+  // ReadOp: use AttrBasedElementsPerThreadOpTrait logic for register result
+  // but ignore memory operand (operands[0])
+  std::optional<int64_t> elementsPerThread = getElementsPerThread();
+  if (!elementsPerThread)
+    return mlir::ChangeResult::NoChange;
+
+  // Only propagate to results (register), not from memory operand
+  return wave::detail::checkAndPropagateElementsPerThreadFromConstant(
+      wave::ElementsPerThreadLatticeValue(*elementsPerThread),
+      llvm::ArrayRef<wave::ElementsPerThreadLatticeValue>(), // empty immutable (ignore memory operand)
+      resultElements, "elements_per_thread attribute", "", "result", errs);
+}
+
+llvm::FailureOr<mlir::ChangeResult> wave::ReadOp::propagateElementsPerThreadBackward(
+    llvm::MutableArrayRef<wave::ElementsPerThreadLatticeValue> operandElements,
+    llvm::ArrayRef<wave::ElementsPerThreadLatticeValue> resultElements,
+    llvm::raw_ostream &errs) {
+  // ReadOp: use AttrBasedElementsPerThreadOpTrait logic for register result
+  // but ignore memory operand (operandElements[0])
+  std::optional<int64_t> elementsPerThread = getElementsPerThread();
+  if (!elementsPerThread)
+    return mlir::ChangeResult::NoChange;
+
+  // Only check consistency with results (register), not memory operand
+  return wave::detail::checkAndPropagateElementsPerThreadFromConstant(
+      wave::ElementsPerThreadLatticeValue(*elementsPerThread),
+      resultElements,
+      llvm::MutableArrayRef<wave::ElementsPerThreadLatticeValue>(), // empty mutable (ignore memory operand)
+      "elements_per_thread attribute", "result", "", errs);
+}
+
 //-----------------------------------------------------------------------------
 // RegisterOp
 //-----------------------------------------------------------------------------
@@ -1456,6 +1542,34 @@ llvm::LogicalResult wave::WriteOp::setIndexFromLattices(
   return llvm::success();
 }
 
+llvm::FailureOr<mlir::ChangeResult> wave::WriteOp::propagateElementsPerThreadForward(
+    llvm::ArrayRef<wave::ElementsPerThreadLatticeValue> operandElements,
+    llvm::MutableArrayRef<wave::ElementsPerThreadLatticeValue> resultElements,
+    llvm::raw_ostream &errs) {
+  // WriteOp has no results, so forward propagation is NoChange
+  return mlir::ChangeResult::NoChange;
+}
+
+llvm::FailureOr<mlir::ChangeResult> wave::WriteOp::propagateElementsPerThreadBackward(
+    llvm::MutableArrayRef<wave::ElementsPerThreadLatticeValue> operandElements,
+    llvm::ArrayRef<wave::ElementsPerThreadLatticeValue> resultElements,
+    llvm::raw_ostream &errs) {
+  // WriteOp: use AttrBasedElementsPerThreadOpTrait logic for register operand
+  // but ignore memory operand (operandElements[1])
+  std::optional<int64_t> elementsPerThread = getElementsPerThread();
+  if (!elementsPerThread)
+    return mlir::ChangeResult::NoChange;
+
+  // Only propagate to operands[0] (register), not operands[1] (memory)
+  llvm::MutableArrayRef<wave::ElementsPerThreadLatticeValue> registerOperand =
+      operandElements.take_front(1); // Only operands[0]
+
+  return wave::detail::checkAndPropagateElementsPerThreadFromConstant(
+      wave::ElementsPerThreadLatticeValue(*elementsPerThread),
+      llvm::ArrayRef<wave::ElementsPerThreadLatticeValue>(), // empty immutable (no results)
+      registerOperand, "elements_per_thread attribute", "", "register operand", errs);
+}
+
 //-----------------------------------------------------------------------------
 // YieldOp
 //-----------------------------------------------------------------------------
diff --git a/water/test/Dialect/Wave/propagate-elements-per-thread.mlir b/water/test/Dialect/Wave/propagate-elements-per-thread.mlir
@@ -100,7 +100,7 @@ func.func @missing_elements_per_thread(%mem: !wave.tensor<[@M] of f16, <global>>
 module attributes {wave.normal_form = #wave.normal_form<full_types>} {
 func.func @read_write_conflict(%mem: !wave.tensor<[@M] of f16, <global>>) attributes {wave.hyperparameters = #wave.hyperparameters<{M = 128}>}  {
   %reg = wave.read %mem {elements_per_thread = 4} : (!wave.tensor<[@M] of f16, <global>>) -> !wave.tensor<[@M] of f16, <register>>
-  // expected-error @below {{failed to propagate elements per thread backward: mismatch between elements_per_thread attribute (8) and operand #0 (4)}}
+  // expected-error @below {{failed to propagate elements per thread backward: mismatch between elements_per_thread attribute (8) and register operand #0 (4)}}
   wave.write %reg, %mem {elements_per_thread = 8} : !wave.tensor<[@M] of f16, <register>>, !wave.tensor<[@M] of f16, <global>>
   return
 }
@@ -112,7 +112,7 @@ module attributes {wave.normal_form = #wave.normal_form<full_types>} {
 func.func @read_write_conflict_indirect(%mem: !wave.tensor<[@M] of f16, <global>>) attributes {wave.hyperparameters = #wave.hyperparameters<{M = 128}>}  {
   %reg = wave.read %mem {elements_per_thread = 4} : (!wave.tensor<[@M] of f16, <global>>) -> !wave.tensor<[@M] of f16, <register>>
   %val = wave.exp2 %reg : (!wave.tensor<[@M] of f16, <register>>) -> !wave.tensor<[@M] of f16, <register>>
-  // expected-error @below {{failed to propagate elements per thread backward: mismatch between elements_per_thread attribute (8) and operand #0 (4)}}
+  // expected-error @below {{failed to propagate elements per thread backward: mismatch between elements_per_thread attribute (8) and register operand #0 (4)}}
   wave.write %reg, %mem {elements_per_thread = 8} : !wave.tensor<[@M] of f16, <register>>, !wave.tensor<[@M] of f16, <global>>
   return
 }