google
diff --git a/‎bench/gemm-benchmark.cc‎
Lines changed: 1 addition & 1 deletion b/‎bench/gemm-benchmark.cc‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎build_srcs.bzl‎
Lines changed: 1 addition & 0 deletions b/‎build_srcs.bzl‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎cmake/gen/neonsme2_microkernels.cmake‎
Lines changed: 4 additions & 1 deletion b/‎cmake/gen/neonsme2_microkernels.cmake‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎cmake/gen/neonsme_microkernels.cmake‎
Lines changed: 4 additions & 1 deletion b/‎cmake/gen/neonsme_microkernels.cmake‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎gen/neonsme2_microkernels.bzl‎
Lines changed: 3 additions & 0 deletions b/‎gen/neonsme2_microkernels.bzl‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎gen/neonsme_microkernels.bzl‎
Lines changed: 3 additions & 0 deletions b/‎gen/neonsme_microkernels.bzl‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎include/xnnpack.h‎
Lines changed: 40 additions & 0 deletions b/‎include/xnnpack.h‎
Lines changed: 40 additions & 0 deletions
diff --git a/‎scripts/generate-tests.sh‎
Lines changed: 1 addition & 0 deletions b/‎scripts/generate-tests.sh‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/configs/gemm-config.c‎
Lines changed: 31 additions & 17 deletions b/‎src/configs/gemm-config.c‎
Lines changed: 31 additions & 17 deletions
@@ -1189,7 +1189,7 @@ void GEMMBenchmark(benchmark::State& state,
       const uint32_t mb = min(mc - m, mr);
       gemm(mb, nc, kc * sizeof(xnn_float16),
             input_packed.data() +
-                xnn_x16_pack_lh_offset__neonsme2(m, kc, mr_packed, kr, sr),
+                xnn_x16_pack_lh_offset__neonsme(m, kc, mr_packed, kr, sr),
             w.data() + packed_w_size * buffer_index,
             &c[c_elements * buffer_index], nc * sizeof(xnn_float16),
             sizeof(xnn_float16), &minmax_params);
 
@@ -284,6 +284,7 @@ MICROKERNEL_DEFS = [
     "src/x64-transposec/x64-transposec.inc",
     "src/x8-pack-lh/x8-pack-lh.inc",
     "src/x8-pack-lh/x8-pack-lh-igemm.inc",
+    "src/x16-pack-lh/x16-pack-lh-igemm.inc",
     "src/x8-packq/x8-packq.inc",
     "src/x8-packw/x8-packw.inc",
     "src/x8-transposec/x8-transposec.inc",
 
@@ -10,6 +10,7 @@
 
 
 SET(PROD_NEONSME2_MICROKERNEL_SRCS
+  src/pf16-f16-f16-igemm/pf16-f16-f16-igemm-32x32c2-minmax-neonsme2.c
   src/pf16-gemm/pf16-gemm-1x32c2-minmax-neonsme2.c
   src/pf16-gemm/pf16-gemm-32x32c2-minmax-neonsme2.c
   src/pf32-gemm/pf32-gemm-1x32-minmax-neonsme2.c
@@ -23,7 +24,9 @@ SET(PROD_NEONSME2_MICROKERNEL_SRCS
   src/qp8-f32-qc8w-gemm/qp8-f32-qc8w-gemm-minmax-16x64c4-neonsme2.c
   src/x8-pack-lh/x8-packlh-igemm-neonsme2.c
   src/x8-pack-lh/x8-packlh-neonsme2.c
-  src/x16-pack-lh/x16-packlh-neonsme2.c)
+  src/x16-pack-lh/x16-packlh-igemm-neonsme2.c
+  src/x16-pack-lh/x16-packlh-neonsme2.c
+  src/x32-pack-lh/x32-packlh-neonsme2.c)
 
 SET(NON_PROD_NEONSME2_MICROKERNEL_SRCS)
 
 
@@ -12,8 +12,11 @@
 SET(PROD_NEONSME_MICROKERNEL_SRCS
   src/pf32-gemm/pf32-gemm-1x32-minmax-neonsme.c
   src/pf32-gemm/pf32-gemm-32x32-minmax-neonsme.c
+  src/x16-pack-lh/x16-packlh-igemm-neonsme.c
+  src/x16-pack-lh/x16-packlh-neonsme.c
   src/x32-pack-lh/x32-packlh-neonsme.c)
 
-SET(NON_PROD_NEONSME_MICROKERNEL_SRCS)
+SET(NON_PROD_NEONSME_MICROKERNEL_SRCS
+  src/pf16-f16-f16-igemm/pf16-f16-f16-igemm-32x32c2-minmax-neonsme.c)
 
 SET(ALL_NEONSME_MICROKERNEL_SRCS ${PROD_NEONSME_MICROKERNEL_SRCS} + ${NON_PROD_NEONSME_MICROKERNEL_SRCS})
@@ -6,6 +6,7 @@ Auto-generated file. Do not edit!
 """
 
 PROD_NEONSME2_MICROKERNEL_SRCS = [
+    "src/pf16-f16-f16-igemm/pf16-f16-f16-igemm-32x32c2-minmax-neonsme2.c",
     "src/pf16-gemm/pf16-gemm-1x32c2-minmax-neonsme2.c",
     "src/pf16-gemm/pf16-gemm-32x32c2-minmax-neonsme2.c",
     "src/pf32-gemm/pf32-gemm-1x32-minmax-neonsme2.c",
@@ -19,7 +20,9 @@ PROD_NEONSME2_MICROKERNEL_SRCS = [
     "src/qp8-f32-qc8w-gemm/qp8-f32-qc8w-gemm-minmax-16x64c4-neonsme2.c",
     "src/x8-pack-lh/x8-packlh-igemm-neonsme2.c",
     "src/x8-pack-lh/x8-packlh-neonsme2.c",
+    "src/x16-pack-lh/x16-packlh-igemm-neonsme2.c",
     "src/x16-pack-lh/x16-packlh-neonsme2.c",
+    "src/x32-pack-lh/x32-packlh-neonsme2.c",
 ]
 
 NON_PROD_NEONSME2_MICROKERNEL_SRCS = [
 
@@ -8,10 +8,13 @@ Auto-generated file. Do not edit!
 PROD_NEONSME_MICROKERNEL_SRCS = [
     "src/pf32-gemm/pf32-gemm-1x32-minmax-neonsme.c",
     "src/pf32-gemm/pf32-gemm-32x32-minmax-neonsme.c",
+    "src/x16-pack-lh/x16-packlh-igemm-neonsme.c",
+    "src/x16-pack-lh/x16-packlh-neonsme.c",
     "src/x32-pack-lh/x32-packlh-neonsme.c",
 ]
 
 NON_PROD_NEONSME_MICROKERNEL_SRCS = [
+    "src/pf16-f16-f16-igemm/pf16-f16-f16-igemm-32x32c2-minmax-neonsme.c",
 ]
 
 ALL_NEONSME_MICROKERNEL_SRCS = PROD_NEONSME_MICROKERNEL_SRCS + NON_PROD_NEONSME_MICROKERNEL_SRCS
@@ -3068,6 +3068,46 @@ enum xnn_status xnn_create_convolution2d_nhwc_f16(
   xnn_weights_cache_t weights_cache,
   xnn_operator_t* convolution_op_out);
 
+enum xnn_status xnn_create_convolution2d_nhwc_pf16(
+  uint32_t input_padding_top,
+  uint32_t input_padding_right,
+  uint32_t input_padding_bottom,
+  uint32_t input_padding_left,
+  uint32_t kernel_height,
+  uint32_t kernel_width,
+  uint32_t subsampling_height,
+  uint32_t subsampling_width,
+  uint32_t dilation_height,
+  uint32_t dilation_width,
+  uint32_t groups,
+  size_t group_input_channels,
+  size_t group_output_channels,
+  size_t input_channel_stride,
+  size_t output_channel_stride,
+  const void* kernel,
+  const void* bias,
+  float output_min,
+  float output_max,
+  uint32_t flags,
+  xnn_weights_cache_t weights_cache,
+  xnn_operator_t* convolution_op_out);
+
+enum xnn_status xnn_reshape_convolution2d_nhwc_pf16(
+  xnn_operator_t convolution_op,
+  size_t batch_size,
+  size_t input_height,
+  size_t input_width,
+  size_t* workspace_size,
+  size_t* output_height_out,
+  size_t* output_width_out,
+  pthreadpool_t threadpool);
+
+enum xnn_status xnn_setup_convolution2d_nhwc_pf16(
+  xnn_operator_t convolution_op,
+  void* workspace,
+  const void* input,
+  void* output);
+
 enum xnn_status xnn_reshape_convolution2d_nhwc_f16(
   xnn_operator_t convolution_op,
   size_t batch_size,
 
@@ -50,6 +50,7 @@ tools/generate-gemm-test.py --spec test/qs8-qc4w-gemm-minmax-fp32.yaml --output-
 tools/generate-gemm-test.py --spec test/qs8-qc8w-gemm-minmax-fp32.yaml --output-test test/qs8-qc8w-gemm-minmax-fp32.cc --output-test test/qs8-qc8w-gemm-minmax-fp32-2.cc --output-test test/qs8-qc8w-gemm-minmax-fp32-3.cc --output-bench bench/qs8-qc8w-gemm-fp32.cc &
 
 ### Tests for IGEMM micro-kernels
+tools/generate-gemm-test.py --spec test/pf16-f16-igemm-minmax.yaml --output-test test/pf16-f16-igemm-minmax.cc &
 tools/generate-gemm-test.py --spec test/f16-igemm-minmax.yaml --output-test test/f16-igemm-minmax.cc &
 tools/generate-gemm-test.py --spec test/f16-f32acc-igemm-minmax.yaml --output-test test/f16-f32acc-igemm-minmax.cc &
 
 
@@ -326,27 +326,40 @@ static void init_pf16_gemm_config(void) {
   pf16_gemm_config.bias_element_size = sizeof(xnn_float16);
 #if XNN_ARCH_ARM64 && XNN_ENABLE_KLEIDIAI
   const struct xnn_hardware_config* hardware_config =
-      xnn_init_hardware_config();
+  xnn_init_hardware_config();
   assert(hardware_config != NULL);
-  if (XNN_ENABLE_ARM_SME2 && (hardware_config->arch_flags & xnn_arch_arm_sme2)) {
-    #if XNN_ENABLE_ARM_SME2
-      const size_t mr = xnn_pf16_gemm_minmax_ukernel_32x32c2__neonsme2_get_mr();
-      const size_t nr = xnn_pf16_gemm_minmax_ukernel_32x32c2__neonsme2_get_nr();
-      pf16_gemm_config.arch = xnn_arch_arm_sme2;
-      pf16_gemm_config.minmax.gemm[XNN_MR_TO_INDEX(1)] = XNN_INIT_HMP_GEMM_UKERNEL(xnn_pf16_gemm_minmax_ukernel_1x32c2__neonsme2);
-      pf16_gemm_config.minmax.gemm[XNN_MR_TO_INDEX(mr)] = XNN_INIT_HMP_GEMM_UKERNEL(xnn_pf16_gemm_minmax_ukernel_32x32c2__neonsme2);
-      pf16_gemm_config.init.f16 = xnn_init_f16_minmax_scalar_params;
-      pf16_gemm_config.pack_weights_and_biases = xnn_pack_kai_f16_weights_and_biases;
-      pf16_gemm_config.packed_stride_weights_and_biases = xnn_packed_stride_kai_f16_weights_and_biases;
-      pf16_gemm_config.mr = mr;
-      pf16_gemm_config.mr_packed = mr;
-      pf16_gemm_config.nr = nr;
-      pf16_gemm_config.log2_kr = 1;
-    #endif  // XNN_ENABLE_ARM_SME2
+if ((hardware_config->arch_flags & xnn_arch_arm_sme2)) {
+#if XNN_ENABLE_ARM_SME2
+    const size_t mr = xnn_pf16_gemm_minmax_ukernel_32x32c2__neonsme2_get_mr();
+    size_t nr = xnn_pf16_gemm_minmax_ukernel_32x32c2__neonsme2_get_nr();
+    const size_t nstep_min = 16;
+    pf16_gemm_config.arch = xnn_arch_arm_sme2;
+    pf16_gemm_config.minmax.gemm[XNN_MR_TO_INDEX(1)] = XNN_INIT_HMP_GEMM_UKERNEL(xnn_pf16_gemm_minmax_ukernel_1x32c2__neonsme2);
+    pf16_gemm_config.minmax.gemm[XNN_MR_TO_INDEX(mr)] = XNN_INIT_HMP_GEMM_UKERNEL(xnn_pf16_gemm_minmax_ukernel_32x32c2__neonsme2);
+    pf16_gemm_config.minmax.igemm[XNN_MR_TO_INDEX(mr)] =
+        xnn_init_hmp_packed_igemm_ukernel(
+            (xnn_packed_lhs_igemm_ukernel_fn)
+                xnn_pf16_f16_igemm_minmax_fp16_ukernel_32x32c2__neonsme2);
+    pf16_gemm_config.init.f16 = xnn_init_f16_minmax_scalar_params;
+    pf16_gemm_config.pack_weights_and_biases = xnn_pack_kai_f16_weights_and_biases;
+    pf16_gemm_config.packed_stride_weights_and_biases = xnn_packed_stride_kai_f16_weights_and_biases;
+    pf16_gemm_config.pack_igemm_goki =
+      (xnn_pack_conv_goki_w_fn)xnn_pack_kai_f16_conv_goki_w_sme; // both sme and sme2 use the same packing kernel
+    pf16_gemm_config.pack_igemm_kgo =
+      (xnn_pack_conv_kgo_w_fn)xnn_pack_f16_conv_kgo_w;
+    pf16_gemm_config.mr = mr;
+    pf16_gemm_config.mr_packed = mr;
+    pf16_gemm_config.nr = nr < nstep_min ? nstep_min : nr;
+    pf16_gemm_config.log2_kr = 1;
+#endif
+  } else {
+    /* no action */
   }
-#endif  // XNN_ARCH_ARM64 && XNN_ENABLE_KLEIDIAI
+  assert(pf16_gemm_config.mr <= XNN_MAX_MR);
+  #endif  // XNN_ARCH_ARM64 && XNN_ENABLE_KLEIDIAI
 }
 
+
 static void init_bf16_f32_gemm_config(void) {
   // Common parameters.
   bf16_f32_gemm_config.log2_input_element_size = XNN_LOG2_SIZEOF_BFLOAT16;
@@ -5635,6 +5648,7 @@ const struct xnn_gemm_config* xnn_init_pf16_gemm_config() {
     return NULL;
   }
   XNN_INIT_ONCE(pf16_gemm);
+
   return pf16_gemm_config.mr ? &pf16_gemm_config : NULL;
 }
Original file line number	Diff line number	Diff line change
`@@ -8,10 +8,13 @@ Auto-generated file. Do not edit!`
`8`	`8`	`PROD_NEONSME_MICROKERNEL_SRCS = [`
`9`	`9`	`"src/pf32-gemm/pf32-gemm-1x32-minmax-neonsme.c",`
`10`	`10`	`"src/pf32-gemm/pf32-gemm-32x32-minmax-neonsme.c",`
	`11`	`+ "src/x16-pack-lh/x16-packlh-igemm-neonsme.c",`
	`12`	`+ "src/x16-pack-lh/x16-packlh-neonsme.c",`
`11`	`13`	`"src/x32-pack-lh/x32-packlh-neonsme.c",`
`12`	`14`	`]`
`13`	`15`
`14`	`16`	`NON_PROD_NEONSME_MICROKERNEL_SRCS = [`
	`17`	`+ "src/pf16-f16-f16-igemm/pf16-f16-f16-igemm-32x32c2-minmax-neonsme.c",`
`15`	`18`	`]`
`16`	`19`
`17`	`20`	`ALL_NEONSME_MICROKERNEL_SRCS = PROD_NEONSME_MICROKERNEL_SRCS + NON_PROD_NEONSME_MICROKERNEL_SRCS`