ps2dev
diff --git a/‎.github/workflows/compilation.yml‎
Lines changed: 9 additions & 1 deletion b/‎.github/workflows/compilation.yml‎
Lines changed: 9 additions & 1 deletion
diff --git a/‎.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎Makefile‎
Lines changed: 0 additions & 3 deletions b/‎Makefile‎
Lines changed: 0 additions & 3 deletions
diff --git a/‎Makefile.builds‎
Lines changed: 2 additions & 3 deletions b/‎Makefile.builds‎
Lines changed: 2 additions & 3 deletions
diff --git a/‎include/ps2s/cpu_vector.h‎
Lines changed: 16 additions & 16 deletions b/‎include/ps2s/cpu_vector.h‎
Lines changed: 16 additions & 16 deletions
diff --git a/‎include/ps2s/matrix.h‎
Lines changed: 121 additions & 59 deletions b/‎include/ps2s/matrix.h‎
Lines changed: 121 additions & 59 deletions
@@ -19,4 +19,12 @@ jobs:
 
     - name: Compile project
       run: |
-        make clean all install
+        make -j $(getconf _NPROCESSORS_ONLN) clean
+        make -j $(getconf _NPROCESSORS_ONLN) all
+        make -j $(getconf _NPROCESSORS_ONLN) install
+
+    - name: Compile tests
+      run: |
+        cd tests
+        make -j $(getconf _NPROCESSORS_ONLN) clean
+        make -j $(getconf _NPROCESSORS_ONLN) all
@@ -3,3 +3,4 @@ objs_*
 prebuilddone
 *.o
 *.a
+*.elf
@@ -11,9 +11,6 @@ endif
 # Disabling warnings
 WARNING_FLAGS = -Wno-strict-aliasing -Wno-conversion-null 
 
-# VU0 code is broken so disable for now
-EE_CFLAGS   += $(WARNING_FLAGS) -DNO_VU0_VECTORS -DNO_ASM
-EE_CXXFLAGS += $(WARNING_FLAGS) -DNO_VU0_VECTORS -DNO_ASM
 
 EE_OBJS = \
 	src/core.o \
 
@@ -41,7 +41,6 @@ perf_INCDIRS		:= $(incdirs)
 
 ### native, no vu0 vectors ###
 
-defines			:= NO_VU0_VECTORS
 optflags		:= -ffast-math -O2
 
 # debug_no_vu0
@@ -69,7 +68,7 @@ release_no_vu0_INCDIRS	:= $(incdirs)
 incdirs			:= $(PS2STUFF)/linux/kernel_module
 libdirs			:= /usr/lib
 debug_flags		:= -D_DEBUG -g
-defines			:= PS2_LINUX NO_VU0_VECTORS
+defines			:= PS2_LINUX
 optflags		:= -ffast-math -O2
 
 # linux
@@ -104,7 +103,7 @@ linux_release_PLATFORM	:= linux
 # cross_linux
 BUILDNAMES		+= cross_linux
 cross_linux_INCDIRS	:= $(incdirs)
-cross_linux_DEFINES	:= PS2_LINUX NO_VU0_VECTORS
+cross_linux_DEFINES	:= PS2_LINUX
 cross_linux_DEBUGFLAGS	:= -D_DEBUG -g
 cross_linux_OPTFLAGS	:= -ffast-math -O2
 cross_linux_PLATFORM	:= linux_cross
@@ -70,8 +70,8 @@ class cpu_vec_3 {
             "mtc1    _temp0, _z          # z = value.z \n"
 
             ".endif \n"
-            : "=&r,f _x"(x), "=&r,f _y"(y), "=&r,f _z"(z), "=&r,&r _temp0"(temp0)
-            : "r,r _vec"(vec));
+            : "=&r,&f"(x), "=&r,&f"(y), "=&r,&f"(z), "=&r"(temp0)
+            : "r"(vec));
     }
 
     explicit inline cpu_vec_3(const vec_3 vec) { set(vec.vec128); }
@@ -215,8 +215,8 @@ class cpu_vec_4 {
             "mtc1    _temp0, _w          # w = value.w \n"
 
             ".endif \n"
-            : "=&r,f _x"(x), "=&r,f _y"(y), "=&r,f _z"(z), "=&r,f _w"(w), "=&r,&r _temp0"(temp0)
-            : "r,r _vec"(vec));
+            : "=&r,&f"(x), "=&r,&f"(y), "=&r,&f"(z), "=&r,&f"(w), "=&r"(temp0)
+            : "r"(vec));
     }
 
     explicit inline cpu_vec_4(const vec_4 vec) { set(vec.vec128); }
@@ -335,12 +335,12 @@ cpu_vec_3::operator+(const cpu_vec_3& vec)
 #else
 
     asm(" ### cpu_vec_3 + cpu_vec_3 ### \n"
-        "add.s rx, v0x, v1x \n"
-        "add.s ry, v0y, v1y \n"
-        "add.s rz, v0z, v1z \n"
-        : "=&f rx"(result.x), "=&f ry"(result.y), "=&f rz"(result.z)
-        : "f v0x"(x), "f v0y"(y), "f v0z"(z),
-        "f v1x"(vec.x), "f v1y"(vec.y), "f v1z"(vec.z));
+        "add.s %[rx], %[v0x], %[v1x] \n"
+        "add.s %[ry], %[v0y], %[v1y] \n"
+        "add.s %[rz], %[v0z], %[v1z] \n"
+        : [rx] "=&f"(result.x), [ry] "=&f"(result.y), [rz] "=&f"(result.z)
+        : [v0x] "f"(x), [v0y] "f"(y), [v0z] "f"(z),
+        [v1x] "f"(vec.x), [v1y] "f"(vec.y), [v1z] "f"(vec.z));
 
 #endif
     return result;
@@ -359,12 +359,12 @@ cpu_vec_3::operator-(const cpu_vec_3& vec)
 #else
 
     asm(" ### cpu_vec_3 - cpu_vec_3 ### \n"
-        "sub.s rx, v0x, v1x \n"
-        "sub.s ry, v0y, v1y \n"
-        "sub.s rz, v0z, v1z \n"
-        : "=&f rx"(result.x), "=&f ry"(result.y), "=&f rz"(result.z)
-        : "f v0x"(x), "f v0y"(y), "f v0z"(z),
-        "f v1x"(vec.x), "f v1y"(vec.y), "f v1z"(vec.z));
+        "sub.s %[rx], %[v0x], %[v1x] \n"
+        "sub.s %[ry], %[v0y], %[v1y] \n"
+        "sub.s %[rz], %[v0z], %[v1z] \n"
+        : [rx] "=&f"(result.x), [ry] "=&f"(result.y), [rz] "=&f"(result.z)
+        : [v0x] "f"(x), [v0y] "f"(y), [v0z] "f"(z),
+        [v1x] "f"(vec.x), [v1y] "f"(vec.y), [v1z] "f"(vec.z));
 
 #endif
     return result;
 
@@ -51,24 +51,39 @@ class mat_33 : public mat_x3_template<vec_3> {
 
     void set_identity()
     {
-        asm(" ### mat_33::set_identity ### \n"
-            "vsub		%[col0], %[col0], %[col0] \n"
-            "vsub		%[col1], %[col1], %[col1] \n"
-            "vmr32		%[col2], vf00             \n"
-            "vaddw.x		%[col0], vf00, vf00       \n"
-            "vaddw.y		%[col1], vf00, vf00       \n"
-            : [col0] "=j"(col0),
-            [col1] "=j"(col1),
-            [col2] "=j"(col2));
+        asm __volatile__(
+            "vaddw.x    $vf1, $vf0, $vf0         \n"
+            "vaddw.y    $vf2, $vf0, $vf0         \n"
+            "vmr32      $vf3, $vf0               \n"
+            "qmfc2      %[col0], $vf1            \n"
+            "qmfc2      %[col1], $vf2            \n"
+            "qmfc2      %[col2], $vf3            \n"
+            : [col0] "=r"(col0.vec128), [col1] "=r"(col1.vec128), [col2] "=r"(col2.vec128)
+            :
+            : "memory");
     }
 
     void
     set_scale(vec_3 scale)
     {
         set_zero();
-        col0 = (vec_x)scale;
-        col1 = (vec_y)scale;
-        col2 = (vec_z)scale;
+        // Extract components and set diagonal elements using VU0
+        float sx = (float)vec_x(scale);
+        float sy = (float)vec_y(scale);
+        float sz = (float)vec_z(scale);
+        asm __volatile__(
+            "ctc2       %[sx], $vi21              \n"
+            "vaddi.x    $vf1, $vf0, $I           \n"
+            "ctc2       %[sy], $vi21              \n"
+            "vaddi.y    $vf2, $vf0, $I           \n"
+            "ctc2       %[sz], $vi21              \n"
+            "vaddi.z    $vf3, $vf0, $I           \n"
+            "qmfc2      %[col0], $vf1            \n"
+            "qmfc2      %[col1], $vf2            \n"
+            "qmfc2      %[col2], $vf3            \n"
+            : [col0] "=r"(col0.vec128), [col1] "=r"(col1.vec128), [col2] "=r"(col2.vec128)
+            : [sx] "r"(sx), [sy] "r"(sy), [sz] "r"(sz)
+            : "memory");
     }
 
     void
@@ -219,25 +234,26 @@ class mat_33 : public mat_x3_template<vec_3> {
         vec128_t result, temp0, temp1, temp2, ones;
 
         asm("### mat_33 trans_mult vec_3 ### \n"
-            "vmul		%[temp0], col0], %[vec] \n"
-            "vmaxw		%[ones], vf00, vf00 \n"
-            "vmul		%[temp1], %[col1], %[vec] \n"
-            "vmul		%[temp2], %[col2], %[vec] \n"
-            "vadday.x	ACC, %[temp0], %[temp0] \n"
-            "vmaddz.x	%[result], %[ones], %[temp0] \n"
-            "vaddax.y	ACC, %[temp1], %[temp1] \n"
-            "vmaddz.y	%[result], %[ones], %[temp1] \n"
-            "vaddax.z	ACC, %[temp2], %[temp2] \n"
-            "vmaddy.z	%[result], %[ones], %[temp2] \n"
-            : [result] "=&j"(result),
-            [temp0] "=&j"(temp0),
-            [temp1] "=&j"(temp1),
-            [temp2] "=&j"(temp2),
-            [ones] "=&j"(ones), "=r"(vu0_ACC)
-            : "j col0"(col0),
-            "j col1"(col1),
-            "j col2"(col2),
-            "j vec"(vec));
+            "qmtc2      %[col0], $vf10        \n"
+            "qmtc2      %[col1], $vf11        \n"
+            "qmtc2      %[col2], $vf12        \n"
+            "qmtc2      %[vec], $vf13         \n"
+            "vmul       $vf14, $vf10, $vf13   \n"
+            "vmaxw      $vf15, $vf0, $vf0     \n"
+            "vmul       $vf16, $vf11, $vf13   \n"
+            "vmul       $vf17, $vf12, $vf13   \n"
+            "vadday.x   $ACC, $vf14, $vf14    \n"
+            "vmaddz.x   $vf14, $vf15, $vf14   \n"
+            "vaddax.y   $ACC, $vf16, $vf16    \n"
+            "vmaddz.y   $vf14, $vf15, $vf16   \n"
+            "vaddax.z   $ACC, $vf17, $vf17    \n"
+            "vmaddy.z   $vf14, $vf15, $vf17   \n"
+            "qmfc2      %[result], $vf14      \n"
+            : [result] "=&r"(result), "=r"(vu0_ACC)
+            : [col0] "r"(col0.vec128),
+            [col1] "r"(col1.vec128),
+            [col2] "r"(col2.vec128),
+            [vec] "r"(vec.vec128));
 
         return vec_3(result);
     }
@@ -422,7 +438,7 @@ class mat_43 : public mat_x3_template<vec_4> {
             "vadday.x	ACC, %[temp0], %[temp0] \n"
             "vmaddz.x	%[result], %[ones], %[temp0] \n"
             "vaddax.y	ACC, %[temp1], %[temp1] \n"
-            "vmaddz.y	%[result, %[ones], %[temp1] \n"
+            "vmaddz.y	%[result], %[ones], %[temp1] \n"
             "vaddax.z	ACC, %[temp2], %[temp2] \n"
             "vmaddy.z	%[result], %[ones], %[temp2] \n"
             : [result] "=&j"(result),
@@ -742,43 +758,89 @@ class mat_44 : public mat_x4_template<vec_4> {
 
     void set_identity()
     {
-        asm(" ### mat_44::set_identity ### \n"
-            "vsub	%[col0], %[col0], %[col0] \n"
-            "vsub	%[col1], %[col1], %[col1] \n"
-            "vmr32	%[col2], vf00 \n"
-            "vmove	%[col3], vf00 \n"
-            "vaddw.x	%[col0], vf00, vf00 \n"
-            "vaddw.y	%[col1], vf00, vf00 \n"
-            : [col0] "=j"(col0),
-            [col1] "=j"(col1),
-            [col2] "=j"(col2),
-            [col3] "=j"(col3));
+        asm __volatile__(
+            "vaddw.x    $vf1, $vf0, $vf0         \n"
+            "vaddw.y    $vf2, $vf0, $vf0         \n"
+            "vmr32      $vf3, $vf0               \n"
+            "vmove      $vf4, $vf0               \n"
+            "qmfc2      %[col0], $vf1            \n"
+            "qmfc2      %[col1], $vf2            \n"
+            "qmfc2      %[col2], $vf3            \n"
+            "qmfc2      %[col3], $vf4            \n"
+            : [col0] "=r"(col0.vec128), [col1] "=r"(col1.vec128), [col2] "=r"(col2.vec128), [col3] "=r"(col3.vec128)
+            :
+            : "memory");
     }
 
     void
     set_scale(vec_3 scale)
     {
-        set_identity();
-        col0 = (vec_x)scale;
-        col1 = (vec_y)scale;
-        col2 = (vec_z)scale;
+        set_zero();
+        // Extract components and set diagonal elements using VU0
+        float sx = (float)vec_x(scale);
+        float sy = (float)vec_y(scale);
+        float sz = (float)vec_z(scale);
+        asm __volatile__(
+            "ctc2       %[sx], $vi21              \n"
+            "vaddi.x    $vf1, $vf0, $I           \n"
+            "ctc2       %[sy], $vi21              \n"
+            "vaddi.y    $vf2, $vf0, $I           \n"
+            "ctc2       %[sz], $vi21              \n"
+            "vaddi.z    $vf3, $vf0, $I           \n"
+            "vmove      $vf4, $vf0               \n"
+            "qmfc2      %[col0], $vf1            \n"
+            "qmfc2      %[col1], $vf2            \n"
+            "qmfc2      %[col2], $vf3            \n"
+            "qmfc2      %[col3], $vf4            \n"
+            : [col0] "=r"(col0.vec128), [col1] "=r"(col1.vec128), [col2] "=r"(col2.vec128), [col3] "=r"(col3.vec128)
+            : [sx] "r"(sx), [sy] "r"(sy), [sz] "r"(sz)
+            : "memory");
     }
 
     void
     set_scale(vec_4 scale)
     {
         set_identity();
-        col0 = (vec_x)scale;
-        col1 = (vec_y)scale;
-        col2 = (vec_z)scale;
-        col3 = (vec_w)scale;
+        // Extract components and set diagonal elements using VU0
+        float sx = (float)vec_x(scale);
+        float sy = (float)vec_y(scale);
+        float sz = (float)vec_z(scale);
+        float sw = (float)vec_w(scale);
+        asm __volatile__(
+            "vsub       $vf1, $vf0, $vf0         \n"
+            "vsub       $vf2, $vf0, $vf0         \n"
+            "vsub       $vf3, $vf0, $vf0         \n"
+            "vsub       $vf4, $vf0, $vf0         \n"
+            "ctc2       %[sx], $vi21              \n"
+            "vaddi.x    $vf1, $vf0, $I           \n"
+            "ctc2       %[sy], $vi21              \n"
+            "vaddi.y    $vf2, $vf0, $I           \n"
+            "ctc2       %[sz], $vi21              \n"
+            "vaddi.z    $vf3, $vf0, $I           \n"
+            "ctc2       %[sw], $vi21              \n"
+            "vmuli.w    $vf4, $vf0, $I           \n"
+            "qmfc2      %[col0], $vf1            \n"
+            "qmfc2      %[col1], $vf2            \n"
+            "qmfc2      %[col2], $vf3            \n"
+            "qmfc2      %[col3], $vf4            \n"
+            : [col0] "=r"(col0.vec128), [col1] "=r"(col1.vec128), [col2] "=r"(col2.vec128), [col3] "=r"(col3.vec128)
+            : [sx] "r"(sx), [sy] "r"(sy), [sz] "r"(sz), [sw] "r"(sw)
+            : "memory");
     }
 
     void
     set_translate(vec_3 xlate_amount)
     {
         set_identity();
-        col3 = xlate_amount;
+        // Set translation in col3, preserving w=1 from set_identity
+        float tx = (float)vec_x(xlate_amount);
+        float ty = (float)vec_y(xlate_amount);
+        float tz = (float)vec_z(xlate_amount);
+        col3.set_x(tx);
+        col3.set_y(ty);
+        col3.set_z(tz);
+        // w should already be 1.0 from set_identity, but ensure it
+        col3.set_w(1.0f);
     }
 
     void
@@ -1377,7 +1439,7 @@ class transform_t {
             " ### transform_t * vector_t ### \n"
             "vmulax	ACC, %[col0], %[vec]		\n"
             "vmadday	ACC, %[col1], %[vec]		\n"
-            "vmaddz	%[result], %[col2, %[vec]	\n"
+            "vmaddz	%[result], %[col2], %[vec]	\n"
             : [result] "=&j"(result), "=r"(vu0_ACC)
             : [vec] "j"(vec),
             [col0] "j"(col0), [col1] "j"(col1), [col2] "j"(col2));
@@ -1761,7 +1823,7 @@ mat_33::inverse() const
         "vaddx.y	%[temp], vf00], %[inv2]			# Do an in-place transpose, produces determinant(R)*Rinv \n"
         "vadd.xz	%[temp], vf00], %[inv1] \n"
         "vaddy.x	%[inv1], vf00], %[inv0] \n"
-        "vdiv		Q, vf00w, %[determinantx]		# Q = 1/determinant(R) \n"
+        "vdiv		Q, vf00w, %[determinant]x		# Q = 1/determinant(R) \n"
         "vaddy.z	%[inv1], vf00, %[inv2] \n"
         "vaddz.x	%[inv2], vf00, %[inv0] \n"
         "vaddy.z	%[inv0], vf00, %[temp] \n"
@@ -1844,10 +1906,10 @@ mat_33::mult_tilde(vec_3 vec) const
     mat_33 result;
     asm("### mat_33 mult_tilde vec_3 ### \n"
         "vmulaz	ACC, %[col1], %[vec] \n"
-        "vmsuby	%[res0], %[col2, %[vec] \n"
-        "vmulax	ACC, %[col2, %[vec] \n"
+        "vmsuby	%[res0], %[col2], %[vec] \n"
+        "vmulax	ACC, %[col2], %[vec] \n"
         "vmsubz	%[res1], %[col0], %[vec] \n"
-        "vmulay	ACC, %[col0, %[vec] \n"
+        "vmulay	ACC, %[col0], %[vec] \n"
         "vmsubx	%[res2], %[col1], %[vec] \n"
         : [res0] "=&j"(result.col0), [res1] "=&j"(result.col1), [res2] "=&j"(result.col2), "=r"(vu0_ACC)
         : [col0] "j"(col0), [col1] "j"(col1), [col2] "j"(col2), [vec] "j"(vec));
@@ -2648,7 +2710,7 @@ transform_t::inverse() const
         [inv1] "=&j"(result.col1),
         [inv2] "=&j"(result.col2),
         [temp] "=&j"(temp),
-        [determinant] "=&j"(determinant), "=r"(vu0_ACC), "=j"(vu0_Q)
+        [determinant] "=&j"(determinant), "=r"(vu0_ACC)
         : [col0] "j"(col0),
         [col1] "j"(col1),
         [col2] "j"(col2));
@@ -2669,7 +2731,7 @@ transform_t::inverse() const
         [inv2] "+j"(result.col2),
         [inv3] "=&j"(result.col3),
         "=r"(vu0_ACC)
-        : [col3] "j"(col3), "j"(vu0_Q));
+        : [col3] "j"(col3));
     return result;
 }
-Original file line number
+Diff line change
 prebuilddone
 *.o
 *.a
 +*.elf