diff --git a/wolfcrypt/src/sp_x86_64_asm.S b/wolfcrypt/src/sp_x86_64_asm.S index feb766fbf..3d06483bb 100644 --- a/wolfcrypt/src/sp_x86_64_asm.S +++ b/wolfcrypt/src/sp_x86_64_asm.S @@ -39021,13 +39021,6 @@ _sp_256_mont_add_4: andq %rsi, %r11 subq %rsi, %rax sbbq %r10, %rcx - sbbq $0x00, %r8 - sbbq %r11, %r9 - adcq $0x00, %rsi - andq %rsi, %r10 - andq %rsi, %r11 - subq %rsi, %rax - sbbq %r10, %rcx movq %rax, (%rdi) sbbq $0x00, %r8 movq %rcx, 8(%rdi) @@ -39072,13 +39065,6 @@ _sp_256_mont_dbl_4: andq %r11, %r10 subq %r11, %rdx sbbq %r9, %rax - sbbq $0x00, %rcx - sbbq %r10, %r8 - adcq $0x00, %r11 - andq %r11, %r9 - andq %r11, %r10 - subq %r11, %rdx - sbbq %r9, %rax movq %rdx, (%rdi) sbbq $0x00, %rcx movq %rax, 8(%rdi) @@ -39125,13 +39111,6 @@ _sp_256_mont_tpl_4: sbbq %r9, %rax sbbq $0x00, %rcx sbbq %r10, %r8 - adcq $0x00, %r11 - andq %r11, %r9 - andq %r11, %r10 - subq %r11, %rdx - sbbq %r9, %rax - sbbq $0x00, %rcx - sbbq %r10, %r8 movq $0xffffffff, %r9 movq $0xffffffff00000001, %r10 addq (%rsi), %rdx @@ -39144,13 +39123,6 @@ _sp_256_mont_tpl_4: andq %r11, %r10 subq %r11, %rdx sbbq %r9, %rax - sbbq $0x00, %rcx - sbbq %r10, %r8 - adcq $0x00, %r11 - andq %r11, %r9 - andq %r11, %r10 - subq %r11, %rdx - sbbq %r9, %rax movq %rdx, (%rdi) sbbq $0x00, %rcx movq %rax, 8(%rdi) @@ -39196,13 +39168,6 @@ _sp_256_mont_sub_4: andq %rsi, %r11 addq %rsi, %rax adcq %r10, %rcx - adcq $0x00, %r8 - adcq %r11, %r9 - adcq $0x00, %rsi - andq %rsi, %r10 - andq %rsi, %r11 - addq %rsi, %rax - adcq %r10, %rcx movq %rax, (%rdi) adcq $0x00, %r8 movq %rcx, 8(%rdi) @@ -39761,10 +39726,10 @@ L_256_get_entry_64_4_start: movdqa %xmm10, %xmm8 paddd %xmm11, %xmm10 pcmpeqd %xmm9, %xmm8 - movdqa (%rsi), %xmm4 - movdqa 16(%rsi), %xmm5 - movdqa 32(%rsi), %xmm6 - movdqa 48(%rsi), %xmm7 + movdqu (%rsi), %xmm4 + movdqu 16(%rsi), %xmm5 + movdqu 32(%rsi), %xmm6 + movdqu 48(%rsi), %xmm7 addq $0x40, %rsi pand %xmm8, %xmm4 pand %xmm8, %xmm5 @@ -39868,10 +39833,10 @@ L_256_get_entry_65_4_start: movdqa %xmm10, %xmm8 paddd %xmm11, %xmm10 pcmpeqd %xmm9, %xmm8 - movdqa (%rsi), %xmm4 - movdqa 16(%rsi), %xmm5 - movdqa 32(%rsi), %xmm6 - movdqa 48(%rsi), %xmm7 + movdqu (%rsi), %xmm4 + movdqu 16(%rsi), %xmm5 + movdqu 32(%rsi), %xmm6 + movdqu 48(%rsi), %xmm7 addq $0x40, %rsi pand %xmm8, %xmm4 pand %xmm8, %xmm5 @@ -41665,13 +41630,6 @@ L_256_mod_inv_avx2_4_usubv_sub_shr1: vpand %ymm14, %ymm1, %ymm1 vpaddd %ymm5, %ymm0, %ymm0 vpaddd %ymm4, %ymm1, %ymm1 - vpsrad $26, %ymm1, %ymm5 - vpsrad $26, %ymm0, %ymm4 - vpermd %ymm5, %ymm13, %ymm5 - vpand %ymm14, %ymm0, %ymm0 - vpand %ymm14, %ymm1, %ymm1 - vpaddd %ymm5, %ymm0, %ymm0 - vpaddd %ymm4, %ymm1, %ymm1 vpextrd $0x00, %xmm0, %eax vpextrd $0x01, %xmm0, %r8d vpextrd $2, %xmm0, %r10d @@ -41732,13 +41690,6 @@ L_256_mod_inv_avx2_4_vsubu_sub_shr1: vpand %ymm14, %ymm3, %ymm3 vpaddd %ymm5, %ymm2, %ymm2 vpaddd %ymm4, %ymm3, %ymm3 - vpsrad $26, %ymm3, %ymm5 - vpsrad $26, %ymm2, %ymm4 - vpermd %ymm5, %ymm13, %ymm5 - vpand %ymm14, %ymm2, %ymm2 - vpand %ymm14, %ymm3, %ymm3 - vpaddd %ymm5, %ymm2, %ymm2 - vpaddd %ymm4, %ymm3, %ymm3 vpextrd $0x00, %xmm2, %eax vpextrd $0x01, %xmm2, %r8d vpextrd $2, %xmm2, %r10d @@ -41752,19 +41703,14 @@ L_256_mod_inv_avx2_4_vsubu_sub_shr1: vpextrd $0x00, %xmm2, %r14d vpextrd $0x00, %xmm3, %r15d L_256_mod_inv_avx2_4_store_done: - movslq %eax, %rax shlq $26, %rcx addq %rcx, %rax - movslq %r8d, %r8 shlq $26, %r9 addq %r9, %r8 - movslq %r10d, %r10 shlq $26, %r11 addq %r11, %r10 - movslq %r12d, %r12 shlq $26, %r13 addq %r13, %r12 - movslq %r14d, %r14 shlq $26, %r15 addq %r15, %r14 movq %r8, %rcx @@ -43975,12 +43921,12 @@ L_384_get_entry_256_6_start: movdqa %xmm14, %xmm12 paddd %xmm15, %xmm14 pcmpeqd %xmm13, %xmm12 - movdqa (%rsi), %xmm6 - movdqa 16(%rsi), %xmm7 - movdqa 32(%rsi), %xmm8 - movdqa 48(%rsi), %xmm9 - movdqa 64(%rsi), %xmm10 - movdqa 80(%rsi), %xmm11 + movdqu (%rsi), %xmm6 + movdqu 16(%rsi), %xmm7 + movdqu 32(%rsi), %xmm8 + movdqu 48(%rsi), %xmm9 + movdqu 64(%rsi), %xmm10 + movdqu 80(%rsi), %xmm11 addq $0x60, %rsi pand %xmm12, %xmm6 pand %xmm12, %xmm7