döngünün 4 kısmi toplam oluşturmak ve daha sonra, sadece döngü sonra, örneğin 4 elemanları yatay olarak özetlemek
#include <cassert>
#include <cstdint>
#include <emmintrin.h>
float vsum(const float *a, int n)
{
float sum;
__m128 vsum = _mm_set1_ps(0.0f);
assert((n & 3) == 0);
assert(((uintptr_t)a & 15) == 0);
for (int i = 0; i < n; i += 4)
{
__m128 v = _mm_load_ps(&a[i]);
vsum = _mm_add_ps(vsum, v);
}
vsum = _mm_hadd_ps(vsum, vsum);
vsum = _mm_hadd_ps(vsum, vsum);
_mm_store_ss(&sum, vsum);
return sum;
}
Not: Yukarıdaki örnekte a
16 bayt hizalanmış olması ve a
hizalama sonra _mm_loadu_ps
yerine _mm_load_ps
kullanımı garanti edilemez ise n
4 bir katı olmalıdır. n
'un 4'ün katları olması garanti edilmezse, kalan tüm öğeleri biriktirmek için işlevin sonuna bir skaler döngü ekleyin.
Bir şey denediniz mi? – harold
Gerçekten oluşturulan koda baktınız mı? En azından gcc'le ilgili deneyimim, mümkün olduğunda SSE talimatlarının yapılması konusunda oldukça iyi bir iş çıkarmasıdır - ancak -O3 gerektirebilir. –