SSE指令介紹及其C C 應用

2021-04-09 06:20:56 字數 3938 閱讀 2880

sse是英特爾提出的即mmx之後新一代(當然是幾年前了)cpu指令集,最早應用在piii系列cpu上。現在已經得到了intel piii、p4、celeon、xeon、amd athlon、duron等系列cpu的支援。而更新的sse2指令集僅得到了p4系列cpu的支援,這也是為什麼這篇文章是講sse而不是sse2的原因之一。另乙個原因就是sse和sse2的指令系統是非常相似的,sse2比sse多的僅是少量的額外浮點處理功能、64位浮點數運算支援和64位整數運算支援。

sse為什麼會比傳統的浮點運算更快呢?因為它使用了128位的儲存單元,這對於32位的浮點數來講,是可以存下4個的,也就是說,sse中的所有計算都是一次性針對4個浮點數來完成的,這種批處理當然就會帶來效率的提公升。我們再來回顧一下sse的全稱:stream simd extentions(流simd擴充套件)。simd就是single instruction multiple data,連起來就是「資料流單指令多資料擴充套件」,從名字我們就可以更好的理解sse是如何工作的了。

雖然sse從理論上來講要比傳統的浮點運算會快,但是他所受的限制也很多,首先,雖然他執行一次相當於四次,會比傳統的浮點運算執行4次的速度要快,但是他執行一次的速度卻並沒有想象中的那麼快,所以要體現sse的速度,必須有stream做前提,就是大量的流資料,這樣才能發揮simd的強大作用。其次,sse支援的資料型別是4個32位(共計128位)浮點數集合,就是c、c++語言中的float[4],並且必須是以16位位元組邊界對齊的(稍後會以**來進行闡釋,關於邊界對齊的概念,讀者可以參考論壇上的其它文章,都會有很詳細的解答,我這裡就恕不贅述了)。因此這也給輸入和輸出帶來了不少的麻煩,實際上主要影響sse發揮效能的就是不停的對資料進行複製以適用應它的資料格式。

我是乙個c++程式設計師,對彙編並不很熟,但我又想用sse來優化我的程式,我該怎麼做呢?幸好vc++.net為我們提供了很方便的指令c函式級的封裝和c格式資料型別,我們只需像平時寫c++**一樣定義變數、呼叫函式就可以很好的應用sse指令了。

當然了,我們需要包含乙個標頭檔案,這裡面包括了我們需要的資料型別和函式的宣告:

#include

sse運算的標準資料型別只有乙個,就是:__m128,它是這樣定義的:

typedef struct __declspec(intrin_type) __declspec(align(16)) __m128 __m128;

簡化一下,就是:

struct __m128

float m128_f32[4];

比如要定義乙個__m128變數,並為它賦四個float整數,可以這樣寫:

__m128 s1 = ;

要改變其中第2個(基數為0)元素時可以這樣寫:

s1.m128_f32[2] = 6.0f;

令外我們還會用到幾個賦值的指令,它可以讓我們更方便的使用這個資料結構:

s1 = _mm_set_ps1( 2.0f );

它會讓s1.m128_f32中的四個元素全部賦予2.0f,這樣會比你乙個乙個賦值要快的多。

s1 = _mm_setzero_ps();

這會讓s1中的所有4個浮點數都置零。

一般來講,所有sse指令函式都有3個部分組成,中間用下劃線隔開:_mm_set_ps1

mm表示多**擴充套件指令集 set表示此函式的含義縮寫

ps1表示該函式對結果變數的影響,由兩個字母組成,第乙個字母表示對結果變數的影響方式,p表示把結果做為指向一組資料的指標,每乙個元素都將參與運算,s表示只將結果變數中的第乙個元素參與運算;第二個字母表示參與運算的資料型別。s表示32位浮點數,d表示64位浮點數,i32表示32位定點數,i64表示64位定點數,由於sse只支援32位浮點數的運算,所以你可能會在這些指令封裝函式中找不到包含非s修飾符的,但你可以在mmx和sse2的指令集中去認識它們。

接下來我舉乙個例子來說明sse的指令函式是如何使用的,必須要說明的是我以下的**都是在vc7.1的平台上寫的,不保證對其它如dev-c++、borland c++等開發平台的完全相容。

為了方便對比速度,我會用常歸方法和sse優化兩種寫法寫出,並會用乙個測試速度的類ctimer來進行計時。

這個演算法是對一組float值進行放大,函式scalevalue1是使用sse指令優化的,函式scalevalue2則沒有。我們用10000個元素的float陣列資料來測試這兩個演算法,每個演算法運算10000遍,下面是測試程式和結果:

#include

#include

class ctimer

public:

__forceinline ctimer( void )

queryperformancefrequency( &m_frequency );

queryperformancecounter( &m_startcount );

__forceinline void reset( void )

queryperformancecounter( &m_startcount );

__forceinline double end( void )

static __int64 ncurcount;

queryperformancecounter( (plarge_integer)&ncurcount );

return double( ncurcount * ( *(__int64*)&m_startcount ) ) / double( *(__int64*)&m_frequency );

private:

large_integer m_frequency;

large_integer m_startcount;

void scalevalue1( float *parray, dword dwcount, float fscale )

{dword dwgroupcount = dwcount / 4;

__m128 e_scale = _mm_set_ps1( fscale );

for ( dword i = 0; i < dwgroupcount; i++ )

*(__m128*)( parray + i * 4 ) = _mm_mul_ps( *(__m128*)( parray + i * 4 ), e_scale );

void scalevalue2( float *parray, dword dwcount, float fscale )

for ( dword i = 0; i < dwcount; i++ )

parray[i] *= fscale;

#define arraycount 10000

int __cdecl main()

float __declspec(align(16)) array[arraycount];

memset( array, 0, sizeof(float) * arraycount );

ctimer t;

double dtime;

t.reset();

for ( int i = 0; i < 100000; i++ )

scalevalue1( array, arraycount, 1000.0f );

dtime = t.end();

cout << "use sse:" << dtime << "秒" << endl;

t.reset();

for ( int i = 0; i < 100000; i++ )

scalevalue2( array, arraycount, 1000.0f );

dtime = t.end();

cout << "not use sse:" << dtime << "秒" << endl;

system( "pause" );

return 0;

use sse:0.997817

not use sse:2.84963

這裡要注意一下,我使用了__declspec(align(16))做為陣列定義的修釋符,這表示該陣列是以16位元組為邊界對齊的,因為sse指令只能支援這種格式的記憶體資料。

SSE指令介紹及其C C 應用

sse是英特爾提出的即mmx之後新一代 當然是幾年前了 cpu指令集,最早應用在piii系列cpu上。現在已經得到了intel piii p4 celeon xeon amd athlon duron等系列cpu的支援。而更新的sse2指令集僅得到了p4系列cpu的支援,這也是為什麼這篇文章是講ss...

SSE指令介紹及其C C 應用

sse是英特爾提出的即mmx之後新一代 當然是幾年前了 cpu指令集,最早應用在piii系列cpu上。現在已經得到了intel piii p4 celeon xeon amd athlon duron等系列cpu的支援。而更新的sse2指令集僅得到了p4系列cpu的支援,這也是為什麼這篇文章是講ss...

SSE指令介紹及其C C 應用(1)

sse是英特爾提出的即mmx之後新一代 當然是幾年前了 cpu指令集,最早應用在piii系列cpu上。現在已經得到了intel piii p4 celeon xeon amd athlon duron等系列cpu的支援。而更新的sse2指令集僅得到了p4系列cpu的支援,這也是為什麼這篇文章是講ss...