«AMD» سالها است از نظر کارایی در حوزه معماری x86 پشت سر Intel قرار گرفته است. از زمان معرفی اولین پردازنده Core 2 در سال 2006، AMD هیچگاه نتوانست روزهای خوش پردازندههای Athlon 64 و Athlon 62 X2 را تکرار کند. اما در عوض با کاهش قیمتها و رقابتی وسیع در محدوده ریزپردازندههای زیر 200 دلار، جایگاه خود را حفظ کرد. این استقامت AMD بیشتر مدیون استراتژی «هستههای بیشتر در ازای قیمت کمتر» بود. AMD به خاطر قیمتگذاریهای هوشمندانه بر روی اجزای 3 و 6 هستهای، برای کسانی که نیاز به تعداد زیادی هسته داشتند، ارزشمندتر از گذشته شد.
در این مقاله سعی می کنیم که با تشریح معماری پردازنده نسل جدید، برتری ها و قابلیت های جدید آن را بررسی کنیم. همچنین یادآور می شویم که از اصطلاحات تخصصی زیادی استفاده شده و مطالب دارای سطح علمی متوسط و پیشرفته می باشند و تلاش شده در ابتدای بکار بردن هر اصطلاح جدید توضیح مختصری نیز در رابطه با آن عنوان شود، اما خوانندگانی که تجربه و اطلاعات محدودی دارند نیز می توانند برای اطلاع از نتایج بررسیها به بخش “عملکرد در بازیها” مراجعه کنند.
سری پردازندههای FX,«AMD» سالها است از نظر کارایی در حوزه معماری x86 پشت سر Intel قرار گرفته است. از زمان معرفی اولین پردازنده Core 2 در سال 2006، AMD هیچگاه نتوانست روزهای خوش پردازندههای Athlon 64 و Athlon 62 X2 را تکرار کند. اما در عوض با کاهش قیمتها و رقابتی وسیع در محدوده ریزپردازندههای زیر 200 دلار، جایگاه خود را حفظ کرد. این استقامت AMD بیشتر مدیون استراتژی «هستههای بیشتر در ازای قیمت کمتر» بود. AMD به خاطر قیمتگذاریهای هوشمندانه بر روی اجزای 3 و 6 هستهای، برای کسانی که نیاز به تعداد زیادی هسته داشتند، ارزشمندتر از گذشته شد.
با این وجود، اخیرا Intel توانست کارایی هر هسته را با عرضه Sandy Bridge بالاتر ببرد، بدین ترتیب هرچه تعداد هستهها بیشتر میشود، توصیه کردن پردازندههای معادل خانواده AMD هم سخت تر میشود. از طرفیAMD سعی میکند که برای کسب اعتبار، توجه کاربران را به عملکرد خوب پردازندههای خود در برنامههای Single Threaded معطوف کند اما این کار فروش کامپیوترهای Desktop پرقدرت را سخت تر میکند. مدتی است که AMD به یک انقلاب در معماری پردازندهها نیاز دارد تا بتواند به بازار کامپیوترهای پرقدرت تسلط پیدا کند و از طرفی کمبودهای مشتریان کامپیوترهای معمولی را یادآوری کند. اینک پس از انتظاری طولانی، به آن معماری جدید رسیدهایم؛ خانمها و آقایان، «بولدوزر» آمده است. (لقب پردازشگرهای نسل بعد AMD),معرفی ,
فرکانس چیپست پل شمالی (North Bridge) و Cache سطح 3 بین 2.0 گیگاهرتز و 2.2 گیگاهرتز متناوب است. همچنین دامنه TDP (توان طراحی حرارتی) بین 95 وات تا 125 وات قرار دارد و FX-8120 در هر دو ورژن 125 وات و 95 وات ارائه میشود.
طرح ساخت «بولدوزر» یکتا است. مدلهای 4 و 6 هستهای در واقع از هستههای غیرفعال شده طرح اصلی تشکیل شدهاند. البته AMD اذعان کرده است که دیگر آنلاک کردن هستهها در قطعات این طرح، امکان پذیر نخواهد بود.
از طرفی شکاف بزرگ در سرعت clock بین پردازندههای 8150 و 8120 نگران کننده است. معمولا شیب تغییرات فرکانس ثابت است اما در عمل تفاوت 16 درصدی بین دو SKU، نشانگر مشکلات ساخت پردازنده در فرکانسهای بالا و محدود بودن میزان پردازش است. حداقل در نسخه 8 هستهای که اینچنین است.
بدون در نظر گرفتن قلب 4 و 6 هستهای «بولدوزر»، تنها پردازنده از سری FX که میتواند سرعت کلاک 3.3 گیگاهرتزی پردازنده Phenom II X6 1100T را پشت سر بگذارد، 8150ّFX- است. حال اگر قطعات 4 هستهای Phenom II را به حساب بیاوریم، میبینیم که تنها 2 قطعه از «بولدوزر» با سرعت بیشتری از Phenom II X4 980 عرضه میشوند. هرچند تایید شده است که با کمک Turbo core فرکانس بالاتر میرود، اما این فرکانسهای پایه کم، مشکلساز هستند. برای یک معماری که قرار بود سرعت کلاک پیشینیان خود را 30% بالاتر ببرد، به نظر نمیرسد که «بولدوزر» حتی نزدیک آن سطح هم شده باشد.
در ضمن باید بدانیم که تمامی پردازندههای سری FX، آنلاک شده بفروش میرسند،در نتیجه Overclock کردن آنها بسیار راحتتر شده است.,سازگاری با مادربورد,AMD مشخص کرد که سری FX تنها بر روی مادربوردهای Socket-AM3+ استفاده میشود. با این وضعیت، دارندگان مادربوردهای استاندارد AM3 ممکن است کمی بدشانس باشند، اگرچه شرکتهای سازنده مادربرد میتوانند بردهای خود را برای استفاده بولدوزر آماده کنند. بههرحال AMD تنها از مادربوردهای AM3+ که قابلیت پشتیبانی از BIOS/UEFI هم دارند، رسما پشتیبانی میکند.,
AMD شش درگاه SATA با سرعت 6Gb/sبرای چیپست 990FX تعبیه کرده، که نسبت به دو درگاه مرسوم سری 6 اینتل، یک قدم رو به جلوی بسیار بزرگ حساب میشود. همچنین در «بولدوزر» الگوریتم تصحیح خطای حافظه Unbuffered ECC برای کسانی که امنیت بیشتری میخواهند، قابل استفاده شده است؛ این یکی دیگر از قابلیتهایی است که در چیپستهای سری 6 از Intel پشتیبانی نشده بود.,
برای نصب کردن کافی است ماژول خنک کننده را با یک bracket به socket پردازنده و رادیاتور را به کیس خود وصل کنید. رادیاتور با 2 فن 120 میلیمتری (که در جعبه قرار داده شده است) خنک میشود.
,
,چشمانداز,برای اولین بار، AMD به برنامههای بلندمدت خود نزدیک شده است. چند روز پیش، AMD چشمانداز 4 سال آینده پردازشگرهای خود را منتشر نمود. نام این پردازشگرها با کدهای شناسایی، در عکس زیر آمده اند:,
سری «Steamroller» در سال 2013 خواهد آمد، و باز هم با افزایش کارایی (احتمالا در تعداد و سطح هستهها) 10 تا 15 درصدی همراه خواهد بود. سری«Excavator» هم همین کار را در سال 2014 تکرار خواهد کرد. AMD عقیده دارد که این کارآمدتر کردنها برای همپا جلو آمدن با Intel کافی است، اما برای قضاوت زود است و باید ببینم آمار بررسی «بولدوزر» چه اطلاعاتی به ما میدهد.
نکته مهم دیگر در باره چشمانداز AMD این است که همزمان با قرار دادن شرکت در یک ریتم سالیانه تجاری، تعامل خود را با بخش GPU آنها هم حفظ میکند. با این که AMD درباره مشکلات سر راه پردازندههای خود صحبت نمیکند، اما به نظر میرسد که AMD بالاخره جوابی برای رقابت با زمانبندی معروف Tick -Tock شرکت Intel برای معرفی پردازنده ها پیدا کرده است.
,معماری,معماری بولدوزر,ما، طبق رسم همیشگی، قصد داریم که نقد خود را از بخش Front end (قسمت کوچکی که وظیفهاش برقراری ارتباط با host یا وسایل جانبی است) «بولدوزر» شروع کنیم. در «بولدوزر»، واحد منطق «اخذ و رمزگشایی» در هر ماژول بین 2 هسته Integer به اشتراک گذاشته شده است. وظیفه این واحد منطق شامل گرفتن دستورات بعدی Thread یا بند در حال اجرا(کوچکترین واحد پردازشی داده ها که قابل زمانبندی توسط سیستم عامل باشد)، رمزگشایی دستورات x86 به فرمت داخلی AMD و سپس واگذار کردن آنها به سختافزار تعیین شده برای اجرا است.
در «بولدوزر» AMD بخش Front end «سری K8» را عریض تر از گذشته کرده است. حال هر ماژول میتواند همزمان عملیات اخذ و رمزگشایی را برای 4 دستور x86 موجود در یک Thread، انجام دهد و این کار را بدون کاهش ذرهای از قدرت رمزگشایی آنها عملی میکند. از طرفی باید به یاد داشته باشیم که این ماژولی که ما از آن سخن میگوییم، نمایانگر دو هسته است. تک تک ماژولهای «بولدوزر» میتوانند همگام با سرعت کلاک بین Threadها جابجا شوند.,
علی رغم این که هر ماژول، واحد «منطق اخذ و رمزگشایی» دارد و AMD هر ماژول را 2 هسته به حساب میآورد و هستهها کاملا یکسان هستند، باز هم Phenom II قدیمی سریعتر از FX عمل اخذ/رمزگشایی را انجام میدهد. تئوری AMD این است که شرایطی که در آن محدودیت مرحله Fetch/Decode وجود دارد آنقدر کم پیش می آید که به اشتراک گذاری سخت افزار را توجیه می کند. بسیاری از دستورات ممکن است چندین چرخه را برای رمزگشایی طی کنند؛ جابجایی هر چرخه بین Thread ها باعث میشود که عملیات Front end بهتر بهینهسازی شود. خیلی دردناک است که Front end قوی، خود به یک عامل محدود کننده تبدیل شود.
از دید بالاتر، مقایسه معماری FX با معماری Core از Intel نشان میدهد که AMD در اینجا در موضع ضعف است. در لیست محصولات High-end، جایی که Intel با Hyper threading پا به میدان گذاشته است، AMD هیچ مهرهای ندارد که بتواند مثل Intel در هر کلاک، دو دستور را با هم اجرا کند. حتی اگر با محصولات قبلی Intel (که Hyper Threading نداشته اند) هم مقایسه کنیم، باز هم مشخص نیست که کدام یک از پردازندهها پیشی گرفته است. Intel توانسته است که در هر کلاک و در هر لحظه، با قدرت بیشتری رمزگشایی کند، هرچند ممکن است به خاطر ناتوانی در اخذ دادهها از صفهای متعدد، کمی لطمه ببیند.
بعد از اعمال تغییر در واحد رمزگشایی، AMD به سراغ عملیات مخصوصی رفت و آنها را با هم ترکیب کرد تا به عنوان یک عملیات مسنجم و مستقل عمل کنند. دقیقا شبیه همان کاری که Intel با تکنیک Micro Ops Fusion خود انجام داد و برای اولین بار در سال 2003 در پردازنده Banias به کار برد. عملیات مقایسه-انشعاب (= branch = دستورالعملی که به کامپیوتر میگوید که به قسمت دیگر برنامه پرش کند) و آزمایش-انشعاب و چندین عملیات دیگر میتوانند در «بولدوزر» با هم ترکیب شوند و کارایی بخش back end را افزایش دهند. این قابلیت در Phenom II امکان پذیر نبود و قطعا میزان IPC (روشهای مبادله داده بین چندین بند یا Thread ) را بالاتر میبرد.,یک branch predictor مستقل,AMD هنوز اطلاعات زیادی از ساختار سخت افزار «branch predictor» (یک واحد که مسیر انشعابها را حدس میزند) در «بولدوزر» فاش نکرده اما بد نیست به یک پیشرفت مهم اشاره کنیم: از این به بعد branch predictor کاملا مستقل از Front end عمل میکند.,
مانند Phenom II، شاخهها و سختافزار اخذ در Front end قرار گرفتهاند. هرچند در Phenom II کوچکترین تاخیر در قسمت اخذ داده (به طور مثال، اخذ دادهای که داخل Cache وجود نداشته است) باعث میشد که کل pipeline –که branch predictor هم جزوی از آن است- از کار بیفتد. به همین دلیل، «بولدوزر» branch predictor را از قسمت اخذ (fetch pipeline) جدا کرده است. بدین ترتیب، اگر هرگونه تاخیری در فرآیند اخذ صورت گیرد، branch predictor اجازه دارد که به کارش ادامه دهد و پیشبینیهای بعدی خود را انجام دهد تا صف دادهها پر شود.,پیشرفت واحدهای Scheduling و Execution,همزمان با معرفی Sandy Bridge توسط Intel، شرکت AMD هم با «بولدوزر» به نوع جدیدی از register (حافظه کوچکی که قسمتی از دادههای موقت کامپیوتر در آن ذخیره میشود) فیزیکی مهاجرت کرد. حال دادهها فقط در یک register فیزیکی ذخیره میشوند و به وسیله Pointerها(متغیرهایی که دادهها را به متغیرهای دیگر ارجاع میدهند) به PRF مشایعت میشوند و همزمان دیگر عملیاتها نیز در engine Execution به مسیر خود ادامه میدهند. این تغییرات فقط برای جلوگیری از به هدر رفتن توان کامپیوتر در عملیاتی مثل Copy کردن است.,
انتظار ما این بود که هرچقدر ساختارهای تغذیهکننده هستههای integer بزرگتر میشود، AMD بتواند استفاده بیشتری از آنها ببرد. AMD روی کاعذ موفق عمل کرد و توانست عملیاتهای integer بیشتری نسبت به Phenom II اجرا کند هر چند هنوز برای آن محدودهای قائل میشود.,هستههای FP مشترک,هر ماژول «بولدوزر» میتواند برای حداکثر دو بند، یک هسته FP داشته باشد. یعنی این که اگر تنها یک بند FP موجود بود، برای اجرای آن سختافزار اجرای FP اجازه دارد از تمام توانش استفاده کند اما در غیر این صورت باید منابع خود را بین دو بند به اشتراک بگذارد.,
کافیست به این نمودار Cinebench 11.5 نگاه کنیم تا از این عملکرد نوسانی در حجمهای Multi-threaded (چند بندی) مطمئن شویم:,BBB.png,همانطور که در نمودار بالا مشخص است، علی رغم افزایش 9درصدی سرعت پایه کلاک (که با حساب کردن هسته turbo بیشتر هم میشود) این پردازنده 8 هستهای تنها 2٪ بالاتر از Phenom II شش هستهای بهتر عمل میکند. با این اوصاف پردازنده Phenom II برتری مشخصی در این تست داشته است و نشان داد که 50٪ بهتر از «بولدوزر» میتواند دستورات SSE2/3 و x87 را اجرا کند.
از زمان عرضه Phenom II X6 پیشرفت عمده AMD در workloadهای سنگین، به خصوص در FP بوده است. در حقیقت «بولدوزر» یک قدم رو به عقب محسوب میشود و در نتیجه میبینیم که در حجمهای ثابت کار، اگر نسبت به Phenom II X6 یکسان عمل نکند، حتما ضعیفتر از آن خواهد بود.
و اگر با Sandy bridge مقایسه کنیم «بولدوزر» فقط 2 برتری در عملکرد FP دارد: یکی پشتیبانی از FMA و دیگری بازده بیشتر در 128Bit AVX. هرچند که دیگر کدهای بسیار کمی هستند که از دستورات FMA استفاده میکنند، اما نمیشود از ابهت128bit AVX گذشت.
,سلسله مراتب Cache و زیرمجموعههای حافظه,هر هسته integer یک حافظه سطح L1 دارد و هسته مشترک FP حجم loadها و storeهای (موجودیهای) خود را از طریق یکی از این دو هسته integer ارسال میکند؛ مثل طرز کار Phenom II اما با این تفاوت که اینجا به جای یک هسته، از دو هسته integer استفاده میشود. «بولدوزر» حال میتواند load و storeهای کاملا از کار افتاده را دوباره فعال کند و از این نظر نسبت به Phenom II و معماریهای Intel پیشرفت کرده است. در این پردازنده، Instruction cache سطح L1 و L2 با کل ماژول به اشتراک گذاشته شده است.
Instruction cache یک حافظه بزرگ 64KB است که از نظر اندازه شبیه به اندازه حافظه سطح L1 پردازنده Phenom II است ولی در «بولدوزر» توسط هستههای بیشتری به اشتراک گذاشته شده است. پردازنده Phenom II چهار هستهای مقدار 256KB حافظه سطح L1 داشت اما حالا هر 4 هسته «بولدوزر» تنها نصف این مقدار را دارند. همچنین حافظه دادهای «بولدوزر» بسیار کمتر از پیشینیان خود است، برای مثال Phenom II یک D-Cache با 64KB برای هر هسته داشت اما بولدوزر این مقدار را به 16KB کاهش داده است.,
همچنین یک حافظه 8MB سطح L3 نیز وجود دارد که در هر چیپ، بین تمام ماژولها تقسیم شده است. در تجسم اولیه AMD، قرار بود که تمام قطعات desktop با حافظه سطح L3 عرضه شوند. هرچند AMD نشان داد که حافظه سطح L3 تنها برای Server Workloads مفید است و بنابراین ممکن است در آینده فقط در محصولات جانبی «بولدوزر» استفاده شود و زمینه را برای حذف کامل آن فراهم کند.
,
معمارهای AMD میخواستند که تعداد gateهای کمتری در هر pipeline stage به وجود آورند، زیرا با کاهش این مقدار، زمان کمتری در هر stage گذرانده میشود و در نتیجه فرکانس پردازنده بالاتر میرود. اگر این طرح به گوش شما آشنا است، به این خاطر است که دلیل Intel برای ساخت Pentium 4 نیز همین بود.
اما تفاوت «بولدوزر» در این است که طراحی AMD برعکس P4 سرسختانه برای افزایش فرکانس تلاش نمیکند، بلکه تنها به دنبال کاهش تعداد Gateهای هر stage است. طبق گفته AMD، سیستم سابق باعث بروز مشکلاتی در مدیریت مصرف انرژی میشد اما این سیستم راحتتر کنترل میشود.
به نظر میرسد هدف «بولدوزر» رشد 30درصدی نسبت به فرکانس پردازندههای نسل قبل بود. اما متاسفانه صحت و سقم این گفته، در هالهای از ابهام است و AMD اصلا تایید نمیکند. یعنی طبق این گفته، اگر فرکانس 3.3GHz پردازنده Phenom II X6 را 30٪ بالاتر ببریم، «بولدوزر» باید به فرکانس 4.3GHz برسد.
اما متاسفانه پردازندههای سری FX در 4.3GHz عرضه نخواهند شد. بهترین فرکانسی که ما توانستیم بگیریم، 3.6GHz بود؛ یعنی یک افزایش ناچیز 9 درصدی به ازای یک معماری جدید. هسته Turbo توانست AMD را به اهدافش نزدیک کند، اما معمولا این افزایش فرکانس، مقطعی است.
شاید دوران Pentium 4 و درسی که از آن گرفتیم را به خاطر داشته باشید؛ یک pipeline عمیقتر میتواند عوارض قابلتوجهی با خود داشته باشد. میخواهیم 2 مثال از پردازندههایی برای شما بیاوریم که طول pipeline را فراتر از رقیبان خود برده بودند: Willamette و Prescott.
Willamette سعی داشت که با دو برابر کردن طول pipeline پردازنده P6 (پردازنده نسل ششم Intel)، هم pipeline را کامل کند و هم سرعت کلاک را افزایش دهد. سیاست Willamette این بود که اگر تعداد چرخههای طیشده در هر کلاک پایین آمد، برای جبران این ضربه چرخههای بیشتری ایجاد کنید. Willamette با این که در سرعت کلاک بالاتری کار میکرد و معماری P6 را شکست داد، اما در نهایت تبدیل به دروازهای برای پیشرفت تکنولوژی پردازش شد. دوران Willamette با عرضه پردازنده Northwood توسط خود Intel پایان یافت زیرا این دفعه سرعت کلاک Northwood برای فاصله گرفتن با رقبا کافی بود.
Prescott هم طول pipeline را بیشتر کرد، اماIntel این بار کاملا حسابشده عمل کرد. به خاطر معماری هوشمندانه Intel، این پردازنده توانست تعداد دستورات اجرا شده در هر کلاک را ثابت نگه دارد و به Prescott اجازه داد که فرکانس خود را بالاتر ببرد. تمام این عوامل دست به دست هم دادند تا سرنوشت Prescott را تغییر و از شکستی سریع نجات دهند. اما Prescott از مصرف بالای برق خود ضربه خورد. اجرا در فرکانس خیلی بالا، ولتاژ بسیار زیادی میطلبید و در نتیجه، مصرف برق Prescott سر به فلک کشید.
هدف AMD از «بولدوزر» این بود که IPC (تعداد دستورات اجرا شده در هر کلاک) را ثابت نگه دارد و در عین حال، فرکانس را بالا ببرد، درست مثل Prescott. اگر IPC ثابت بماند، کوچکترین افزایش فرکانس، عملکرد پردازنده را ارتقا میبخشد. اما AMD برای نیل به این هدف، تغییرات دیگری نیز انجام داد: Front end عریضتر شد، ساختار دادههای داخل چیپ بزرگتر شد و execution pathها در هر هسته بیشتر شدند. از بسیاری از جهات «بولدوزر» موفق بود، هرچند تک منظوره بودن آن، باعث شد که ضعیفتر از Phenom II به چشم بیاید:,OVER.png,طبق نتایج نمودار Cinebench، در یک سرعت کلاک یکسان، Phenom II حدود 7٪ سریعتر از «بولدوزر» است. علی رغم تمام تلاشهایی که AMD برای افزایش IPC انجام داد، مقدار IPC پایین رفت.
بخش کوچکی از این نزول، به خاطر صعود فرکانس پردازنده بود. متاسفانه به نظر میرسد که AMD نتوانست سرعت کلاکی که برای «بولدوزر» پیشبینی کرده بود، عملی سازد.,مدیریت مصرف برق و هسته Turbo,مدیریت مصرف برق و هسته Turbo,همانند سری Llano، «بولدوزر» نیز عمدا سرعت کلاک و تکنیک Power gating را در هم آمیخت. Power Gating مقدار برق مصرفی تک هستههای بیکار را تا نزدیک صفرکاهش میدهد و فضا را برای هستههای فعال باز میکند تا بتوانند مفیدتر و در فرکانس بالاتری کار کنند. Intel به این سرعت کلاک پویا ولی متعادل Turbo Boost میگوید اما AMD از آن به نام Turbo Core یاد میکند.
پردازنده Phenom II X6 از یک مدل اولیه turbo core شروع کرد که power gating نداشت و به همین دلیل، turbo core در آن پردازندهها به سختی و به ندرت فعال بود و همین فعالیت تنها برای مدت کوتاهی پایدار بود.
Turbo core «بولدوزر» بسیار قویتر شده است؛ با این که هنوز از روش تخمین مصرف Llano استفاده میکند (مثلا میداند که X واحد محاسبات ALU مصرف برقی معادل Y وات دارد) اما کماکان نتایج باید از بهترین پردازندههای AMD نیز ملموستر باشد. ,
AMD در حال حاضر ابزار monitoring مناسبی برای Turbo Core ندارد، پس ما برای ثبت فرکانس پردازنده، حین اجرای دستورات مختلف، به برنامه Core temp روی آوردیم تا تاثیر Turbo Core روی «بولدوزر» را حساب و با Phenom II X6 و Sandy Bridge مقایسه کنیم.
بیاید ابتدا از یک workload پیچیده شروع کنیم، بنچمارک x264 HD. آزمایشهای نرمافزار x264 از دو بخش تشکیل شده است: یک بخش ساده که ویدئو در آن فقط تحلیل میشود و یک بخش پیچیده که کدگذاری واقعی در آن انجام میشود. آزمایش ما 4 مرحله انجام میشود و فرکانس Core 0 در آن اندازهگیری میشود.
اولین شرکتکننده آزمایش، پردازنده Phenom II X6 1100T است. به طور طبیعی 1100T باید در 3.3GHz اجرا شود، اما اگر نصف (یا کمتر) هستهها فعال باشند، میتواند با Turbo به 3.7GHz برسد. اگر Turbo core به خوبی عمل کند، حدس می زنیم که در بخش آسان آزمایش، به بالاتر از 3.7GHz نیز برسد:,
حال نوبت به نتایج FX-8150 با Turbo core رسیده است. روی کاغذ، سرعت کلاک پایه 3.6GHz است و با max turbo به 4.2GHz میرسد و مقدار سرعت با Turbo متوسط، 3.9GHz است:,
اجازه دهید به بهترین مورد سناریوی Turbo نگاهی داشته باشیم، یک برنامه شدیدا تک بندی یا Single Threaded، برنامهای که تنها یک خواسته دارد. جایی که مدهای Turbo واقعا می توانند خودی نشان دهند. Turbo کمک میکند که برنامه سریعتر بارگذاری شود، پنجرهها سریعتر باز شوند و workloadهای پیوسته راحتتر اجرا شوند.
ما دوباره به سراغ benchmark مورد علاقه خود، یعنی Cinebench 11.5 رفتهایم. از Phenom II X6 1100T شروع میکنیم:,
«بولدوزر» بسیار بهتر عمل میکند:,
مسئله N-Queens بسیار ساده است. در یک صفحه N x N شطرنج، چگونه N مهره وزیر را قرار دهیم، به شرطی که هیچکدام از این مهرهها نتوانند به یکدیگر حمله کنند؟ چون حل این مسئله نیازمند یک branch قدرتمند است، پس میتواند معیار خوبی برای آزمایش pipeline عمیق باشد.
فرآیند اجرای مسئله N-Queens در برنامه AIDA64 بسیار پیچیده است، اما چون میخواستیم که نگاهی به عملکرد تکهستهای «بولدوزر» هم داشته باشیم، تمام هستهها به غیر از یک هسته integer/fp را غیرفعال کردیم. البته قصد داشتیم که با این کار، ثبات فرکانس و سرعت turbo را هم بررسی کنیم:,4787455555.png,متاسفانه وضعیت خوب نیست؛ حتی با وجود فعال بودن turbo، «بولدوزر» باید 25٪ فرکانس خود را افزایش دهد تا به پای Phenom II X6 برسد. حتی Phenom II X4 با 3.3GHz بهتر عمل میکند. چون اطلاعاتی از نحوه بهینهسازی AIDA64 نداشتیم، سعی کردیم که زیاد بر روی عملکرد Sandy Bridge تمرکز نکنیم، به هرحال Intel همیشه در دقت ساخت branch predictor مشهور بوده است.
اگر تعداد بندهای مسئله N-Queens را بیشتر کنیم، مشکلات عملکرد پردازنده، بهراحتی خود را پشت تعداد زیاد بندها پنهان میکنند.,6666666.png,بدین ترتیب، مشخص شد که وقتی نوبت به اجرای عملیات ساده یا تک بندی اما با انشعابهای زیاد میرسد، «بولدوزر» میتواند از آبروی AMD محافظت کند.,عملکرد Cache و Memory,عملکرد Cache و Memory,قبلا اشاره کردیم که برای تطبیق حافظههای موقت بزرگتر با یکدیگر (یک حافظه 8MB سطح L2 و یک حافظه 8MB سطح L3) و بالا بردن فرکانس، latency (تاخیر در اجرای یک فعالیت) حافظه موقت بیشتر از قبل شده است. برای اندازه گرفتن latency در سرعت کلاک، از جدول cache-mem کمک گرفتیم: ,
البته نمیشود از این حقیقت گذشت که معماری «بولدوزر» واقعا جالب است، اما مطمئن نیستیم که چقدر آمادگی دارد. از طرفی کاملا روشن بود که AMD نیاز دارد که برای درخشاندن «بولدوزر» سرعت کلاک بالایی را فراهم کند؛ اما به هر دلیلی که بود، موفق به انجام چنین کاری نشد. خبر عرضه سری Piledriver در سال بعد و مژده افزایش 10 تا 15 درصدی سطح هستهها، این تصور را به وجود میآورد که AMD دارد به نقصهای این سری اشاره میکند. اما تنها نگرانی ما این است که آیا این افرایش 15درصدی، برای کاهش فاصله امروز، کافی است؟ و اگر بخواهیم دقیقتر نگاه کنیم، نگرانی اصلی در مورد اجرای برنامههای ساده است، قسمتی که امروز i5 2500k توانسته به راحتی 40-50 درصد جلوتر باشد. ,
اما خبر خوب این است که AMD یک برنامه روشن و جدی برای آینده خود ترتیب داده است و ما امیدواریم که بتواند به آن عمل کند. همه ما نیاز داریم که AMD موفق شود، چون میدانیم اگر AMD به عنوان یک رقیب قوی جلوه نکند، چه اتفاقاتی میافتد. پردازندههایی عرضه میشود که محدودیتهای ساختگی شدیدی بر روی Overclocking خواهد داشت. ما اصلا شما را مقید به یک انتخاب نمیکنیم زیرا با این کار، جلوی رشد جایگزینها را میگیریم. من هم اعتقاد ندارم که «بولدوزر» یک جایگزین قوی و یک حریف سرسخت برای Intel است، اما ما نیاز داریم که به چنین پردازندهای تبدیل شود. من مطمئن هستم که AMD از پس این کار برمیآید ولی این مسیر، پیشرفت زیادی میطلبد. AMD نمیتواند بر روی برتری GPU خود تکیه کند تا بتواند APUهای خود را بفروشد، باید از سراشیبی x86 نیز عبور کند. در اصل، AMD باید عملکرد خود را در زمینه اجرای برنامههای ساده ارتقا ببخشد؛ «بولدوزر» نتوانست این کار را بکند و نگران هستیم که پیشرفت Piledriver هم کافی نباشد. اما اگر AMD، ریتم پیشرفت سالانه خوبی درست کند، هنوز جای امیدواری هست.
دیگر پرسیدن این که آیا AMD به روزهای خوش Athlon 64 برمیگردد یا خیر، کافی است! AMD باید آن روزها را تکرار کند، وگرنه شما میتوانید با AMD خداحافظی کنید!
منبع:
http://www.anandtech.com,نقد و بررسی پردازنده های AMD-FX,نقد و بررسی پردازنده های AMD-FX,