نقد و بررسی پردازنده های AMD-FX

امیر مظفری

1390-10-20

«AMD» سال‌ها است از نظر کارایی در حوزه معماری x86 پشت سر Intel قرار گرفته است. از زمان معرفی اولین پردازنده Core 2 در سال 2006، AMD هیچگاه نتوانست روزهای خوش پردازنده‌های Athlon 64 و Athlon 62 X2 را تکرار کند. اما در عوض با کاهش قیمت‌ها و رقابتی وسیع در محدوده ریزپردازنده‌های زیر 200 دلار، جایگاه خود را حفظ کرد. این استقامت AMD بیشتر مدیون استراتژی «هسته‌های بیشتر در ازای قیمت کمتر» بود. AMD به خاطر قیمت‌گذاری‌های هوشمندانه بر روی اجزای 3 و 6 هسته‌ای، برای کسانی که نیاز به تعداد زیادی هسته داشتند، ارزشمند‌تر از گذشته شد.

در این مقاله سعی می کنیم که با تشریح معماری پردازنده نسل جدید، برتری ها و قابلیت های جدید آن را بررسی کنیم. همچنین یادآور می شویم که از اصطلاحات تخصصی زیادی استفاده شده و مطالب دارای سطح علمی متوسط و پیشرفته می باشند و تلاش شده در ابتدای بکار بردن هر اصطلاح جدید توضیح مختصری نیز در رابطه با آن عنوان شود، اما خوانندگانی که تجربه و اطلاعات محدودی دارند نیز می توانند برای اطلاع از نتایج بررسیها به بخش “عملکرد در بازیها” مراجعه کنند.

سری پردازنده‌های FX,«AMD» سال‌ها است از نظر کارایی در حوزه معماری x86 پشت سر Intel قرار گرفته است. از زمان معرفی اولین پردازنده Core 2 در سال 2006، AMD هیچگاه نتوانست روزهای خوش پردازنده‌های Athlon 64 و Athlon 62 X2 را تکرار کند. اما در عوض با کاهش قیمت‌ها و رقابتی وسیع در محدوده ریزپردازنده‌های زیر 200 دلار، جایگاه خود را حفظ کرد. این استقامت AMD بیشتر مدیون استراتژی «هسته‌های بیشتر در ازای قیمت کمتر» بود. AMD به خاطر قیمت‌گذاری‌های هوشمندانه بر روی اجزای 3 و 6 هسته‌ای، برای کسانی که نیاز به تعداد زیادی هسته داشتند، ارزشمند‌تر از گذشته شد.

با این وجود، اخیرا Intel توانست کارایی هر هسته را با عرضه Sandy Bridge بالاتر ببرد، بدین ترتیب هرچه تعداد هسته‌ها بیشتر می‌شود، توصیه کردن پردازنده‌های معادل خانواده AMD هم سخت تر می‌شود. از طرفیAMD سعی می‌کند که برای کسب اعتبار،‌ توجه کاربران را به عملکرد خوب پردازنده‌های خود در برنامه‌های Single Threaded معطوف کند اما این کار فروش کامپیوترهای Desktop پرقدرت را ‌سخت تر می‌کند. مدتی است که AMD به یک انقلاب در معماری پردازنده‌ها نیاز دارد تا بتواند به بازار کامپیوترهای پرقدرت تسلط پیدا کند و از طرفی کمبودهای مشتریان کامپیوترهای معمولی را یادآوری کند. اینک پس از انتظاری طولانی، به آن معماری جدید رسیده‌ایم؛ خانم‌ها و آقایان، «بولدوزر» آمده است. (لقب پردازشگر‌های نسل بعد AMD),معرفی ,,نام تجاری این پردازنده AMD FX است و فقط روی حالت تک die عرضه می‌شود. «بولدوزر» با مساحت 315 میلیمتر مربعی و وزنی که حاصل از 2 میلیارد ترانزیستور (تقریبا هم‌اندازه یک کارت گرافیک) است (البته AMD رقم 2 میلیارد ترانزیستور را به 1.2 میلیارد کاهش داد)، چندان از طرح پردازنده 45 نانومتری Phenom II شش هسته‌ای، کوچک‌تر نیست؛ هرچند براساس فرآیند عایق‌های 32 نانومتری سیلیکونی شرکت Global Foundries ساخته شده است. هم مساحت و هم تعداد ترانزیستور به‌طور چشمگیری بیشتر از sandy bridge هستند، در حالیکه که پردازش HKMG 32 نانومتری اینتل تنها با 995 میلیون ترانزیستور در مساحت 216 میلی‌متر مربعی صورت می‌پذیرد. پس این یک تراشه بزرگ است.,,از دید معماری، «بولدوزر» از همه چیزهایی که تا به حال دیده‌ایم، انقلابی‌تر است. ما بعدا بیشتر وارد جزئیات می‌شویم، اما همین‌قدر بدانیم که واحد ساختاری AMD در این معماری Bulldozer module یا «ماژول بولدوزر» است. هر ماژول از یک هسته integer یا «اعداد صحیح» به اضافه یک هسته FP یا «واحد ممیز شناور» مشترک ساخته می‌شود. با این که سخت‌افزار FP بزرگتر است ولی تاکنون کمتر در کامپیوترهای رومیزی (و عملیات سرور) استفاده شده است. پس AMD تصمیم گرفت تا به جای ارائه نسبت 1 به 1 بین هسته‌های integer و FP آن را بین 2 هسته «بولدوزر» تقسیم کند. اعلام شده که تفاوت «بولدوزر» و قطعات سری FX بر تعداد هسته‌های integer می‌باشد. پس یک قطعه چهار ماژوله FX با 8 هسته integer یک «پردازنده 8 هسته‌ای» نام گرفته است.,,تا به حال 7 پردازنده از سری FX معرفی شده هرچند تنها 4 تای آنها به‌زودی عرضه خواهند شد.,,معرفی پردازنده بولدوزر,پردازنده‌های FX-8150، 8120، 6100 و 4100 آنهایی هستند که به تازگی عرضه شده‌اند. اولین رقم از این شماره‌ها نشانگر تعداد هسته‌های پردازنده است، برای مثال در حالی که 8120 و 8150 با نشان دادن 8 هسته خودنمایی می‌کنند، 6100 تنها 6 هسته فعال دارد. L2 Cache (حافظه پنهان سطح 2) متناسب با تعداد هسته‌ها مشخص می‌شود (2 مگابایت در هر ماژول) درحالی که Cache سطح 3 صرف نظر از SKU روی 8 مگابایت ثابت می‌ماند.

فرکانس چیپ‌ست پل شمالی (North Bridge) و Cache سطح 3 بین 2.0 گیگاهرتز و 2.2 گیگاهرتز متناوب است. همچنین دامنه TDP (توان طراحی حرارتی) بین 95 وات تا 125 وات قرار دارد و FX-8120 در هر دو ورژن 125 وات و 95 وات ارائه می‌شود.

طرح ساخت «بولدوزر» یکتا است. مدل‌های 4 و 6 هسته‌ای در واقع از هسته‌های غیرفعال شده طرح اصلی تشکیل شده‌اند. البته AMD اذعان کرده است که دیگر آنلاک کردن هسته‌ها در قطعات این طرح،‌ امکان پذیر نخواهد بود.

از طرفی شکاف بزرگ در سرعت clock بین پردازنده‌های 8150 و 8120 نگران کننده است. معمولا شیب تغییرات فرکانس ثابت است اما در عمل تفاوت 16 درصدی بین دو SKU، نشانگر مشکلات ساخت پردازنده در فرکانس‌های بالا و محدود بودن میزان پردازش است. حداقل در نسخه 8 هسته‌ای که این‌چنین است.

بدون در نظر گرفتن قلب 4 و 6 هسته‌ای «بولدوزر»، تنها پردازنده از سری FX که می‌تواند سرعت کلاک 3.3 گیگاهرتزی پردازنده Phenom II X6 1100T را پشت سر بگذارد، 8150ّFX- است. حال اگر قطعات 4 هسته‌ای Phenom II را به حساب بیاوریم، می‌بینیم که تنها 2 قطعه از «بولدوزر» با سرعت بیشتری از Phenom II X4 980 عرضه می‌شوند. هرچند تایید شده است که با کمک Turbo core فرکانس بالاتر می‌رود، اما این فرکانس‌های پایه کم، مشکل‌ساز هستند. برای یک معماری که قرار بود سرعت کلاک پیشینیان خود را 30% بالاتر ببرد، به نظر نمی‌رسد که «بولدوزر» حتی نزدیک آن سطح هم شده باشد.

در ضمن باید بدانیم که تمامی پردازنده‌های سری FX، آنلاک شده بفروش می‌رسند،‌در نتیجه Overclock کردن آن‌ها بسیار راحت‌تر شده است.,سازگاری با مادربورد,AMD مشخص کرد که سری FX تنها بر روی مادربوردهای Socket-AM3+ استفاده می‌شود. با این وضعیت، دارندگان مادربوردهای استاندارد AM3 ممکن است کمی بدشانس باشند، اگرچه شرکت‌های سازنده مادربرد می‌توانند بردهای خود را برای استفاده بولدوزر آماده کنند. به‌هرحال AMD تنها از مادربوردهای AM3+ که قابلیت پشتیبانی از BIOS/UEFI هم دارند، رسما پشتیبانی می‌کند.,,تمامی خنک کننده‌های AM2/AM2+/AM3/AM3+ با پردازنده‌های FX کار می‌کنند، اما براساس مقدار TDP اولویت‌ها کمی فرق می‌کند.,,برای نوشتن این نقد، AMD مادربورد ASUS’ Crosshair V Formula AM3+ که مخصوص چیپ‌ست 990FX خودش طراحی شده بود، را برای نویسنده فراهم کرد.

AMD شش درگاه SATA با سرعت 6Gb/sبرای چیپ‌ست 990FX تعبیه کرده، که نسبت به دو درگاه مرسوم سری 6 اینتل، یک قدم رو به جلوی بسیار بزرگ حساب می‌شود. هم‌چنین در «بولدوزر» الگوریتم تصحیح خطای حافظه Unbuffered ECC برای کسانی که امنیت بیشتری می‌خواهند، قابل استفاده شده است؛ این یکی دیگر از قابلیت‌هایی است که در چیپ‌ست‌های سری 6 از Intel پشتیبانی نشده بود.,,با این که تمایل AMD به سمت عرضه تکنولوژی مجمتع کردن APU‌ها با GPU است (البته یک socket جدید نیاز دارد) اما همچنان تاکید می‌کند که پلتفرم AM3+ می‌تواند قبل از بازنشسته شدن، یک نسل دیگر از این پردازنده‌ها را به چشم ببیند.,سیستم خنک کننده مایع AMD,در کنار سری پردازنده‌های FX، شرکت AMD یک سیستم خنک کننده مایع کاملا جدید (که ساخت Asetek می‌باشد) را نیز معرفی می‌کند.,,این سیستم خنک کننده AMD شبیه به مدل شرکت‌هایی چون Antec و Corsair است. دستگاه کاملا مستقل می‌باشد و نیازی نیست که نگران کم شدن مایع درون آن باشید. (زیرا یک چرخه بسته دارد)

برای نصب کردن کافی است ماژول خنک کننده را با یک bracket به socket پردازنده و رادیاتور را به کیس خود وصل کنید. رادیاتور با 2 فن 120 میلی‌متری (که در جعبه قرار داده شده است) خنک می‌شود.
,,AMD هنوز نظر خاصی بر روی قیمت یا در دسترس بودن مایع خنک کننده مخصوص ندارد، اما انتظار داریم که قیمت آن حدود 100 دلار باشد.

,چشم‌انداز,برای اولین بار، AMD به برنامه‌های بلندمدت خود نزدیک شده است. چند روز پیش، AMD چشم‌انداز 4 سال آینده پردازشگرهای خود را منتشر نمود. نام این پردازشگرها با کد‌های شناسایی، در عکس زیر آمده اند:,,«Piledriver» همانطور که می‌دانید، دارای پردازشگر Trinity است،APU یی با دو تا چهار هسته که در اوایل سال 2012 وارد بازار خواهد شد. عملکرد پردازنده‌های سری «Piledriver» نسبت به «بولدوزر» 10 تا 15 درصد بالاتر خواهد بود، هرچند در ابتدا، روند خود را آرام شروع خواهد کرد. آیا به یاد دارید که این نسل را آخرین نسل پردازنده‌های AM3+ خواندیم؟ کاملا منتظر معرفی یک نسخه بدون GPU در سال 2012 هستیم.

سری «Steamroller» در سال 2013 خواهد آمد، و باز هم با افزایش کارایی (احتمالا در تعداد و سطح هسته‌ها) 10 تا 15 درصدی همراه خواهد بود. سری«Excavator» هم همین کار را در سال 2014 تکرار خواهد کرد. AMD عقیده دارد که این کارآمدتر کردن‌ها برای همپا جلو آمدن با Intel کافی است، اما برای قضاوت زود است و باید ببینم آمار بررسی «بولدوزر» چه اطلاعاتی به ما می‌دهد.

نکته مهم دیگر در باره چشم‌انداز AMD این است که همزمان با قرار دادن شرکت در یک ریتم سالیانه تجاری، تعامل خود را با بخش GPU آنها هم حفظ می‌کند. با این که AMD درباره مشکلات سر راه پردازنده‌های خود صحبت نمی‌کند، اما به نظر می‌رسد که AMD بالاخره جوابی برای رقابت با زمانبندی معروف Tick -Tock شرکت Intel برای معرفی پردازنده ها پیدا کرده است.
,معماری,معماری بولدوزر,ما، طبق رسم همیشگی، قصد داریم که نقد خود را از بخش Front end (قسمت کوچکی که وظیفه‌اش برقراری ارتباط با host یا وسایل جانبی است) «بولدوزر» شروع کنیم. در «بولدوزر»، واحد منطق «اخذ و رمزگشایی» در هر ماژول بین 2 هسته Integer به اشتراک گذاشته شده است. وظیفه این واحد منطق شامل گرفتن دستورات بعدی Thread یا بند در حال اجرا(کوچکترین واحد پردازشی داده ها که قابل زمانبندی توسط سیستم عامل باشد)، رمزگشایی دستورات x86 به فرمت داخلی AMD و سپس واگذار کردن آنها به سخت‌افزار تعیین شده برای اجرا است.

در «بولدوزر» AMD بخش Front end «سری K8» را عریض تر از گذشته کرده است. حال هر ماژول می‌تواند همزمان عملیات اخذ و رمزگشایی را برای 4 دستور x86 موجود در یک Thread، انجام دهد و این کار را بدون کاهش ذره‌ای از قدرت رمزگشایی آنها عملی می‌کند. از طرفی باید به یاد داشته باشیم که این ماژولی که ما از آن سخن می‌گوییم، نمایانگر دو هسته است. تک تک ماژول‌های «بولدوزر» می‌توانند همگام با سرعت کلاک‌ بین Threadها جابجا شوند.,,سخت‌افزار رمزگشایی بخودی خود چندان هم ارزشمند نیست اما اگر همین اندازه را به ازای هر هسته، 4 برابر کنیم،اهمیت آن بسیار زیاد می‌شود. با این که عرض واحد رمزگشایی تک هسته‌‌ها بیشتر شده است،‌ اما ترکیب چند هسته‌ای آن در واقع یک پسرفت نسبت به معماریهای قبلی داشته است. بیایید دلیلش را در جدول زیر جست‌و‌جو کنیم:,,اگر دیدمان را محدود به یک Thread تک دستورالعملی کنیم، می‌بینیم که پهنای باند Front end «بولدوزر» نسبت به پیشینیانش بیشتر شده. با این که Front end قویتر شده، اما توجه کنید چه اتفاقی خواهد افتاد اگر تعداد هسته ها را افزایش دهیم.

علی رغم این که هر ماژول، واحد «منطق اخذ و رمزگشایی» دارد و AMD هر ماژول را 2 هسته به حساب می‌آورد و هسته‌ها کاملا یکسان هستند، باز هم Phenom II‌ قدیمی سریعتر از FX عمل اخذ/رمزگشایی را انجام می‌دهد. تئوری AMD این است که شرایطی که در آن محدودیت مرحله Fetch/Decode وجود دارد آنقدر کم پیش می آید که به اشتراک گذاری سخت افزار را توجیه می کند. بسیاری از دستورات ممکن است چندین چرخه را برای رمزگشایی طی کنند؛ جابجایی هر چرخه بین Thread ها باعث می‌شود که عملیات Front end بهتر بهینه‌سازی شود. خیلی دردناک است که Front end قوی، خود به یک عامل محدود‌ کننده تبدیل شود.

از دید بالاتر، مقایسه معماری FX با معماری Core از Intel نشان می‌دهد که AMD در اینجا در موضع ضعف است. در لیست محصولات High-end، جایی که Intel با Hyper threading پا به میدان گذاشته است، AMD هیچ مهره‌ای ندارد که بتواند مثل Intel در هر کلاک، دو دستور را با هم اجرا کند. حتی اگر با محصولات قبلی Intel (که Hyper Threading نداشته اند) هم مقایسه کنیم، باز هم مشخص نیست که کدام یک از پردازنده‌ها پیشی گرفته است. Intel توانسته است که در هر کلاک و در هر لحظه، با قدرت بیشتری رمزگشایی کند، هرچند ممکن است به خاطر ناتوانی در اخذ داده‌ها از صف‌های متعدد، کمی لطمه ببیند.

بعد از اعمال تغییر در واحد رمزگشایی‌، AMD به سراغ عملیات مخصوصی رفت و آنها را با هم ترکیب کرد تا به عنوان یک عملیات مسنجم و مستقل عمل کنند. دقیقا شبیه همان کاری که Intel با تکنیک Micro Ops Fusion خود انجام داد و برای اولین بار در سال 2003 در پردازنده Banias به کار برد. عملیات مقایسه-انشعاب (= branch = دستورالعملی که به کامپیوتر می‌گوید که به قسمت دیگر برنامه پرش کند) و آزمایش-انشعاب و چندین عملیات دیگر می‌توانند در «بولدوزر» با هم ترکیب شوند و کارایی بخش back end را افزایش دهند. این قابلیت در Phenom II امکان پذیر نبود و قطعا میزان IPC (روش‌های مبادله داده بین چندین بند یا Thread ) را بالاتر می‌برد.,یک branch predictor مستقل,AMD هنوز اطلاعات زیادی از ساختار سخت افزار «branch predictor» (یک واحد که مسیر انشعاب‌ها را حدس می‌زند) در «بولدوزر» فاش نکرده اما بد نیست به یک پیشرفت مهم اشاره کنیم: از این به بعد branch predictor کاملا مستقل از Front end عمل می‌کند.,,نقش branch predictor این است که دستورات انشعاب را قطع کند و هدف آنها را پیشگویی کند و تا وقتی که هدف شاخه مشخص نشده، به چرخه‌ها اجازه فعالیت نمی‌دهد. واضح است که دقت پیشگویی‌های branch predictor مستقیما به تعداد داده‌ها و آمادگی این سخت‌افزار برای آن حجم از داده‌ها بستگی دارد. دقت branch predictor بسیار برای معماری حائز اهمیت است زیرا یک پیشگویی اشتباه در معماری‌هایی که pipeline (از عوامل فرآیند پردازش داده‌ها که به هم سری بسته شده‌اند و خروجی یک عنصر را ورودی عنصر بعدی قرار می‌دهند) پیچیده دارند، باعث می‌شود که دستورات زیادی از چرخه پردازش خارج شوند. افزایش عمق pipeline‌های «بولدوزر» این پیشرفت‌های branch predictor را ضروری کرده بود.

مانند Phenom II، شاخه‌ها و سخت‌افزار اخذ در Front end قرار گرفته‌اند. هرچند در Phenom II کوچکترین تاخیر در قسمت اخذ داده (به طور مثال، اخذ داده‌ای که داخل Cache وجود نداشته است) باعث می‌شد که کل pipeline –که branch predictor هم جزوی از آن است- از کار بیفتد. به همین دلیل، «بولدوزر» branch predictor را از قسمت اخذ (fetch pipeline) جدا کرده است. بدین ترتیب، اگر هرگونه تاخیری در فرآیند اخذ صورت گیرد، branch predictor اجازه دارد که به کارش ادامه دهد و پیش‌بینی‌های بعدی خود را انجام دهد تا صف داده‌ها پر شود.,پیشرفت‌ واحدهای Scheduling و Execution,همزمان با معرفی Sandy Bridge توسط Intel، شرکت AMD هم با «بولدوزر» به نوع جدیدی از register (حافظه کوچکی که قسمتی از داده‌های موقت کامپیوتر در آن ذخیره می‌شود) فیزیکی مهاجرت کرد. حال داده‌ها فقط در یک register فیزیکی ذخیره می‌شوند و به وسیله Pointerها(متغیرهایی که داده‌ها را به متغیرهای دیگر ارجاع می‌دهند) به PRF مشایعت می‌شوند و همزمان دیگر عملیات‌ها نیز در engine Execution به مسیر خود ادامه می‌دهند. این تغییرات فقط برای جلوگیری از به هدر رفتن توان کامپیوتر در عملیاتی مثل Copy کردن است.,,متاسفانه علی رغم اینکه AMD از جانب سخت‌افزار issue (یک واحد از کار است که در صورت انجام به بهبود عملکرد سیستم نرم‌افزاری منجر می‌شود) قدم رو به جلوئی برداشته است اما وقتی به Execute کردن منابع خودش می‌رسد کمی دچار اشتباه می‌شود. می‌خواهیم یکی دیگر از نقاط قوت «بولدوزر» را معرفی کنیم: هسته‌های integer execution,Integer Execution,همانطور که پیش‌تر گفتیم هر ماژول «بولدوزر» از دو هسته integer کاملا مستقل تشکیل شده است. هر یک از هسته‌ها یک integer scheduler مخصوص برای ذخیره پرونده‌ها و حافظه 16 کیلوبایتی سطح L1 دارد و جالب است بدانید که هر دو نسبت به قطعات مشابه در Phenom II بزرگتر شده‌اند.,,بزرگترین تغییر این قسمت، حذف شدن یک پورت از هسته integer و تشکیل یک ترکیب جدید از دو پورت AGU/ALU است. طبق گفته AMD پورت سوم در Phenom II اکثرا بی‌استفاده باقی مانده ‌بود و به همین دلیل در معماری جدید آن را حذف کردند.

انتظار ما این بود که هرچقدر ساختارهای تغذیه‌کننده هسته‌های integer بزرگتر می‌شود، AMD بتواند استفاده بیشتری از آنها ببرد. AMD روی کاعذ موفق عمل کرد و توانست عملیات‌های integer بیشتری نسبت به Phenom II اجرا کند هر چند هنوز برای آن محدوده‌ای قائل می‌شود.,هسته‌های FP مشترک,هر ماژول «بولدوزر» می‌تواند برای حداکثر دو بند، یک هسته FP داشته باشد. یعنی این که اگر تنها یک بند FP موجود بود، برای اجرای آن سخت‌افزار اجرای FP اجازه دارد از تمام توانش استفاده کند اما در غیر این صورت باید منابع خود را بین دو بند به اشتراک بگذارد.,,علی رغم 8 هسته‌ای بودن «بولدوزر»، این پردازنده هیچ کم و کاستی در زمینه اجرای منابع floating points، نسبت به Phenom II چهار هسته‌ای ندارد. همیشه معماری‌های AMD دارای سخت‌افزار «زمان‌بندی» مستقلی برای دستورات integer و FP بوده‌اند و این بار می‌بینیم که تعداد پورت‌های سخت‌افزار «اجرا» هم، بین این دو پردازنده، برابر است. نیاز به ذکر نیست که همانند هسته‌های integer، سخت‌افزار «زمان‌بندی» هسته‌های FP هم بزرگتر از قبل شده است.,AAA.png,AMD می‌دانست که با کوچ به «بولدوزر» باید مصرف واحد FP را بالاتر ببرد. از طرفی چون معماری Phenom II از فقدان SSE4 و AVX رنج می‌برد، پشتیبانی از این دو و همچنین fused multiply-add instructions) FMA) را به «بولدوزر» اضافه کرد. با اضافه کردن FMA مساحت قسمت مربوط به واحد FP هم افزایش پیدا کرد. پس با این که بازده این واحد افزایش پیدا نکرد، اما توانایی‌های جدیدی بدست آورد ولی متاسفانه همچنان باید همان حجم کار را در x87/SSE2/3 انجام دهد. «بولدوزر» تنها وقتی سریع‌تر می‌شود که یا از تکنولوژی SSE، AVX یا FMA جدیدتری استفاده کند و یا سرعت کلاک خود را نسبت به Phenom II خیلی بالاتر ببرد.

کافیست به این نمودار Cinebench 11.5 نگاه کنیم تا از این عملکرد نوسانی در حجم‌های Multi-threaded (چند بندی) مطمئن شویم:,BBB.png,همانطور که در نمودار بالا مشخص است، علی رغم افزایش 9درصدی سرعت پایه کلاک (که با حساب کردن هسته turbo بیشتر هم می‌شود) این پردازنده 8 هسته‌ای تنها 2٪ بالاتر از Phenom II شش هسته‌ای بهتر عمل می‌کند. با این اوصاف پردازنده Phenom II برتری مشخصی در این تست داشته است و نشان داد که 50٪ بهتر از «بولدوزر» می‌تواند دستورات SSE2/3 و x87 را اجرا کند.

از زمان عرضه Phenom II X6 پیشرفت عمده AMD در workloadهای سنگین، به خصوص در FP بوده است. در حقیقت «بولدوزر» یک قدم رو به عقب محسوب می‌شود و در نتیجه می‌بینیم که در حجم‌های ثابت کار،‌ اگر نسبت به Phenom II X6 یکسان عمل نکند،‌ حتما ضعیف‌تر از آن خواهد بود.

و اگر با Sandy bridge مقایسه کنیم «بولدوزر» فقط 2 برتری در عملکرد FP دارد: یکی پشتیبانی از FMA و دیگری بازده بیشتر در 128Bit AVX. هرچند که دیگر کدهای بسیار کمی هستند که از دستورات FMA استفاده می‌کنند، اما نمی‌شود از ابهت128bit AVX گذشت.
,سلسله مراتب Cache و زیرمجموعه‌های حافظه,هر هسته integer یک حافظه سطح L1 دارد و هسته مشترک FP حجم load‌ها و store‌های (موجودی‌های) خود را از طریق یکی از این دو هسته integer ارسال می‌کند؛ مثل طرز کار Phenom II اما با این تفاوت که اینجا به جای یک هسته، از دو هسته integer استفاده می‌شود. «بولدوزر» حال می‌تواند load و storeهای کاملا از کار افتاده را دوباره فعال کند و از این نظر نسبت به Phenom II و معماری‌های Intel پیشرفت کرده است. در این پردازنده، Instruction cache سطح L1 و L2 با کل ماژول به اشتراک گذاشته شده است.

Instruction cache یک حافظه بزرگ 64KB است که از نظر اندازه شبیه به اندازه حافظه سطح L1 پردازنده Phenom II است ولی در «بولدوزر» توسط هسته‌های بیشتری به اشتراک گذاشته شده است. پردازنده Phenom II چهار هسته‌ای مقدار 256KB حافظه سطح L1 داشت اما حالا هر 4 هسته «بولدوزر» تنها نصف این مقدار را دارند. همچنین حافظه داده‌ای «بولدوزر» بسیار کمتر از پیشینیان خود است، برای مثال Phenom II یک D-Cache با 64KB برای هر هسته داشت اما بولدوزر این مقدار را به 16KB کاهش داده است.,,همانطور که در تصویر هم مشخص است، حافظه سطح L2 نیز بسیار بزرگتر از طراحی‌های Phenom II شده است و هر ماژول «بولدوزر» 2MB حافظه سطح L2 اختصاصی برای خود دارد.

همچنین یک حافظه 8MB سطح L3 نیز وجود دارد که در هر چیپ، بین تمام ماژول‌ها تقسیم شده است. در تجسم اولیه AMD، قرار بود که تمام قطعات desktop با حافظه سطح L3 عرضه شوند. هرچند AMD نشان داد که حافظه سطح L3 تنها برای Server Workloads مفید است و بنابراین ممکن است در آینده فقط در محصولات جانبی «بولدوزر» استفاده شود و زمینه را برای حذف کامل آن فراهم کند.
,,اما برای بیشتر شدن دسترسی‌های حافظه موقت، AMD قصد دارد که سرعت کلاک «بولدوزر» را بسیار بالاتر ببرد …,به دنبال سرعت Clock بالاتر,به دنبال سرعت Clock بالاتر,تا اینجا چندین منبع «بولدوزر» را برشمردیم اما تعداد آن‌ها نسبت به فراوانی منابعی که در Phenom II دیدیم، بسیار پایین‌تر آمده است. بسیاری از این جایگزینی‌ها و حذف‌ها برای این انجام شده است که ضمن اضافه کردن قابلیت‌های جدید، مساحت چیپ را ثابت نگه دارند. (برای مثال عریض کردن Front end، بزرگ شدن ساختار داده‌ها و صف‌ها، پشتیبانی از دستورات جدید) از front end «بولدوزر» گرفته تا Execution Cluster‌ها (واحدی برای ذخیره‌سازی داده‌ها) همه برای قوی‌تر شدن نیاز دارند که سرعت کلاک و تاثیرگذاری آن بالاتر برود. از طرفی «بولدوزر» می‌دانست که باید بهتر از Phenom II از منابع استفاده کند، در نتیجه اهمیت بالا رفتن سرعت کلاک بیش از پیش شد.

معمارهای AMD می‌خواستند که تعداد gate‌های کمتری در هر pipeline stage به وجود آورند، زیرا با کاهش این مقدار، زمان کمتری در هر stage گذرانده می‌شود و در نتیجه فرکانس پردازنده بالاتر می‌رود. اگر این طرح به گوش شما آشنا است، به این خاطر است که دلیل Intel برای ساخت Pentium 4 نیز همین بود.

اما تفاوت «بولدوزر» در این است که طراحی AMD برعکس P4 سرسختانه برای افزایش فرکانس تلاش نمی‌کند، بلکه تنها به دنبال کاهش تعداد Gate‌های هر stage است. طبق گفته AMD، سیستم سابق باعث بروز مشکلاتی در مدیریت مصرف انرژی می‌شد اما این سیستم راحت‌تر کنترل می‌شود.

به نظر می‌رسد هدف «بولدوزر» رشد 30درصدی نسبت به فرکانس پردازنده‌های نسل قبل بود. اما متاسفانه صحت و سقم این گفته، در هاله‌ای از ابهام است و AMD اصلا تایید نمی‌کند. یعنی طبق این گفته، اگر فرکانس 3.3GHz پردازنده Phenom II X6 را 30٪ بالاتر ببریم، «بولدوزر» باید به فرکانس 4.3GHz برسد.

اما متاسفانه پردازنده‌های سری FX در 4.3GHz عرضه نخواهند شد. بهترین فرکانسی که ما توانستیم بگیریم، 3.6GHz بود؛ یعنی یک افزایش ناچیز 9 درصدی به ازای یک معماری جدید. هسته Turbo توانست AMD را به اهدافش نزدیک کند، اما معمولا این افزایش فرکانس، مقطعی است.

شاید دوران Pentium 4 و درسی که از آن گرفتیم را به خاطر داشته باشید؛ یک pipeline عمیق‌تر می‌تواند عوارض قابل‌‌توجهی با خود داشته باشد. می‌خواهیم 2 مثال از پردازنده‌هایی برای شما بیاوریم که طول pipeline را فراتر از رقیبان خود برده بودند: Willamette و Prescott.

Willamette سعی داشت که با دو برابر کردن طول pipeline پردازنده P6 (پردازنده نسل ششم Intel)، هم pipeline را کامل کند و هم سرعت کلاک را افزایش دهد. سیاست Willamette این بود که اگر تعداد چرخه‌های طی‌شده در هر کلاک پایین آمد، برای جبران این ضربه چرخه‌های بیشتری ایجاد کنید. Willamette با این که در سرعت کلاک بالاتری کار می‌کرد و معماری P6 را شکست داد، اما در نهایت تبدیل به دروازه‌ای برای پیشرفت تکنولوژی پردازش شد. دوران Willamette با عرضه پردازنده Northwood توسط خود Intel پایان یافت زیرا این دفعه سرعت کلاک Northwood برای فاصله گرفتن با رقبا کافی بود.

Prescott هم طول pipeline را بیشتر کرد، اماIntel این بار کاملا حساب‌شده عمل کرد. به خاطر معماری هوشمندانه Intel، این پردازنده توانست تعداد دستورات اجرا شده در هر کلاک را ثابت نگه دارد و به Prescott اجازه داد که فرکانس خود را بالاتر ببرد. تمام این عوامل دست به دست هم دادند تا سرنوشت Prescott را تغییر و از شکستی سریع نجات دهند. اما Prescott از مصرف بالای برق خود ضربه خورد. اجرا در فرکانس خیلی بالا، ولتاژ بسیار زیادی می‌طلبید و در نتیجه، مصرف برق Prescott سر به فلک کشید.

هدف AMD از «بولدوزر» این بود که IPC (تعداد دستورات اجرا شده در هر کلاک) را ثابت نگه دارد و در عین حال، فرکانس را بالا ببرد، درست مثل Prescott. اگر IPC ثابت بماند، کوچکترین افزایش فرکانس، عملکرد پردازنده را ارتقا می‌بخشد. اما AMD برای نیل به این هدف، تغییرات دیگری نیز انجام داد: Front end عریض‌تر شد، ساختار داده‌های داخل چیپ بزرگ‌تر شد و execution path‌ها در هر هسته بیشتر شدند. از بسیاری از جهات «بولدوزر» موفق بود، هرچند تک منظوره بودن آن، باعث شد که ضعیف‌تر از Phenom II به چشم بیاید:,OVER.png,طبق نتایج نمودار Cinebench، در یک سرعت کلاک یکسان، Phenom II حدود 7٪ سریعتر از «بولدوزر» است. علی رغم تمام تلاش‌هایی که AMD برای افزایش IPC انجام داد، مقدار IPC پایین رفت.

بخش کوچکی از این نزول، به خاطر صعود فرکانس پردازنده بود. متاسفانه به نظر می‌رسد که AMD نتوانست سرعت کلاکی که برای «بولدوزر» پیش‌بینی کرده بود، عملی سازد.,مدیریت مصرف برق و هسته Turbo,مدیریت مصرف برق و هسته Turbo,همانند سری Llano، «بولدوزر» نیز عمدا سرعت کلاک و تکنیک Power gating را در هم آمیخت. Power Gating مقدار برق مصرفی تک هسته‌های بیکار را تا نزدیک صفرکاهش می‌دهد و فضا را برای هسته‌های فعال باز می‌کند تا بتوانند مفیدتر و در فرکانس بالاتری کار کنند. Intel به این سرعت کلاک پویا ولی متعادل Turbo Boost می‌گوید اما AMD از آن به نام Turbo Core یاد می‌کند.

پردازنده Phenom II X6 از یک مدل اولیه turbo core شروع کرد که power gating نداشت و به همین دلیل، turbo core در آن پردازنده‌ها به سختی و به ندرت فعال بود و همین فعالیت تنها برای مدت کوتاهی پایدار بود.

Turbo core «بولدوزر» بسیار قوی‌تر شده است؛ با این که هنوز از روش تخمین مصرف Llano استفاده می‌کند (مثلا می‌داند که X واحد محاسبات ALU مصرف برقی معادل Y وات دارد) اما کماکان نتایج باید از بهترین پردازنده‌های AMD نیز ملموس‌تر باشد. ,,محدوده‌بندی‌های Turbo Core در «بولدوزر» نیز حفظ شده‌اند. اگر نصف (یا کمتر) هسته‌های پردازنده فعال باشند، اجازه استفاده از Max Turbo داده می‌شود. اگر هسته‌های دیگری هم فعال باشند، Turbo ضعیف‌تری انتخاب می‌شود. فقط این دو فرکانس هستند که بالای فرکانس اولیه قرار دارند.

AMD در حال حاضر ابزار monitoring مناسبی برای Turbo Core ندارد،‌ پس ما برای ثبت فرکانس پردازنده، حین اجرای دستورات مختلف، به برنامه Core temp روی آوردیم تا تاثیر Turbo Core روی «بولدوزر» را حساب و با Phenom II X6 و Sandy Bridge مقایسه کنیم.

بیاید ابتدا از یک workload پیچیده شروع کنیم، بنچمارک x264 HD. آزمایش‌های نرم‌افزار x264 از دو بخش تشکیل شده است: یک بخش ساده که ویدئو در آن فقط تحلیل می‌شود و یک بخش پیچیده که کدگذاری واقعی در آن انجام می‌شود. آزمایش ما 4 مرحله انجام می‌شود و فرکانس Core 0 در آن اندازه‌گیری می‌شود.

اولین شرکت‌کننده آزمایش، پردازنده Phenom II X6 1100T است. به طور طبیعی 1100T باید در 3.3GHz اجرا شود، اما اگر نصف (یا کمتر) هسته‌ها فعال باشند، می‌تواند با Turbo به 3.7GHz برسد. اگر Turbo core به خوبی عمل کند، حدس می زنیم که در بخش آسان آزمایش، به بالاتر از 3.7GHz نیز برسد:,,متاسفانه انتظارات ما به هیچ‌وجه برآورده نشد. Turbo core در Phenom II X6 تقریبا غیرفعال به نظر می‌رسد، حداقل در این آزمایش که این‌ طور به نظر می‌رسد. سرعت کلاک متوسط مقدار ناچیز 3.31GHz را دارد که تنها اندکی بیشتر از مقدار معمول است.

حال نوبت به نتایج FX-8150 با Turbo core رسیده است. روی کاغذ، سرعت کلاک پایه 3.6GHz است و با max turbo به 4.2GHz می‌رسد و مقدار سرعت با Turbo متوسط، 3.9GHz است:,,نتایج به انتظارات ما نزدیک بود. سرعت میانگین 3.69GHz شده است (2.5٪ بیشتر از حالت بدون Turbo) و نمودار تناوب بالایی دارد. این workload بطور اخص برای هر پردازنده ای و آنطور که خواهیم دید Intel 2500K هم بسیار سنگین به نظر می‌رسد:,,2500K به طور طبیعی در 3.3GHz اجرا می‌شود، اما در این آزمایش، به خاطر وجود Turbo، میانگین سرعت به 3.41GHz رسیده است. حتی در بعضی از موارد شاهد پرش به 3.5 و 3.6GHz نیز هستیم. تکنولوژی Turbo شرکت Intel کمی استوارتر و منظم‌تر از AMD می‌باشد اما افزایش سرعت متوسط آن مشابه و حدود 3٪ است.

اجازه دهید به بهترین مورد سناریوی Turbo نگاهی داشته باشیم، یک برنامه شدیدا تک بندی یا Single Threaded، برنامه‌ای که تنها یک خواسته دارد. جایی که مدهای Turbo واقعا می توانند خودی نشان دهند. Turbo کمک می‌کند که برنامه سریعتر بارگذاری شود، پنجره‌ها سریعتر باز شوند و workload‌های پیوسته راحت‌تر اجرا شوند.

ما دوباره به سراغ benchmark مورد علاقه خود، یعنی Cinebench 11.5 رفته‌ایم. از Phenom II X6 1100T شروع می‌کنیم:,,Turbo Core روی Phenom II X6 در واقع عمل می‌کند ولی مدت آن بسیار کوتاه است. با این که نمودار چند جهش کوچک به 3.7GHz دارد اما اکثر اوقات روی 3.3GHz ثابت است. بار دیگر سرعت کلاک متوسط 3.31GHz شده است.

«بولدوزر» بسیار بهتر عمل می‌کند:,,اینجا جهش‌ها به سمت 4.2GHz می‌باشد و نمودار روی 3.9GHz ثابت شده است. سرعت کلاک متوسط 3.93GHz و حدود 9٪ بالاتر از سرعت پایه FX-8150 است.,,Turbo در اینجا پرنوسان‌تر ظاهر شده است و مقدار آن، به خاطر محدودیت‌های TDP، بین 3.4 تا 3.6GHz می‌چرخد. سرعت کلاک متوسط روی 3.5GHz باقی می‌ماند و 6٪ پیشرفت داشته است. برای اولین بار، AMD در زمینه فرکانس Turbo بهتر از Intel عمل می‌کند. با این که ما منتظر بودیم که Turbo را محدودتر ببینیم، اما واضح است که Turbo core یکی از شاخصه‌های اصلی «بولدوزر» است و از نقص‌های Phenom II X6 خبری نیست. عملکرد Turbo core در چندین benchmark را در زیر مشاهده می‌کنید:,,میانگین عملکرد در آزمایش‌های ما، 5٪ بیشتر شده است. با این که نتایج، عالی نیست اما نوید یک شروع را می‌دهد. یادمان نرود که عملکرد Turbo Boost هم در اولین معماریهای Intel Core در بهترین حالت متوسط بود. ما امیدواریم که در نسل‌های آینده، مشتقات «بولدوزر» بتوانند هرچه بیشتر از Turbo core استفاده کنند.,تاثیر pipeline جدید بولدوزر,تاثیر pipeline جدید بولدوزر,عرضه معماری جدید branch predictor به همراه یک pipeline عمیق‌تر باعث شد که اشتیاق ما برای پی بردن به جایگاه «بولدوزر» در ماموریت افزایش فرکانس AMD، بیشتر شود. برای همین به سراغ آزمایش N-Queens رفتیم تا نتایج را با نمودار AIDA64 برای شما نشان بدهیم.

مسئله N-Queens بسیار ساده است. در یک صفحه N x N شطرنج، چگونه N مهره وزیر را قرار دهیم، به شرطی که هیچکدام از این مهره‌ها نتوانند به یکدیگر حمله کنند؟ چون حل این مسئله نیازمند یک branch قدرتمند است، پس می‌تواند معیار خوبی برای آزمایش pipeline عمیق باشد.

فرآیند اجرای مسئله N-Queens در برنامه AIDA64 بسیار پیچیده است، اما چون می‌خواستیم که نگاهی به عملکرد تک‌هسته‌ای «بولدوزر» هم داشته باشیم، تمام هسته‌ها به غیر از یک هسته integer/fp را غیرفعال کردیم. البته قصد داشتیم که با این کار، ثبات فرکانس و سرعت turbo را هم بررسی کنیم:,4787455555.png,متاسفانه وضعیت خوب نیست؛ حتی با وجود فعال بودن turbo، «بولدوزر» باید 25٪ فرکانس خود را افزایش دهد تا به پای Phenom II X6 برسد. حتی Phenom II X4 با 3.3GHz بهتر عمل می‌کند. چون اطلاعاتی از نحوه بهینه‌سازی AIDA64 نداشتیم، سعی کردیم که زیاد بر روی عملکرد Sandy Bridge تمرکز نکنیم، به هرحال Intel همیشه در دقت ساخت branch predictor مشهور بوده است.

اگر تعداد بندهای مسئله N-Queens را بیشتر کنیم، مشکلات عملکرد پردازنده،‌ به‌راحتی خود را پشت تعداد زیاد بندها پنهان می‌کنند.,6666666.png,بدین ترتیب، مشخص شد که وقتی نوبت به اجرای عملیات ساده یا تک بندی اما با انشعابهای زیاد می‌رسد، «بولدوزر» می‌تواند از آبروی AMD محافظت کند.,عملکرد Cache و Memory,عملکرد Cache و Memory,قبلا اشاره کردیم که برای تطبیق حافظه‌های موقت بزرگتر با یکدیگر (یک حافظه 8MB سطح L2 و یک حافظه 8MB سطح L3) و بالا بردن فرکانس، latency (تاخیر در اجرای یک فعالیت) حافظه موقت بیشتر از قبل شده است. برای اندازه گرفتن latency در سرعت کلاک، از جدول cache-mem کمک گرفتیم: ,,همانطور که مشاهده می‌کنید، Latency حافظه موقت بسیار زیاد شده است، البته به خاطر اعمال تغییرات جدید یعنی عمیق شدن pipeline و بزرگ شدن حافظه موقت، بروز این مشکل دور از انتظار نبود. اما آیا «بولدوزر» می‌تواند در کلاک‌های بالاتر بر این مشکل غلبه کند؟ برای کشف پاسخ باید latency در سرعت کلاک را در نانوثانیه مقایسه کنیم:,44.png,برای رسیدن به سرعت کلاک مورد انتظار، Turbo را خاموش کردیم و توانستیم که latency حافظه را دقیقا محاسبه کنیم. نتایج FX-8150 در این قسمت هم ضعیف‌تر از پیشینیان آن جلوه می‌کند. latency بالای حافظه موقت، نقش بسزایی در این شکست ایفا می‌کند. حتی با فرض استفاده از turbo و رسیدن «بولدوزر» به 3.9GHz، باز هم تاثیر latency کاهش‌یافته بقدری نیست که از sandy bridge جلو بزند. اما حداقل تاثیر turbo core برای بالا بردن «بولدوزر» از phenom II کافی است.,45.png,در نمودار latency حافظه سطح L3، وضعیت «بولدوزر» نسبت به phenom II بهتر به نظر می‌رسد زیرا به خاطر فعال شدن Turbo core به سرعت کلاک بیشتری دست پیدا کرده است. از طرفی «بولدوزر» هنوز خیلی کار دارد تا بتواند در حد و اندازه Sandy bridge ظاهر شود.,عملکرد در بازی‌ها,عملکرد در بازی‌ها,AMD آشکارا در راهنمای بررسی کنندگان این پردازنده عنوان کرد که عملکرد پردازنده در بخش Gaming و مخصوصا برنامه های CPU Bound (برنامه هایی که پردازنده گلوگاه سرعت آنها می شود) نقطه قوت سری FX نخواهد بود. با این وجود می‌خواهیم نگاهی به عملکرد CPU Bound و GPU Bound (برنامه هایی که کارت گرافیک عامل محدودیت سرعت آن است) داشته باشیم و قدرت پردازنده در اجرای workload بازی‌های جدید را بررسی کنیم:,Civilization V,برای این بازی 2 نمودار lateGameView Benchmark با 2 نمره مجزا خواهیم داشت: یکی از این نمره‌ها میانگین Frame rate در تمام طول آزمایش است و دیگری بدون انجام render، فقط عملکرد پردازنده را بررسی می‌کند.,5127971.png,در نمودار Full-render به نظر می‌رسد که هر 3 پردازنده AMD از رقیب دیرین خود کمی پیشی گرفته اند. قبلا هم دیده‌ایم که یک پلتفرم کاملا بر دیگری چیره شود و همیشه توضیح اینجور تفاوت‌ها مشکل بوده است. به خصوص که اینها اصلا دلیلی بر سریعتر بودن پردازنده‌های AMD نیست و عامل این تفاوت ها، فقط GPU Bound یا محدودیت پردازش گرافیکی است.,3675012.png,در نمودار نمرات No-render دقیقا همان چیزی را می‌بینیم که انتظارش را داشتیم. خوشبختانه در این زمینه FX-8150 کمی از پیشینیان خود سریعتر است اما همچنان عقب‌تر از Sandy Bridge است.,Crysis: Warhead,3.png,FX-8150 در Crysis Warhead حتی از Phenom II‌های قدیمی هم کندتر است. نیاز به گفتن نیست که Sandy Bridge کماکان پیشتاز است.,Dawn of war II,4.png,DiRT 3,برای درک بهتر عملکرد CPU Bound و GPU Bound از DiRT 3 هم دو بنچ‌مارک گرفتیم. از بخش CPU Bound شروع می‌کنیم:,6919165.png,همانطور که مشاهده کردید، باز هم FX-8150 ضعیف عمل می‌کند و پشت سر Phenom II قرار می‌گیرد. اما عملکرد «بولدوزر» در بخش GPU Bound قابل قبول است.,6.png,Dragon Age,7.png,یک عنوان دیگر برای مقایسه CPU Bound و طبق معمول FX-8150 عقب‌تر از بقیه است.,Metro 2033,با این که Metro 2033 حتی روی Resolution‌ های پایین هم، بازی سنگینی است، اما عملکرد FX-8150 تقریبا با 2500K برابری می‌کند.,8489368.png,9.png,RAGE,10.png,World of Warcraft,13.png,سخن آخر,سخن آخر,از بسیاری از جهات،‌ FX-8150 می‌تواند فاصله بین Phenom II X6 و Intel’s Core i5 2500k را کمتر کند. اگر به «بولدوزر» workload درستی بدهید، می‌تواند با سریعترین قطعات Sandy bridge رقابت کند. بالاخره AMD پردازنده‌ پیشرفته‌ای عرضه کرد که می‌تواند به خوبی از power gating و Turbo core بسیار کارآمد خود استفاده کند،‌ اما متاسفانه باز هم رد پای بعضی از شکایات مشتریان از پردازنده‌های AMD در چندسال گذشته، دیده می‌شود: «بولدوزر» بعضی از برنامه‌های ساده را اصلا اجرا نمی‌کند و بدتر از آن این که در اجرای بعضی برنامه‌های پیچیده، پیشرفت‌های اعمال شده آنقدر کافی نیست که دارندگان پلتفرم AM3+ را راضی کند. قطعا پردازنده‌ AMD در اکثر موارد توان رقابت دارد، اما همیشه هم این‌گونه نیست. همچنین AMD شما را مجبور می‌کند که بین اجرای خوب دستورات SingleThreaded و دستورات MultiThreaded یکی را انتخاب کنید؛ انتخابی که بیشتر شبیه «شیر یا خط» است و واقعا لازم نبود که با وجود power gating و turbo core چنین محدودیتی ایجاد شود.

البته نمی‌شود از این حقیقت گذشت که معماری «بولدوزر» واقعا جالب است، اما مطمئن نیستیم که چقدر آمادگی دارد. از طرفی کاملا روشن بود که AMD نیاز دارد که برای درخشاندن «بولدوزر» سرعت کلاک بالایی را فراهم کند؛ اما به هر دلیلی که بود، موفق به انجام چنین کاری نشد. خبر عرضه سری Piledriver در سال بعد و مژده‌ افزایش 10 تا 15 درصدی سطح هسته‌ها، این تصور را به وجود می‌آورد که AMD دارد به نقص‌های این سری اشاره می‌کند. اما تنها نگرانی ما این است که آیا این افرایش 15درصدی، برای کاهش فاصله‌ امروز،‌ کافی است؟ و اگر بخواهیم دقیق‌تر نگاه کنیم، نگرانی اصلی در مورد اجرای برنامه‌های ساده است،‌ قسمتی که امروز i5 2500k توانسته به راحتی 40-50 درصد جلوتر باشد. ,,همچنین AMD اعلام کرده است که Windows 7 آنچنان برای «بولدوزر» بهینه نشده است. به خاطر معماری خاص ماژول چند‌هسته‌ای AMD، OS Scheduler باید بداند چه زمانی بندها را در تک‌ماژول‌ها (با Cache مشترک) یا ماژول‌های جداگانه (با Cache اختصاصی) قرار دهد. حال چون Scheduler ویندوز 7 کاملا از معماری «بولدوزر» آگاهی ندارد، در هرجایی که بتواند بندها را قرار می‌دهد. انتظار است که Windows 8 بتواند این مشکل را اصلاح کند، از طرفی چون با عرضه Windows 8 فاصله داریم، ممکن است یک جایگزین ارتقا یافته از طرف AMD معرفی شود.,,اما هنوز یک مسئله بررسی نشده است: اگر شما بخواهید امروز یک پردازنده بخرید، بهتر است کدام را انتخاب کنید؟ اگر شما یک سیستم پیشرفته با Phenom II ترتیب داده‌اید،‌ و احتمالا یک پردازنده X4 970 یا بالاتر و یا X6 دارید، من واقعا دلیلی برای ارتقا نمی‌بینم. اگر شما می‌خواهید با همین پلتفرم جلو بروید، بهتر است تا عرضه پردازنده بعدی (و پایانی) AM3+ صبر کنید، اما اگر حتما می‌خواهید پردازنده جدیدی بخرید، احساس می‌کنم که 2500K بهترین و جامع‌ترین قطعه است. این پردازنده، یک عملکرد باثبات در تمام برنامه‌ها، صرف نظر از نوع و وضعیت workload آنها، به شما می‌دهد و می‌توانید از امکاناتی نظیر Quick Sync استفاده کنید.. در حقیقت،‌ جایی که «بولدوزر» خوب عمل کرده است، همان جایی است که AMD همیشه خوب عمل می‌کند: نرم‌افزار‌های پیچیده. اگر شما معمولا برنامه‌هایی اجرا می‌کنید که ساختار بند‌های خوبی دارد، «بولدوزر» معمولا عملکردی در سطح 2500K شرکت Intel، یا بالاتر از آن ارائه می‌دهد.,,ما امیدوار بودیم که «بولدوزر» به جای تمرکز روی نقطه قوت AMD، نقاط ضعف آنها را نشانه برود. شک داریم که این معماری بتواند به درستی در فضای Server عمل کند، اما برای کامپیوترهای شخصی، بهتر است که مدتی بیشتر صبر کنیم تا AMD قطعه قویتری عرضه کند. واقعا سخت است که نقطه اشتباه «بولدوزر» در برنامه‌های ساده را پیدا کنیم. ساده‌ترین جواب، سرعت کلاک است، به نظر می‌رسد که «بولدوزر» قربانی مشکلات داخلی Global Foundries شده است. اگر هدف سرعت کلاک، افزایش 30 درصدی نسبت به Phenom II بود، قطعا با FX-8150 محقق نشده است. شایعاتی مطرح است که در آینده، تمرکز محصولات AMD بیشتر بر روی IPC خواهد بود. اما اگر از من بپرسید برای موفق شدن، چه چیزی را می‌شود فدا کرد، می‌گفتم سرعت کلاک. حقیقت بعدی این است که انگار AMD برای انتخاب مساحت 32 نانومتری تردید داشته است. به سختی می‌توان «بولدوزر» را یک پردازنده ظریف معرفی کرد. ممکن است که مهاجرت AMD به یک ترانزیستور کوچک‌تر، بعضی از نقایص فیزیکی «بولدوزر» را مشخص کند.

اما خبر خوب این است که AMD یک برنامه روشن و جدی برای آینده خود ترتیب داده است و ما امیدواریم که بتواند به آن عمل کند. همه ما نیاز داریم که AMD موفق شود، چون می‌دانیم اگر AMD به عنوان یک رقیب قوی جلوه نکند، چه اتفاقاتی می‌افتد. پردازنده‌هایی عرضه می‌شود که محدودیت‌های ساختگی شدیدی بر روی Overclocking خواهد داشت. ما اصلا شما را مقید به یک انتخاب نمی‌کنیم زیرا با این کار، جلوی رشد جایگزین‌ها را می‌گیریم. من هم اعتقاد ندارم که «بولدوزر» یک جایگزین قوی و یک حریف سرسخت برای Intel است، اما ما نیاز داریم که به چنین پردازنده‌ای تبدیل شود. من مطمئن هستم که AMD از پس این کار برمی‌آید ولی این مسیر، پیشرفت زیادی می‌طلبد. AMD نمی‌تواند بر روی برتری GPU خود تکیه کند تا بتواند APU‌‌های خود را بفروشد، باید از سراشیبی x86 نیز عبور کند. در اصل، AMD باید عملکرد خود را در زمینه اجرای برنامه‌های ساده ارتقا ببخشد؛ «بولدوزر» نتوانست این کار را بکند و نگران هستیم که پیشرفت Piledriver هم کافی نباشد. اما اگر AMD، ریتم پیشرفت سالانه‌ خوبی درست کند، هنوز جای امیدواری هست.

دیگر پرسیدن این که آیا AMD به روزهای خوش Athlon 64 برمی‌گردد یا خیر، کافی است! AMD باید آن روزها را تکرار کند، وگرنه شما می‌توانید با AMD خداحافظی کنید!

منبع:
http://www.anandtech.com,نقد و بررسی پردازنده های AMD-FX,نقد و بررسی پردازنده های AMD-FX,