Microarchitecture خانواده Intel Xeon

بررسی اجمالی Microarchitecture خانواده Intel Xeon

در این قطعه ، می خواهیم کمی از Microarchitecture خانواده Intel Xeon جدید Intel Xeon Scalable Family استفاده کنیم. ما در حال انجام پوشش های گسترده راه اندازی خانواده پردازنده مقیاس پذیر Intel Xeon از جمله سطح پلتفرم، چیپست، اتصالات مش، معیار، راه اندازی فروشنده و پشته های SKU هستیم. برای اطلاعات بیشتر به صفحه اصلی راه اندازی خانواده پردازنده مقیاس پذیر Intel Xeon ما مراجعه کنید. از آنجا که پردازنده های جدید بسیار گسترده هستند، ممکن است در بعضی جاها از  نام رسمی Skylake-SP استفاده کنیم.

ما قصد داریم  به طور خاص بر معماری هسته Microarchitecture خانواده Intel Xeon و یکی از مهمترین دستورالعمل های جدید AVX-512 تمرکز کنیم.

شروع Microarchitecture خانواده Intel Xeon

بحث را با هسته اصلی Microarchitecture خانواده Intel Xeon شروع می کنیم. آنچه ممکن است برخی از خوانندگان را شگفت زده کند این است که به هسته اصلی Skylake که سالهاست از اینتل استفاده می کند، کش اضافی L2 و یک واحد اجرایی FMA و AVX اضافه می کنیم.

Intel Skylake SP Microarchitecture Chang 2

همه تراشه ها واحد دوم FMA را ندارند. این بخش دیگری از تمایز بین لایه های مختلف پردازنده است.

در اسلایدی برخی از پیشرفتهای فنی بیشتر در مورد Broadwell-EP بحث می کنیم.

تأثیر آن این است که اینتل انتظار دارد تقریباً 10٪ IPC را نسبت به هسته های Intel Xeon E5-2600 V4 (Broadwell-EP.) استفاده کند. معیار بعدی ما نشان می دهد که در همان سرعت، ما می خواهیم عملکرد 30٪ در هر ساعت بهبود داشته باشد. هسته های Intel Xeon E5-2600 V1 (Sandy Bridge-EP.)

Intel Skylake SP Microarchitecture Chang

این معیار به دو دلیل مهم است. اول ، سرورهای Intel Xeon E5-2600 V1 آنهایی هستند که با تولید یک خانواده پردازنده مقیاس پذیر Intel Xeon که 5 ساله است به چرخه تازه سازی 5 ساله خواهند رسید. دوم اینکه ، 30٪ + بهبود IPC با حداکثر تعداد هسته افزایش یافته از 8 تا 28 هسته ترکیب شده است. این چرخه جایگزینی است که در صورت تحکیم می تواند در مقیاس عظیم رخ دهد. یک قاعده کلی این است که در همان سرعت ساعت یک تراشه Microarchitecture خانواده Intel Xeon تقریباً برابر با چهار هسته Intel Xeon E5-2600 V1 عمل می کند.

پردازنده اصلی اینتل Xeon مقیاس پذیر خانواده L2 و L3 Cache Changes تغییر می کند

اگر هسته Microarchitecture خانواده Intel Xeon را با هسته Skylake رومیزی مقایسه کنید، متوجه خواهید شد که حافظه نهان L2 بسیار بزرگتر از همتای دسک تاپ است. قسمت سرور دارای 768KB اضافی در حافظه نهان L2 برای حافظه نهان 1MB L2 است. اینتل برای افزایش مقدار داده های کم تأخیر موجود در هر هسته، این تغییر را ایجاد کرده است.

در همین زمان، اینتل حافظه نهان L3 را تقریباً نیمی از 2.5MB / هسته در Broadwell-EP به 1.375MB / core در Skylake-SP کاهش داد. این کاهش با بودجه ترانزیستور به اینتل کمک می کند تا اندازه حافظه نهان L2 را افزایش دهد و تعداد هسته را در یک فرایند 14 نانومتری افزایش می دهد.

این سوال که چرا اینتل این کار را انجام می دهد در حافظه نهان نهفته است. کشl2 3.5-4 برابر سریعتر از حافظه نهان L3 است. با افزایش تعداد هسته، زمان نهانگاه حافظه نهان L3 افزایش می یابد، بنابراین اینتل باید داده های بیشتری را به CPU نزدیک کند.

Intel Skylake SP Microarchitecture Major

یک متدولوژی که اینتل استفاده می کند، ایجاد حافظه نهان L3 است. در اینجا اسلاید اینتل در مورد تفاوت و روند توضیح داده شده است:

Intel Skylake SP Microarchitecture L2 L3 1

نکته مهم اینجاست که به جای اینکه در حافظه نهان L2 و L3 کپی شود، داده ها می توانند مستقیماً در حافظه نهان L2 بارگیری شوند. اگر شما در ذخیره سازی حرفه ای هستید و به ردیف ذخیره سازی عادت کرده اید، این تقریباً شبیه به این است که می توانید داده ها را مستقیماً به یک NVMe لود کرده و سپس با آن کار کرده و سپس به هل دادن داده بپردازید، زیرا کمتر از یک ردیف SATA / SAS SSD یا لایه HDD به جای نیاز به کپی کردن آن در هر دو ردیف قبل از استفاده مورد نیاز است.

برای روشن شدن، اندازه کلی حافظه نهان با این طرح پایین می رود. L2 + L3 در Broadwell-EP 2.75MB و در Skylake-SP 2.375MB است. حافظه نهان Broadwell-EP L3 کپی از داده های حافظه نهان L2 را دارد بنابراین به طور مؤثر یک حافظه پنهان 2.5 مگابایتی است.

اینتل هرگز این دیدگاه را به ما ارائه نداده است اما طرح بسیار نادرستی که چرا این اثر به نظر می رسد چیزی شبیه به این است:

Intel Skylake SP Microarchitecture L3 Ca

از آنجا که هر هسته قادر است حافظه نهان L2 کمتری داشته باشد، می تواند در ظرفیت هایی بین 256KB و 1MB سود بیشتری کسب کند در حالی که نسبتاً کمی از 0-256KB و 1MB تا 2.375MB تسلیم می شود. 128 کیلوبایت نهایی باقیمانده است.

مجموعه تغییرات دستورالعمل Intel Xeon Skylake-SP شامل AVX-512

شاید تأثیرگذارترین تغییر، از دیدگاه تجارت، افزودن AVX-512 به مجموعه دستورالعمل Microarchitecture خانواده Intel Xeon باشد. گذشته از AVX-512 ، اینتل پیشرفت های معماری مجازی سازی و امنیتی را افزود.

Intel Skylake SP V Broadwell SP Average  1

ما می خواستیم انرژی را روی AVX-512 متمرکز کنیم. AVX-512 به بردارهای پهن 512 بیتی محاسبه می شود که سرعت را تا حد زیادی بهبود می بخشد.

Intel Skylake SP Microarchitecture L3 Ca 2

AVX-512 قبلاً Intel Xeon Phi x200 منحصر به فرد و در فضای HPC بود. در حین مرور HPC اینتل، دلیل منطقی برای افزودن دستورالعمل تنظیم شده در خط اصلی Xeon این بود که افرادی که مایل به انجام کار با محاسبات عمومی هستند در HPC می توانند به جای GPU یا تراشه های Xeon Phi از Xeon استفاده کنند.

مجموعه دستورالعمل AVX-512 با مجموعه دستورالعمل Knights Landing AVX-512 برابر نیست. اگر از gcc استفاده می کنید، احتمالاً باید با استفاده از پرچم های مختلف در مقابل آنچه برای Xeon Phi استفاده می شود ، کامپایل کنید.

در اینجا عملکرد و کارایی اینتل در AVX-512 وجود دارد.

Intel Skylake SP Microarchitecture L3 Ca 3

 

با استفاده از AVX و AVX2 ، شاهد افزایش مصرف برق و قدرت در سرعت ساعت معین بودیم. در نتیجه ، هسته های Intel در هنگام اجرای کد AVX ، به پایین می رسند.

Intel Skylake SP Microarchitecture AVX2  1

با وجود Microarchitecture خانواده Intel Xeon ، کد های مختلف در حال اجرا هستند و محدود شده با فرکانس مختلف قابل اجرا هستند. در نسخه های قدیمی تر CPU که AVX را روی یک هسته اجرا می کردند و این به معنای پایین آمدن تمام هسته ها است. اینتل مسیری طولانی را برای اجرای کنونی ساعت کاری خود در بارهای کاری AVX طی کرده است.

نتیجه گیری  ما از Microarchitecture خانواده Intel Xeon

تغییرات حافظه پنهان بسیار زیاد است زیرا بودجه ترانزیستور را به اینتل می دهد تا در جای دیگر استفاده کند. به همین ترتیب ، تغییرات FMA و AVX-512 بسیار قابل توجه هستند. ما اعتقاد داریم که گنجاندن AVX-512 ممکن است تأثیر عمیقی داشته باشد:

ما این پیش بینی را به چند دلیل انجام می دهیم. اول ، با انتقال AVX-512 به CPU ، اینتل راهی برای ترک کردنHPC  می دهد که می توانند در کنار GPU ها و / یا FPGA از آنها استفاده کرد. با استفاده از معماری های جایگزین HPC مانند ARM مبتنی بر Cavium ThunderX2 و GPU که عملکرد عظیم شناور را انجام می دهند، اینتل نیاز به تقویت هسته های محاسباتی استاندارد خود دارد.

برای بارهای در حال ظهور یادگیری هوش مصنوعی / عمیق، اینتل هر دو Altera و Nervana را به دست آورد. هر دو راه حل با کارایی بالا مناسب تر برای حل مشکلات یادگیری عمیق هستند. HPC و زیرساختهای یادگیری این روزها بسیار شبیه به هم هستند. با وجود تلاش های اینتل، حجم کار به سمت Xeon Phi منتقل نمی شود.

AVX-512 ویژگی از بین برنده Xeon Phi Knights Landing در کنار MCDRAM و Omni-Path است. از آنجا که تراشه های Xeon هسته محاسبات AVX-512 را به ارمغان می آورند، انتخاب عملکرد Knights Landing over Intel Skylake-SP در صورت ارائه عملکردهای مشابه بسیار دشوار است. اگر Knights Mill و نقشه راه آینده را تغییر ندهد، ممکن است Intel Xeon Phi تلفاتی از خانواده پردازنده های قابل پردازش اینتل Xeon Salel باشد.

No votes yet.
Please wait...

    دیدگاهتان را بنویسید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

    منو اصلی