اولین ابررایانه exascale هر روز دچار نقص سخت افزاری می شود


به طور خلاصه: Frontier، قدرتمندترین ابررایانه جهان، آنلاین است اما هنوز تا عملیاتی شدن فاصله دارد. مدیر آن گزارش‌هایی را تأیید کرده است که هر چند ساعت یک بار با یک نقص سیستم مواجه می‌شود، اما اصرار دارد که این برای دوره مشابه است.

Frontier در کلاس خودش قرار دارد. این دستگاه دارای 9408 گره HPE Cray EX235a است که هر کدام از پردازنده 64 هسته‌ای AMD Trento 7A53 Epyc مجهز به 512 گیگابایت DDR4 و چهار پردازنده گرافیکی / شتاب‌دهنده AMD Instinct MI250X که هر کدام به 128 گیگابایت HBM2e مجهز شده‌اند. در مجموع، این سیستم دارای 602112 هسته CPU و 8138240 هسته پردازشگر گرافیکی در مجموع و 4.6 PB از DDR4 و HBM2e است.

در ماه مه، Frontier به عنوان اولین ابررایانه ای که پس از تکمیل معیار HPL با امتیاز 1.102 ExaFlops/s، سد اگزااسکال را شکست، به TOP500 پیوست. از آن زمان، آزمایشگاه ملی Oak Ridge در تنسی، که مدیریت این ابررایانه را بر عهده دارد، آن را برای تحقیقات علمی که قرار است در ژانویه آغاز شود، آماده کرده است.

با این حال، گزارش‌هایی مبنی بر اینکه راه‌اندازی Frontier می‌تواند به دلیل خرابی‌های سخت‌افزاری بیش از حد متوقف شود، وجود دارد. در جستجوی پاسخ، Inside HPC مصاحبه ای با مدیر برنامه در Oak Ridge، جاستین ویت ترتیب داد. در این مصاحبه، او تایید کرد که Frontier دچار اختلالات روزانه سیستم می‌شود، اما تاکید کرد که در چنین سیستم بزرگی اجتناب‌ناپذیر است.

او گفت: “میانگین زمان بین خرابی در سیستمی به این اندازه ساعت ها است، روزها نیست.” بنابراین باید مطمئن شوید که متوجه شده اید که این شکست ها چیست و هیچ الگوی برای آن شکست ها وجود ندارد که باید نگران آن باشید. ویت افزود که گذراندن یک روز بدون شکست “بسیار فوق العاده خواهد بود.”

“هدف ما هنوز ساعت هاست.”

شایعاتی وجود داشت که مشکلات سخت افزاری ناشی از AMD Instinct MI250X جدید است، اما ویت آنها را رد کرد. MI250X قدرتمندترین پردازنده گرافیکی/شتاب دهنده AMD است و آن را فقط به شرکای منتخب می فروشد. دارای 220 CU شامل 14080 هسته با کلاک 1700 مگاهرتز در یک بسته 500 واتی است.

ویت خاطرنشان کرد: «مشکلات در دسته‌های مختلفی قرار می‌گیرند، پردازنده‌های گرافیکی تنها یکی هستند. او افزود: “این یک گسترش بسیار خوبی در میان مقصران رایج خرابی قطعات بوده است که بخش بزرگی از آن بوده است. من فکر نمی‌کنم در این مرحله ما نگرانی زیادی در مورد محصولات AMD داشته باشیم.”

ما با بسیاری از چیزهایی که در اوایل زندگی با ماشین‌های دیگری که به کار گرفته‌ایم دیده‌ایم سروکار داریم، بنابراین هیچ چیز غیرعادی نیست.»

ویت پذیرفت که مقیاس بی‌سابقه Frontier تنظیم دقیق آن را «کمی سخت‌تر» کرده است، اما گفت که با وجود تأخیرهای ناشی از همه‌گیری، همچنان از برنامه تعیین‌شده در سال‌های 2018-2019 پیروی می‌کنند.

برای خواندن مصاحبه کامل به Inside HPC بروید.



منبع