در ماه مه، Frontier به عنوان اولین ابررایانه ای که پس از تکمیل معیار HPL با امتیاز 1.102 ExaFlops/s، سد اگزااسکال را شکست، به TOP500 پیوست. از آن زمان، آزمایشگاه ملی Oak Ridge در تنسی، که مدیریت این ابررایانه را بر عهده دارد، آن را برای تحقیقات علمی که قرار است در ژانویه آغاز شود، آماده کرده است.
ما با بسیاری از چیزهایی که در اوایل زندگی با ماشینهای دیگری که به کار گرفتهایم دیدهایم سروکار داریم، بنابراین هیچ چیز غیرعادی نیست.»
ویت خاطرنشان کرد: «مشکلات در دستههای مختلفی قرار میگیرند، پردازندههای گرافیکی تنها یکی هستند. او افزود: “این یک گسترش بسیار خوبی در میان مقصران رایج خرابی قطعات بوده است که بخش بزرگی از آن بوده است. من فکر نمیکنم در این مرحله ما نگرانی زیادی در مورد محصولات AMD داشته باشیم.”
برای خواندن مصاحبه کامل به Inside HPC بروید.
با این حال، گزارشهایی مبنی بر اینکه راهاندازی Frontier میتواند به دلیل خرابیهای سختافزاری بیش از حد متوقف شود، وجود دارد. در جستجوی پاسخ، Inside HPC مصاحبه ای با مدیر برنامه در Oak Ridge، جاستین ویت ترتیب داد. در این مصاحبه، او تایید کرد که Frontier دچار اختلالات روزانه سیستم میشود، اما تاکید کرد که در چنین سیستم بزرگی اجتنابناپذیر است.
“هدف ما هنوز ساعت هاست.”
Frontier در کلاس خودش قرار دارد. این دستگاه دارای 9408 گره HPE Cray EX235a است که هر کدام از پردازنده 64 هستهای AMD Trento 7A53 Epyc مجهز به 512 گیگابایت DDR4 و چهار پردازنده گرافیکی / شتابدهنده AMD Instinct MI250X که هر کدام به 128 گیگابایت HBM2e مجهز شدهاند. در مجموع، این سیستم دارای 602112 هسته CPU و 8138240 هسته پردازشگر گرافیکی در مجموع و 4.6 PB از DDR4 و HBM2e است.
او گفت: “میانگین زمان بین خرابی در سیستمی به این اندازه ساعت ها است، روزها نیست.” بنابراین باید مطمئن شوید که متوجه شده اید که این شکست ها چیست و هیچ الگوی برای آن شکست ها وجود ندارد که باید نگران آن باشید. ویت افزود که گذراندن یک روز بدون شکست “بسیار فوق العاده خواهد بود.”
به طور خلاصه: Frontier، قدرتمندترین ابررایانه جهان، آنلاین است اما هنوز تا عملیاتی شدن فاصله دارد. مدیر آن گزارشهایی را تأیید کرده است که هر چند ساعت یک بار با یک نقص سیستم مواجه میشود، اما اصرار دارد که این برای دوره مشابه است.
ویت پذیرفت که مقیاس بیسابقه Frontier تنظیم دقیق آن را «کمی سختتر» کرده است، اما گفت که با وجود تأخیرهای ناشی از همهگیری، همچنان از برنامه تعیینشده در سالهای 2018-2019 پیروی میکنند.
شایعاتی وجود داشت که مشکلات سخت افزاری ناشی از AMD Instinct MI250X جدید است، اما ویت آنها را رد کرد. MI250X قدرتمندترین پردازنده گرافیکی/شتاب دهنده AMD است و آن را فقط به شرکای منتخب می فروشد. دارای 220 CU شامل 14080 هسته با کلاک 1700 مگاهرتز در یک بسته 500 واتی است.