OpenAI با موفقیت یک ربات Minecraft را با استفاده از 70000 ساعت ویدیوی گیم پلی آموزش داد

ربات OpenAI یک نمونه عالی از یادگیری تقلید (که “یادگیری تحت نظارت” نیز نامیده می شود) در عمل است. بر خلاف یادگیری تقویتی، که در آن عامل یادگیری پس از رسیدن به هدف از طریق آزمون و خطا، پاداش می گیرد، یادگیری تقلید شبکه های عصبی را آموزش می دهد تا وظایف خاصی را با مشاهده کامل انسان ها انجام دهند. در این مورد، OpenAI از ویدیوها و آموزش‌های گیم‌پلی موجود استفاده کرد تا به ربات خود آموزش دهد تا توالی‌های پیچیده درون بازی را اجرا کند که برای دستیابی به تقریباً 24000 اقدام فردی برای بازیکن معمولی انجام می‌شود.

یادگیری تقلید مستلزم برچسب گذاری ورودی های ویدئویی برای ارائه زمینه عمل و نتیجه مشاهده شده است. متأسفانه، این رویکرد می‌تواند بسیار کار فشرده باشد، که منجر به مجموعه داده‌های موجود محدود می‌شود. این کمبود مجموعه داده های موجود در نهایت توانایی عامل را برای یادگیری از طریق مشاهده محدود می کند.

کل تمرین ارزش بالقوه مخازن ویدئویی موجود، مانند یوتیوب را به عنوان یک منبع آموزشی هوش مصنوعی ثابت می کند. دانشمندان یادگیری ماشینی می توانند از ویدئوهای موجود و دارای برچسب مناسب برای آموزش هوش مصنوعی برای انجام وظایف خاص، از ناوبری ساده وب تا کمک به کاربرانی که نیازهای فیزیکی واقعی دارند، استفاده کنند.



منبع

چرا مهم است: Minecraft ممکن است ابزار مهمی نباشد که از تحقیقات پیشرفته هوش مصنوعی پشتیبانی می کند. به هر حال، چه چیزی می تواند در مورد آموزش یک ماشین برای بازی کردن یک بازی sandbox که بیش از یک دهه پیش منتشر شده است، اینقدر مهم باشد؟ بر اساس تلاش‌های اخیر OpenAI، یک ربات Minecraft که به خوبی آموزش دیده است، بیش از آن چیزی که بیشتر مردم تصور می‌کنند به پیشرفت هوش مصنوعی مرتبط است.

بخونید:  کارخانه ریخته گری تراشه های حافظه سامسونگ در سه ماهه اول 2023 3.04 میلیارد دلار ضرر خواهد کرد

OpenAI همیشه بر هوش مصنوعی (AI) و پیشرفت‌های یادگیری ماشینی تمرکز کرده است که به نفع بشریت است. اخیرا، این شرکت با موفقیت یک ربات را برای بازی Minecraft با استفاده از بیش از 70000 ساعت ویدیوی گیم پلی آموزش داد. این دستاورد بسیار بیشتر از یک ربات است که یک بازی را انجام می دهد. این یک گام بزرگ رو به جلو در یادگیری ماشینی پیشرفته با استفاده از مشاهده و تقلید است.

تیم تحقیقاتی OpenAI به‌جای انجام تمرینات گسترده برچسب‌گذاری داده‌ها، از رویکرد خاصی به نام «پیش‌آموزش ویدیویی» (VPT) برای افزایش چشمگیر تعداد ویدیوهای برچسب‌گذاری‌شده در دسترس استفاده کرد. محققان در ابتدا 2000 ساعت از گیم پلی بازی Minecraft مشروح شده را ضبط کردند و از آن برای آموزش یک عامل برای مرتبط کردن اقدامات خاص با نتایج خاص روی صفحه استفاده کردند. سپس مدل به دست آمده برای تولید خودکار برچسب‌ها برای 70000 ساعت محتوای Minecraft که قبلاً برچسب‌گذاری نشده بود، به‌راحتی در دسترس آنلاین قرار گرفت و مجموعه داده بسیار بزرگ‌تری را برای مرور و تقلید برای ربات Minecraft فراهم کرد.