ربات OpenAI یک نمونه عالی از یادگیری تقلید (که “یادگیری تحت نظارت” نیز نامیده می شود) در عمل است. بر خلاف یادگیری تقویتی، که در آن عامل یادگیری پس از رسیدن به هدف از طریق آزمون و خطا، پاداش می گیرد، یادگیری تقلید شبکه های عصبی را آموزش می دهد تا وظایف خاصی را با مشاهده کامل انسان ها انجام دهند. در این مورد، OpenAI از ویدیوها و آموزشهای گیمپلی موجود استفاده کرد تا به ربات خود آموزش دهد تا توالیهای پیچیده درون بازی را اجرا کند که برای دستیابی به تقریباً 24000 اقدام فردی برای بازیکن معمولی انجام میشود.
یادگیری تقلید مستلزم برچسب گذاری ورودی های ویدئویی برای ارائه زمینه عمل و نتیجه مشاهده شده است. متأسفانه، این رویکرد میتواند بسیار کار فشرده باشد، که منجر به مجموعه دادههای موجود محدود میشود. این کمبود مجموعه داده های موجود در نهایت توانایی عامل را برای یادگیری از طریق مشاهده محدود می کند.
کل تمرین ارزش بالقوه مخازن ویدئویی موجود، مانند یوتیوب را به عنوان یک منبع آموزشی هوش مصنوعی ثابت می کند. دانشمندان یادگیری ماشینی می توانند از ویدئوهای موجود و دارای برچسب مناسب برای آموزش هوش مصنوعی برای انجام وظایف خاص، از ناوبری ساده وب تا کمک به کاربرانی که نیازهای فیزیکی واقعی دارند، استفاده کنند.
چرا مهم است: Minecraft ممکن است ابزار مهمی نباشد که از تحقیقات پیشرفته هوش مصنوعی پشتیبانی می کند. به هر حال، چه چیزی می تواند در مورد آموزش یک ماشین برای بازی کردن یک بازی sandbox که بیش از یک دهه پیش منتشر شده است، اینقدر مهم باشد؟ بر اساس تلاشهای اخیر OpenAI، یک ربات Minecraft که به خوبی آموزش دیده است، بیش از آن چیزی که بیشتر مردم تصور میکنند به پیشرفت هوش مصنوعی مرتبط است.
OpenAI همیشه بر هوش مصنوعی (AI) و پیشرفتهای یادگیری ماشینی تمرکز کرده است که به نفع بشریت است. اخیرا، این شرکت با موفقیت یک ربات را برای بازی Minecraft با استفاده از بیش از 70000 ساعت ویدیوی گیم پلی آموزش داد. این دستاورد بسیار بیشتر از یک ربات است که یک بازی را انجام می دهد. این یک گام بزرگ رو به جلو در یادگیری ماشینی پیشرفته با استفاده از مشاهده و تقلید است.
تیم تحقیقاتی OpenAI بهجای انجام تمرینات گسترده برچسبگذاری دادهها، از رویکرد خاصی به نام «پیشآموزش ویدیویی» (VPT) برای افزایش چشمگیر تعداد ویدیوهای برچسبگذاریشده در دسترس استفاده کرد. محققان در ابتدا 2000 ساعت از گیم پلی بازی Minecraft مشروح شده را ضبط کردند و از آن برای آموزش یک عامل برای مرتبط کردن اقدامات خاص با نتایج خاص روی صفحه استفاده کردند. سپس مدل به دست آمده برای تولید خودکار برچسبها برای 70000 ساعت محتوای Minecraft که قبلاً برچسبگذاری نشده بود، بهراحتی در دسترس آنلاین قرار گرفت و مجموعه داده بسیار بزرگتری را برای مرور و تقلید برای ربات Minecraft فراهم کرد.