متا از مدل زبان جدید طراحی شده برای جامعه تحقیقاتی هوش مصنوعی رونمایی کرد

در یک پست وبلاگی در روز جمعه اعلام شد، متا AI مدل زبان بزرگ متا (LLaMA) با در نظر گرفتن تیم های تحقیقاتی در هر اندازه طراحی شده است. به گفته متا، مدل LLaMA با تنها 10 درصد اندازه GPT-3 (ترانسفورماتور از پیش آموزش‌دیده نسل سوم)، منبعی کوچک اما با کارایی بالا ارائه می‌کند که می‌تواند توسط کوچک‌ترین تیم‌های تحقیقاتی نیز مورد استفاده قرار گیرد.

مقاله کامل تحقیق LLaMA برای دانلود و بررسی از وبلاگ Meta Research در دسترس است. علاقه مندان به درخواست دسترسی می توانند این کار را در فرم درخواست آنلاین متا انجام دهند.





منبع

متا بیش از پیش در مورد وضعیت LLaMA و قصد آنها برای تکامل بیشتر مدل بود. در حالی که این یک مدل پایه است که می‌تواند با تعدادی از موارد استفاده مختلف سازگار شود، این شرکت اذعان کرد که ناشناخته‌های مربوط به سوگیری عمدی و نظرات سمی همچنان تهدیدی هستند که باید مدیریت شوند. امید این شرکت این است که به اشتراک گذاری این مدل کوچک اما انعطاف پذیر منجر به رویکردهای جدیدی شود که می تواند راه های بالقوه بهره برداری از مدل را محدود یا در برخی موارد حذف کند.

امروز ما LLaMA، 4 مدل پایه را منتشر می کنیم که از پارامترهای 7B تا 65B متغیر است.
LLaMA-13B در بیشتر معیارها بهتر از OPT و GPT-3 175B عمل می کند. LLaMA-65B با چینچیلا 70B و PalM 540B قابل رقابت است.
وزنه ها برای همه مدل ها باز هستند و در https://t.co/q51f2oPZlE موجود هستند
1/n pic.twitter.com/DPyJFBfWEq

— لامپ گیوم (@GuillaumeLample) 24 فوریه 2023

بخونید:  10 داستان برتر بازی TechSpot در سال 2022: هنوز هم می توانید Doom را تقریباً روی هر چیزی بازی کنید

رویکرد متا با LLaMA در مقایسه با ChatGPT OpenAI، Bard Google یا Prometheus مایکروسافت به طور قابل توجهی متفاوت است. این شرکت مدل جدید را تحت یک مجوز غیرتجاری عرضه می‌کند و تعهد اعلام شده خود به عدالت و شفافیت هوش مصنوعی را تکرار می‌کند. دسترسی برای محققان در سازمان‌ها در سراسر دولت، دانشگاه‌ها و تحقیقات صنعتی که علاقه‌مند به استفاده از این مدل هستند، نیاز به درخواست مجوز و دسترسی اعطا شده بر اساس مورد به مورد دارد.

طبق کارت، این مدل با استفاده از CCNet (67٪)، C4 (15٪)، GitHub (4.5٪)، Wikipedia (4.5٪)، Books (4.5٪)، ArXiv (2.5٪) و Stack Exchange (استک اکسچنج) آموزش داده شده است. 2 درصد.

آن دسته از محققانی که با موفقیت مجوز دریافت می کنند، به مدل پایه کوچک و بسیار قابل دسترس LLaMA دسترسی خواهند داشت. متا LLaMA را در چندین پارامتر اندازه از جمله 7B، 13B، 33B و 65B در دسترس قرار می دهد. این شرکت همچنین کارت مدل LLaMA را در GitHub منتشر کرده است که جزئیات بیشتری در مورد خود مدل و منابع داده های آموزشی عمومی متا ارائه می دهد.

چیزی که باید منتظرش بود: غول‌های فناوری مانند مایکروسافت و گوگل در کنار OpenAI با تحقیقات و پیشرفت‌های خلاقانه‌ی هوش مصنوعی خود سرفصل اخبار را به خود اختصاص داده‌اند. مارک زاکربرگ و متا با عرضه مدل جدید زبان طبیعی خود، LLaMA، کلاه خود را در حلقه هوش مصنوعی انداخته اند. ظاهراً این مدل در اکثر معیارها بهتر از GPT-3 عمل می کند و تنها یک دهم اندازه کل GPT-3 است.

بخونید:  پلیس بریتانیا ویژگی Android SOS را پس از غرق شدن در تماس‌های اضطراری «بی‌صدا» مقصر می‌داند

این اندازه مدل تضمین می‌کند که تیم‌های کوچک با منابع محدود همچنان می‌توانند از مدل استفاده کنند و به پیشرفت‌های کلی هوش مصنوعی و یادگیری ماشین کمک کنند.