در یک پست وبلاگی در روز جمعه اعلام شد، متا AI مدل زبان بزرگ متا (LLaMA) با در نظر گرفتن تیم های تحقیقاتی در هر اندازه طراحی شده است. به گفته متا، مدل LLaMA با تنها 10 درصد اندازه GPT-3 (ترانسفورماتور از پیش آموزشدیده نسل سوم)، منبعی کوچک اما با کارایی بالا ارائه میکند که میتواند توسط کوچکترین تیمهای تحقیقاتی نیز مورد استفاده قرار گیرد.
مقاله کامل تحقیق LLaMA برای دانلود و بررسی از وبلاگ Meta Research در دسترس است. علاقه مندان به درخواست دسترسی می توانند این کار را در فرم درخواست آنلاین متا انجام دهند.
متا بیش از پیش در مورد وضعیت LLaMA و قصد آنها برای تکامل بیشتر مدل بود. در حالی که این یک مدل پایه است که میتواند با تعدادی از موارد استفاده مختلف سازگار شود، این شرکت اذعان کرد که ناشناختههای مربوط به سوگیری عمدی و نظرات سمی همچنان تهدیدی هستند که باید مدیریت شوند. امید این شرکت این است که به اشتراک گذاری این مدل کوچک اما انعطاف پذیر منجر به رویکردهای جدیدی شود که می تواند راه های بالقوه بهره برداری از مدل را محدود یا در برخی موارد حذف کند.
امروز ما LLaMA، 4 مدل پایه را منتشر می کنیم که از پارامترهای 7B تا 65B متغیر است. LLaMA-13B در بیشتر معیارها بهتر از OPT و GPT-3 175B عمل می کند. LLaMA-65B با چینچیلا 70B و PalM 540B قابل رقابت است. وزنه ها برای همه مدل ها باز هستند و در https://t.co/q51f2oPZlE موجود هستند 1/n pic.twitter.com/DPyJFBfWEq
رویکرد متا با LLaMA در مقایسه با ChatGPT OpenAI، Bard Google یا Prometheus مایکروسافت به طور قابل توجهی متفاوت است. این شرکت مدل جدید را تحت یک مجوز غیرتجاری عرضه میکند و تعهد اعلام شده خود به عدالت و شفافیت هوش مصنوعی را تکرار میکند. دسترسی برای محققان در سازمانها در سراسر دولت، دانشگاهها و تحقیقات صنعتی که علاقهمند به استفاده از این مدل هستند، نیاز به درخواست مجوز و دسترسی اعطا شده بر اساس مورد به مورد دارد.
طبق کارت، این مدل با استفاده از CCNet (67٪)، C4 (15٪)، GitHub (4.5٪)، Wikipedia (4.5٪)، Books (4.5٪)، ArXiv (2.5٪) و Stack Exchange (استک اکسچنج) آموزش داده شده است. 2 درصد.
آن دسته از محققانی که با موفقیت مجوز دریافت می کنند، به مدل پایه کوچک و بسیار قابل دسترس LLaMA دسترسی خواهند داشت. متا LLaMA را در چندین پارامتر اندازه از جمله 7B، 13B، 33B و 65B در دسترس قرار می دهد. این شرکت همچنین کارت مدل LLaMA را در GitHub منتشر کرده است که جزئیات بیشتری در مورد خود مدل و منابع داده های آموزشی عمومی متا ارائه می دهد.
چیزی که باید منتظرش بود: غولهای فناوری مانند مایکروسافت و گوگل در کنار OpenAI با تحقیقات و پیشرفتهای خلاقانهی هوش مصنوعی خود سرفصل اخبار را به خود اختصاص دادهاند. مارک زاکربرگ و متا با عرضه مدل جدید زبان طبیعی خود، LLaMA، کلاه خود را در حلقه هوش مصنوعی انداخته اند. ظاهراً این مدل در اکثر معیارها بهتر از GPT-3 عمل می کند و تنها یک دهم اندازه کل GPT-3 است.
این اندازه مدل تضمین میکند که تیمهای کوچک با منابع محدود همچنان میتوانند از مدل استفاده کنند و به پیشرفتهای کلی هوش مصنوعی و یادگیری ماشین کمک کنند.