برداشت سردبیر: به عنوان یک نوازنده قدیمی الکترونیک (و سردبیر سابق مجلات Electronic Musician و Music Technology)، همیشه شیفته سینتی سایزرهای موسیقی بودم. این ابزارها با بهرهگیری از مجموعهای از مدارهای تخصصی، برای تولید آرایه عظیمی از صداهای جذاب از مواد اولیه صوتی خام طراحی شدهاند. از چندین جهت، رشد سریع ابزارهای مولد هوش مصنوعی امروزی شباهت های جالبی با آنها دارد، زیرا می توانند محتوای بسیار چشمگیر را از ترکیب “توکن های” ساده کلمه مانند (البته میلیاردها نفر از آنها!) ترکیب کنند. ابزارهای مولد هوش مصنوعی، به معنای واقعی، سینت سایزر محتوا هستند.
آخرین ورودی به رقابت ترکیبی محتوا از طرف Google است، که مجموعهای قابل توجه از قابلیتهای جدید را از طریق بهروزرسانیهای Google Cloud و مجموعه بهرهوری Google Workspace آن به بازار آورده است (Workspace، که قبلاً G Suite نام داشت شامل Gmail، Google Calendar، Google Drive، Google Docs و Google Meet).
پس از اینکه اجازه داد مایکروسافت در چند هفته گذشته با مشارکت OpenAI ChatGPT خود بیشترین توجه را به خود جلب کند – تا جایی که مقالاتی که جاهطلبیهای گوگل برای هوش مصنوعی مولد را زیر سوال میبردند – واضح است که این شرکت مدتها به عنوان یک رهبر هوش مصنوعی تلقی میشد. بر روی موفقیت خود استراحت نکرده است. اولین کار امروز مجموعه ای جامع از برنامه ها، خدمات و رویکردهای جدید جالب را ارائه می دهد که به وضوح نشان می دهد که گوگل قصد ندارد بازار هوش مصنوعی مولد را به کسی واگذار کند.
این شرکت از چندین قابلیت جدید برای Google Cloud پرده برداری کرد، یک App Builder جدید Generative AI برای توسعه دهندگان حرفه ای، قابلیت های آینده برای همه برنامه های بهره وری در Google Workspace، Maker Suite برای «توسعه دهندگان شهروند» کمتر باتجربه، یک مدل جدید زبان بزرگ PaLM (LLM) ) و توانایی ادغام برنامه های شخص ثالث و LLM ها در مجموعه پیشنهادات خود.
صادقانه بگویم، این حجم عظیمی از اطلاعات است که باید در یک محیط دریافت کرد، اما ثابت می کند، اگر هیچ چیز دیگری، بسیاری از افراد در گوگل برای مدت طولانی روی این موارد کار می کنند.
با این حال، همه قابلیت ها بلافاصله در دسترس نخواهد بود. گوگل چشم اندازی از برخی چیزهایی که اکنون دارد ارائه کرد و به اشتراک گذاشت که در آینده به چه سمتی می رود، اما در بازار فوق العاده پویا که هوش مصنوعی مولد است، این شرکت به وضوح احساس می کرد که مجبور به ارائه یک بیانیه است.
برخی از جالبترین جنبههای چشمانداز گوگل برای هوش مصنوعی مولد در مورد باز بودن و توانایی همکاری با شرکتهای دیگر است. به عنوان مثال، گوگل در مورد ایده یک مدل پایه “باغ وحش” صحبت کرد که در آن LLM های مختلف می توانند به برنامه های مختلف متصل شوند. بنابراین، برای مثال، در حالی که مطمئناً میتوانید از متن جدید ارتقا یافته PALM (مدل زبان مسیرها) یا مدلهای چت PALM در برنامههای کاربردی سازمانی از طریق تماسهای API استفاده کنید، میتوانید از سایر LLMهای شخص ثالث یا حتی منبع باز به جای آنها استفاده کنید.
درجه انعطاف پذیری در LLM های مختلف قابل توجه بود، اگرچه من نیز نمی توانستم فکر کنم که بخش های فناوری اطلاعات شرکت ها می توانند به سرعت تحت تأثیر طیف وسیعی از انتخاب های موجود قرار بگیرند. با توجه به تقاضاهای اجتناب ناپذیر برای آزمایش و انطباق، ممکن است محدودیت تعداد گزینه هایی که سازمان ها می توانند استفاده کنند (حداقل در ابتدا) ارزشی داشته باشد.
گوگل با تاکید بر اینکه سازمان ها می توانند داده های خود را در بالای LLM های گوگل ادغام کنند تا آنها را بر اساس نیازهای منحصر به فرد یک سازمان سفارشی کنند، تاکید کرد. برای مثال، شرکتها میتوانند برخی از محتوای اصلی خود، تصاویر، سبکها و غیره را در یک LLM موجود وارد کنند، و سپس آن مدل سفارشی میتواند بهعنوان موتور هستهای مولد هوش مصنوعی برای برنامههای کاربردی ترکیب محتوای سازمان استفاده شود. این سفارشیسازیها میتواند برای بسیاری از سازمانها جذاب باشد.
همچنین اعلامیههای زیادی درباره شراکتهایی که گوگل با فروشندگان مختلف دارد، از استارتآپهای هوش مصنوعی کمشناخته مانند AI21Labs و Osmo گرفته تا توسعهدهندگانی که به سرعت در حال رشد هستند، مانند Replit، سازنده ابزار تولید کد یا توسعهدهندگان LLM Anthropic و Cohere، وجود دارد. در کنار تصاویر مولد، آنها کار با Midjourney را برجسته کردند، که نه تنها امکان ایجاد اولیه تصاویر را از طریق توضیحات متنی، بلکه ویرایشها و اصلاحات مبتنی بر متن را نیز فراهم میکند.
گوگل همچنین بر قابلیت سفارشی سازی در مدل های موجود تاکید کرد. این شرکت نشان داد که چگونه افراد می توانند تنظیمات پارامترهای مدل مختلف را به عنوان بخشی از پرس و جو اولیه خود تنظیم کنند تا سطح دقت، خلاقیت و موارد بیشتری را که می توانند از خروجی انتظار داشته باشند، تنظیم کنند. متأسفانه، در سبک کلاسیک گوگل، از اصطلاحات بسیار مهندسی خاص برای برخی از این پارامترها استفاده می شود که مشخص نیست آیا کاربران عادی واقعاً قادر به درک آنها هستند یا خیر. با این حال، مفهوم پشت آن عالی است، و خوشبختانه، عبارت پارامتر قابل ویرایش است.
مسلماً، سایر ابزارهای هوش مصنوعی مولد این نوع قابلیتها را نشان دادهاند، اما رابط کاربری و مدل تجربه کلی که گوگل نشان داد بسیار بصری به نظر میرسد.
برخی از جالبترین نمایشهای محتوایی که Google برای Workspace نشان داده است شامل توانایی ویرایش محتوای موجود (مثلاً از لحن نوشتاری رسمیتر به لحن معمولیتر) یا برونیابی از یک درخواست ورودی نسبتاً محدود است. مسلماً، سایر ابزارهای مولد هوش مصنوعی قبلاً این نوع قابلیتها را نشان دادهاند، اما رابط کاربری و مدل تجربه کلی که گوگل نشان داد بسیار بصری به نظر میرسد.
در میان ویژگیهای کلیدی هوش مصنوعی که به Workspace میآیند، گوگل برجسته میکند:
- جیمیل خود را پیش نویس، پاسخ، خلاصه و اولویت بندی کنید
- طوفان فکری، تصحیح، نوشتن، و بازنویسی در Docs
- با تصاویر، صدا و ویدیوهای تولید شده خودکار در اسلایدها، دید خلاقانه خود را زنده کنید
- از طریق تکمیل خودکار، تولید فرمول و طبقهبندی متنی در Sheets، از دادههای خام به بینش و تجزیه و تحلیل بروید.
- پسزمینه جدید ایجاد کنید و در Meet یادداشتبرداری کنید
- گردش کار را برای انجام کارها در چت فعال کنید
علاوه بر نرمافزار، گوگل به بخش سختافزاری زیرساخت Google Cloud نیز اشاره کرد که میتواند از تمامی این تلاشها برای Vertex AI و Workspace پشتیبانی کند. این شرکت اشاره کرد که تعداد زیادی از این بارهای کاری توسط ترکیب های مختلف TPU های خود و همچنین پردازنده های گرافیکی قدرتمند انویدیا تامین می شوند. در حالی که بیشتر تمرکز روی برنامههای هوش مصنوعی مولد فقط بر روی نرمافزار بوده است، شکی نیست که نوآوریهای سختافزاری در فضای نیمهرسانا و سرور همچنان تاثیر زیادی بر پیشرفتهای هوش مصنوعی خواهد داشت.
با بازگشت به قیاس سینتی سایزر، پیشرفتهای LLM که پیشنهادات جدید Google آنها را برجسته میکند، منعکسکننده تنوع موتورهای صوتی مختلف و معماریهای مورد استفاده برای طراحی آنها است. همانطور که انواع مختلفی از سینتی سایزرها وجود دارد، با تفاوت های اصلی ناشی از منبع خام مورد استفاده در موتور صوتی و جریان سیگنالی که از طریق آن انجام می شود، من نیز انتظار دارم که تنوع بیشتری را در LLM های پایه ببینم. احتمالاً تنوعی از مواد منبع مورد استفاده برای مدلهای مختلف و معماریهای مختلف وجود خواهد داشت که از طریق آنها پردازش خواهند شد. به طور مشابه، درجه «برنامهنویسی» نیز احتمالاً کمی متفاوت خواهد بود، از تعداد کمی از گزینههای از پیش تعیین شده تا انعطافپذیری کامل (اما به طور بالقوه بسیار زیاد) ماژولار – درست همانطور که در دنیای سینت سایزرها یافت میشود.
از نظر در دسترس بودن، بسیاری از قابلیتهای جدید گوگل در ابتدا محدود به مجموعهای از آزمایشکنندگان قابل اعتماد است و قیمتگذاری (و حتی گزینههای خرید) برای این خدمات هنوز اعلام نشده است.
برای کاربران عادی، برخی از ابزارهای تولید محتوای مبتنی بر متن در Docs و Gmail احتمالاً اولین طعم هوش مصنوعی مولد مبتنی بر Google است که احتمالاً بسیاری آن را تجربه خواهند کرد. و مانند مایکروسافت، تکرارها و بهبودهای آینده بدون شک با سرعت بسیار بالایی انجام خواهند شد.
شکی وجود ندارد که ما وارد یک دوره جدید بسیار هیجان انگیز و رقابتی در محاسبات سازمانی و به طور کلی دنیای فناوری شده ایم. ابزارهای مولد هوش مصنوعی طیف شگفتانگیزی از برنامههای بالقوه جدید و بهبودهای بهرهوری را برانگیختهاند که ما واقعاً تازه شروع کردهایم به ذهنمان. مانند بسیاری از روندهای بزرگ فناوری، تبلیغات بیش از حد اجتناب ناپذیر است. با این حال، همچنین واضح است که گوگل اکنون به طور قاطعانه ای در زمینه دنیای به سرعت در حال تکامل ابزارها و خدمات هوش مصنوعی مولد سهمی قرار داده است. آنچه بعدا اتفاق می افتد مشخص نیست، اما تماشای آن فوق العاده هیجان انگیز خواهد بود.
Bob O’Donnell بنیانگذار و تحلیلگر ارشد TECHnalysis Research، LLC یک شرکت مشاوره فناوری است که خدمات مشاوره استراتژیک و تحقیقات بازار را به صنعت فناوری و جامعه مالی حرفه ای ارائه می دهد. می توانید او را در توییتر دنبال کنید @bobodtech.