گوگل از ابزارهای هوش مصنوعی برای Gmail، Google Docs، Meet و غیره رونمایی می کند


برداشت سردبیر: به عنوان یک نوازنده قدیمی الکترونیک (و سردبیر سابق مجلات Electronic Musician و Music Technology)، همیشه شیفته سینتی سایزرهای موسیقی بودم. این ابزارها با بهره‌گیری از مجموعه‌ای از مدارهای تخصصی، برای تولید آرایه عظیمی از صداهای جذاب از مواد اولیه صوتی خام طراحی شده‌اند. از چندین جهت، رشد سریع ابزارهای مولد هوش مصنوعی امروزی شباهت های جالبی با آنها دارد، زیرا می توانند محتوای بسیار چشمگیر را از ترکیب “توکن های” ساده کلمه مانند (البته میلیاردها نفر از آنها!) ترکیب کنند. ابزارهای مولد هوش مصنوعی، به معنای واقعی، سینت سایزر محتوا هستند.

آخرین ورودی به رقابت ترکیبی محتوا از طرف Google است، که مجموعه‌ای قابل توجه از قابلیت‌های جدید را از طریق به‌روزرسانی‌های Google Cloud و مجموعه بهره‌وری Google Workspace آن به بازار آورده است (Workspace، که قبلاً G Suite نام داشت شامل Gmail، Google Calendar، Google Drive، Google Docs و Google Meet).

پس از اینکه اجازه داد مایکروسافت در چند هفته گذشته با مشارکت OpenAI ChatGPT خود بیشترین توجه را به خود جلب کند – تا جایی که مقالاتی که جاه‌طلبی‌های گوگل برای هوش مصنوعی مولد را زیر سوال می‌بردند – واضح است که این شرکت مدت‌ها به عنوان یک رهبر هوش مصنوعی تلقی می‌شد. بر روی موفقیت خود استراحت نکرده است. اولین کار امروز مجموعه ای جامع از برنامه ها، خدمات و رویکردهای جدید جالب را ارائه می دهد که به وضوح نشان می دهد که گوگل قصد ندارد بازار هوش مصنوعی مولد را به کسی واگذار کند.

این شرکت از چندین قابلیت جدید برای Google Cloud پرده برداری کرد، یک App Builder جدید Generative AI برای توسعه دهندگان حرفه ای، قابلیت های آینده برای همه برنامه های بهره وری در Google Workspace، Maker Suite برای «توسعه دهندگان شهروند» کمتر باتجربه، یک مدل جدید زبان بزرگ PaLM (LLM) ) و توانایی ادغام برنامه های شخص ثالث و LLM ها در مجموعه پیشنهادات خود.

صادقانه بگویم، این حجم عظیمی از اطلاعات است که باید در یک محیط دریافت کرد، اما ثابت می کند، اگر هیچ چیز دیگری، بسیاری از افراد در گوگل برای مدت طولانی روی این موارد کار می کنند.

با این حال، همه قابلیت ها بلافاصله در دسترس نخواهد بود. گوگل چشم اندازی از برخی چیزهایی که اکنون دارد ارائه کرد و به اشتراک گذاشت که در آینده به چه سمتی می رود، اما در بازار فوق العاده پویا که هوش مصنوعی مولد است، این شرکت به وضوح احساس می کرد که مجبور به ارائه یک بیانیه است.

برخی از جالب‌ترین جنبه‌های چشم‌انداز گوگل برای هوش مصنوعی مولد در مورد باز بودن و توانایی همکاری با شرکت‌های دیگر است. به عنوان مثال، گوگل در مورد ایده یک مدل پایه “باغ وحش” صحبت کرد که در آن LLM های مختلف می توانند به برنامه های مختلف متصل شوند. بنابراین، برای مثال، در حالی که مطمئناً می‌توانید از متن جدید ارتقا یافته PALM (مدل زبان مسیرها) یا مدل‌های چت PALM در برنامه‌های کاربردی سازمانی از طریق تماس‌های API استفاده کنید، می‌توانید از سایر LLM‌های شخص ثالث یا حتی منبع باز به جای آنها استفاده کنید.

درجه انعطاف پذیری در LLM های مختلف قابل توجه بود، اگرچه من نیز نمی توانستم فکر کنم که بخش های فناوری اطلاعات شرکت ها می توانند به سرعت تحت تأثیر طیف وسیعی از انتخاب های موجود قرار بگیرند. با توجه به تقاضاهای اجتناب ناپذیر برای آزمایش و انطباق، ممکن است محدودیت تعداد گزینه هایی که سازمان ها می توانند استفاده کنند (حداقل در ابتدا) ارزشی داشته باشد.

گوگل با تاکید بر اینکه سازمان ها می توانند داده های خود را در بالای LLM های گوگل ادغام کنند تا آنها را بر اساس نیازهای منحصر به فرد یک سازمان سفارشی کنند، تاکید کرد. برای مثال، شرکت‌ها می‌توانند برخی از محتوای اصلی خود، تصاویر، سبک‌ها و غیره را در یک LLM موجود وارد کنند، و سپس آن مدل سفارشی می‌تواند به‌عنوان موتور هسته‌ای مولد هوش مصنوعی برای برنامه‌های کاربردی ترکیب محتوای سازمان استفاده شود. این سفارشی‌سازی‌ها می‌تواند برای بسیاری از سازمان‌ها جذاب باشد.

همچنین اعلامیه‌های زیادی درباره شراکت‌هایی که گوگل با فروشندگان مختلف دارد، از استارت‌آپ‌های هوش مصنوعی کم‌شناخته مانند AI21Labs و Osmo گرفته تا توسعه‌دهندگانی که به سرعت در حال رشد هستند، مانند Replit، سازنده ابزار تولید کد یا توسعه‌دهندگان LLM Anthropic و Cohere، وجود دارد. در کنار تصاویر مولد، آنها کار با Midjourney را برجسته کردند، که نه تنها امکان ایجاد اولیه تصاویر را از طریق توضیحات متنی، بلکه ویرایش‌ها و اصلاحات مبتنی بر متن را نیز فراهم می‌کند.

گوگل همچنین بر قابلیت سفارشی سازی در مدل های موجود تاکید کرد. این شرکت نشان داد که چگونه افراد می توانند تنظیمات پارامترهای مدل مختلف را به عنوان بخشی از پرس و جو اولیه خود تنظیم کنند تا سطح دقت، خلاقیت و موارد بیشتری را که می توانند از خروجی انتظار داشته باشند، تنظیم کنند. متأسفانه، در سبک کلاسیک گوگل، از اصطلاحات بسیار مهندسی خاص برای برخی از این پارامترها استفاده می شود که مشخص نیست آیا کاربران عادی واقعاً قادر به درک آنها هستند یا خیر. با این حال، مفهوم پشت آن عالی است، و خوشبختانه، عبارت پارامتر قابل ویرایش است.

مسلماً، سایر ابزارهای هوش مصنوعی مولد این نوع قابلیت‌ها را نشان داده‌اند، اما رابط کاربری و مدل تجربه کلی که گوگل نشان داد بسیار بصری به نظر می‌رسد.

برخی از جالب‌ترین نمایش‌های محتوایی که Google برای Workspace نشان داده است شامل توانایی ویرایش محتوای موجود (مثلاً از لحن نوشتاری رسمی‌تر به لحن معمولی‌تر) یا برون‌یابی از یک درخواست ورودی نسبتاً محدود است. مسلماً، سایر ابزارهای مولد هوش مصنوعی قبلاً این نوع قابلیت‌ها را نشان داده‌اند، اما رابط کاربری و مدل تجربه کلی که گوگل نشان داد بسیار بصری به نظر می‌رسد.

در میان ویژگی‌های کلیدی هوش مصنوعی که به Workspace می‌آیند، گوگل برجسته می‌کند:

  • جیمیل خود را پیش نویس، پاسخ، خلاصه و اولویت بندی کنید
  • طوفان فکری، تصحیح، نوشتن، و بازنویسی در Docs
  • با تصاویر، صدا و ویدیوهای تولید شده خودکار در اسلایدها، دید خلاقانه خود را زنده کنید
  • از طریق تکمیل خودکار، تولید فرمول و طبقه‌بندی متنی در Sheets، از داده‌های خام به بینش و تجزیه و تحلیل بروید.
  • پس‌زمینه جدید ایجاد کنید و در Meet یادداشت‌برداری کنید
  • گردش کار را برای انجام کارها در چت فعال کنید

علاوه بر نرم‌افزار، گوگل به بخش سخت‌افزاری زیرساخت Google Cloud نیز اشاره کرد که می‌تواند از تمامی این تلاش‌ها برای Vertex AI و Workspace پشتیبانی کند. این شرکت اشاره کرد که تعداد زیادی از این بارهای کاری توسط ترکیب های مختلف TPU های خود و همچنین پردازنده های گرافیکی قدرتمند انویدیا تامین می شوند. در حالی که بیشتر تمرکز روی برنامه‌های هوش مصنوعی مولد فقط بر روی نرم‌افزار بوده است، شکی نیست که نوآوری‌های سخت‌افزاری در فضای نیمه‌رسانا و سرور همچنان تاثیر زیادی بر پیشرفت‌های هوش مصنوعی خواهد داشت.

با بازگشت به قیاس سینتی سایزر، پیشرفت‌های LLM که پیشنهادات جدید Google آن‌ها را برجسته می‌کند، منعکس‌کننده تنوع موتورهای صوتی مختلف و معماری‌های مورد استفاده برای طراحی آن‌ها است. همانطور که انواع مختلفی از سینتی سایزرها وجود دارد، با تفاوت های اصلی ناشی از منبع خام مورد استفاده در موتور صوتی و جریان سیگنالی که از طریق آن انجام می شود، من نیز انتظار دارم که تنوع بیشتری را در LLM های پایه ببینم. احتمالاً تنوعی از مواد منبع مورد استفاده برای مدل‌های مختلف و معماری‌های مختلف وجود خواهد داشت که از طریق آنها پردازش خواهند شد. به طور مشابه، درجه «برنامه‌نویسی» نیز احتمالاً کمی متفاوت خواهد بود، از تعداد کمی از گزینه‌های از پیش تعیین شده تا انعطاف‌پذیری کامل (اما به طور بالقوه بسیار زیاد) ماژولار – درست همانطور که در دنیای سینت سایزرها یافت می‌شود.

از نظر در دسترس بودن، بسیاری از قابلیت‌های جدید گوگل در ابتدا محدود به مجموعه‌ای از آزمایش‌کنندگان قابل اعتماد است و قیمت‌گذاری (و حتی گزینه‌های خرید) برای این خدمات هنوز اعلام نشده است.

برای کاربران عادی، برخی از ابزارهای تولید محتوای مبتنی بر متن در Docs و Gmail احتمالاً اولین طعم هوش مصنوعی مولد مبتنی بر Google است که احتمالاً بسیاری آن را تجربه خواهند کرد. و مانند مایکروسافت، تکرارها و بهبودهای آینده بدون شک با سرعت بسیار بالایی انجام خواهند شد.

شکی وجود ندارد که ما وارد یک دوره جدید بسیار هیجان انگیز و رقابتی در محاسبات سازمانی و به طور کلی دنیای فناوری شده ایم. ابزارهای مولد هوش مصنوعی طیف شگفت‌انگیزی از برنامه‌های بالقوه جدید و بهبودهای بهره‌وری را برانگیخته‌اند که ما واقعاً تازه شروع کرده‌ایم به ذهن‌مان. مانند بسیاری از روندهای بزرگ فناوری، تبلیغات بیش از حد اجتناب ناپذیر است. با این حال، همچنین واضح است که گوگل اکنون به طور قاطعانه ای در زمینه دنیای به سرعت در حال تکامل ابزارها و خدمات هوش مصنوعی مولد سهمی قرار داده است. آنچه بعدا اتفاق می افتد مشخص نیست، اما تماشای آن فوق العاده هیجان انگیز خواهد بود.

Bob O’Donnell بنیانگذار و تحلیلگر ارشد TECHnalysis Research، LLC یک شرکت مشاوره فناوری است که خدمات مشاوره استراتژیک و تحقیقات بازار را به صنعت فناوری و جامعه مالی حرفه ای ارائه می دهد. می توانید او را در توییتر دنبال کنید @bobodtech.





منبع