OpenAI مدل سریعتر و رایگان GPT-4o را راه اندازی می کند – دستیار صوتی جدید آنقدر طبیعی صحبت می کند که فکر می کنید کلاهبرداری است

منتظر بودن: OpenAI به تازگی GPT-4o (GPT-4 Omni یا به اختصار “O”) را معرفی کرده است. این مدل از GPT-4 «هوشمندتر» نیست، اما هنوز هم نوآوری های بزرگی وجود دارد که آن را متمایز می کند: توانایی پردازش متن، داده های تصویری و صوتی به طور همزمان، تقریباً عدم تأخیر بین سؤال و پاسخ، و یک انسان فوق العاده مانند صدا

اگرچه چت ربات‌های امروزی جزو پیشرفته‌ترین ربات‌هایی هستند که تا کنون ساخته شده‌اند، اما همگی از تأخیر بالایی رنج می‌برند. بسته به درخواست، زمان پاسخ می تواند از یک تا چند ثانیه متغیر باشد. برخی از شرکت ها مانند اپل می خواهند این مشکل را از طریق پردازش هوش مصنوعی روی دستگاه حل کنند. OpenAI با Omni رویکرد متفاوتی در پیش گرفت.

بیشتر پاسخ‌های Omni در دمو روز دوشنبه سریع‌تر بود، که باعث شد مکالمه راحت‌تر از یک جلسه چت‌بات معمولی باشد. او همچنین وقفه ها را با مهربانی می پذیرفت. اگر یک مجری در حین پاسخ GPT-4o شروع به صحبت کند، به جای پایان دادن به پاسخ، صحبت های خود را متوقف می کند.

OpenAI زمان پاسخ کم O را به توانایی مدل برای پردازش هر سه شکل ورودی – متن، بصری و صوتی نسبت می دهد. برای مثال، ChatGPT ورودی های ترکیبی را از طریق شبکه ای از مدل های گسسته پردازش می کند. Omni همه چیز را پردازش می کند، بدون اینکه منتظر خروجی مدل دیگری باشد، آنها را به یک پاسخ منسجم تبدیل می کند. هنوز هم «مغز» GPT-4 را دارد، اما انواع ورودی‌های دیگری نیز دارد که می‌تواند پردازش کند، که میرا موراتی، مدیر ارشد فناوری OpenAI، می‌گوید باید به یک هنجار تبدیل شود.

بخونید:  کریپتوکارنسی توسط تیم برنرز لی، مخترع وب جهانی، به عنوان «خطرناک» و «قمار» مورد انتقاد قرار گرفت.

موراتی گفت: «GPT-4o اطلاعات سطح GPT-4 را ارائه می دهد اما بسیار سریعتر است. “ما معتقدیم GPT-4o واقعاً این الگو را به آینده همکاری تغییر می دهد، جایی که این تعامل بسیار طبیعی تر و بسیار آسان تر می شود.”

صدای Omni (یا صداها) برجسته ترین در دمو است. زمانی که مجری با ربات صحبت کرد، ربات به زبانی غیررسمی با مکث هایی با صدای طبیعی پاسخ داد. او حتی خندید و به آن کیفیتی انسانی داد که باعث شد به این فکر کنم که آیا کامپیوتری ساخته شده است یا تقلبی.

کارشناسان True و Chair بدون شک این فیلم را برای تایید یا رد صحت آن بررسی خواهند کرد. زمانی که گوگل از Duplex رونمایی کرد، شاهد همین اتفاق بودیم. دستیار دیجیتال گوگل در نهایت تایید شد، بنابراین می‌توانیم از Omni هم انتظار داشته باشیم، اگرچه صدای آن Duplex را شرمنده می‌کند.

با این حال، ممکن است نیازی به بررسی بیشتر نداشته باشیم. OpenAI باعث شد GPT-4o با دو گوشی با خودش صحبت کند. صحبت کردن دو نسخه از ربات با یکدیگر این توهم انسان مانند را تا حدودی شکست. در حالی که صدای مردانه و زنانه هنوز انسانی به نظر می رسد، مکالمه کمتر ارگانیک و مکانیکی به نظر می رسد، که اگر صدای تک انسان را حذف کنیم، منطقی است.

در پایان تظاهرات، مجری از ربات ها خواست آواز بخوانند. این لحظه حساس دیگری بود که او در تلاش برای هماهنگ کردن ربات ها برای خواندن یک دوئت بود و یک بار دیگر این توهم را شکست. لحن بیش از حد مشتاق Omni می تواند کمی از تنظیم نیز استفاده کند.

بخونید:  باندل سی‌امین سالگرد مورتال کامبت در حال شکل‌گیری یک چیز برگر است

OpenAI همچنین امروز اعلام کرد که یک برنامه دسکتاپ ChatGPT را برای macOS راه‌اندازی می‌کند که در اواخر سال جاری ویندوز منتشر خواهد شد. کاربران GPT پولی در حال حاضر به برنامه دسترسی دارند و در نهایت یک نسخه رایگان را در تاریخ نامشخصی ارائه می دهد. نسخه وب ChatGPT قبلاً GPT-4o را اجرا می‌کند و انتظار می‌رود این مدل با محدودیت‌هایی برای کاربران رایگان در دسترس قرار گیرد.

منبع