Midjourney نسخه 5 تقریباً هر جنبه ای از تصاویر تولید شده توسط هوش مصنوعی را بهبود می بخشد


بهتر شدن: با تمام اخبار اخیر که حول محور ChatGPT و دیگر مدل‌های زبان بزرگ می‌چرخند، به راحتی می‌توان فراموش کرد که پسرعموهای آنها – تولیدکنندگان تصویر هوش مصنوعی – هنوز در حال بهبود هستند. ممکن است فردی متوجه شده باشد که چگونه چشم‌ها و دست‌ها را بدون اینکه سوژه شبیه یک کابوس به نظر برسد، رندر کند. با این حال، نتایج هنوز هم برخی از افراد را از بین می برد.

اوایل این هفته، آزمایشگاه تحقیقاتی Midjourney نسخه بتای نسخه 5 نرم افزار تصویربرداری هوش مصنوعی خود را منتشر کرد. طبق اعلام آن از طریق توییتر، آخرین نسخه کیفیت تصویر بالاتر، نتایج “متنوع” بیشتر، طیف گسترده تر از سبک ها، بافت های بدون درز و بسیاری موارد دیگر را اضافه می کند.

کاربران قبلاً صدها نتیجه خیره کننده را ارسال کرده اند و احساسات در مورد پیشرفت ها متفاوت است. بیشتر آنها تحت تأثیر قرار گرفته اند زیرا هوش مصنوعی تصویربرداری برای تولید جنبه هایی مانند سایه ها، بازتاب ها، چشم ها و دست ها مشکل دارد. در زیر تصویری است که ما با Dall-E OpenAI به عنوان نمونه ای از جایی که دستگاه مشکل دارد ایجاد کرده ایم.

ترکیب بندی تا حدودی خاموش است و حس کلی کارتونی است. نورپردازی همگی اشتباه است. چشم ها و دست ها بد شکل شده اند. پاها با مصنوعات آلوده شده اند، همچنین ظرف پاپ کورن و صندلی کنار سوژه. این نتیجه یکی از چهار مورد با مشکلات مشابه به درجات مختلف است.

به نظر می رسد نسخه 5 Midjourney از این نظر بهبود یافته است، حداقل از نمونه هایی که دیگران به اشتراک گذاشته اند. نتایج به‌دست‌آمده از اعلان‌های ساده به دره‌ای عجیب و غریب محدود می‌شوند – به اندازه‌ای واقعی که در بسیاری از موارد به‌عنوان عکس‌های حرفه‌ای منتقل می‌شوند، اما هنوز با آن کیفیت عجیب و غریب نمی‌توانید آن را کاملاً قرار دهید. در حالی که بسیار واقعی هستند، بسیاری این تصاویر را ترسناک توصیف کرده اند.

کیشالایا کوندوی خودمان بعد از مشاهده یک سری عکس تقریباً بی عیب و نقص Midjourney V5 گفت: “راست باشم، بیشتر می ترسم تا تحت تاثیر قرار بگیرم.” ترس از این است که به راحتی بتوان یک تصویر جعلی ایجاد کرد و آن را واقعی جلوه داد.

جدای از عامل خزش، در مقایسه با V4، Midjourney V5 به طور چشمگیری کیفیت را بهبود بخشیده است. طراح گرافیک Julie Wieland مدتی است که از Midjourney V4 (منتشر شده در نوامبر گذشته) استفاده کرده است و می گوید که نسخه 5 دارای بافت های پوستی “فوق العاده واقعی” است. جلوه های نور نیز بسیار بهتر هستند، از جمله بازتاب، تابش خیره کننده و سایه ها. شاید مهم‌تر از همه، هوش مصنوعی دست‌ها و چشم‌هایی تولید می‌کند که در بیشتر مواقع طبیعی به نظر می‌رسند.

ویلند به Ars Technica گفت: «چشم ها تقریباً بی نقص هستند و دیگر بدبین نیستند. “در بیشتر مواقع دست‌ها درست هستند، با پنج انگشت به جای 7 تا 10 در یک دست. MJ v5 در حال حاضر برای من احساس می‌کند که بالاخره بعد از نادیده گرفتن دید بد برای مدتی طولانی، عینک می‌گیرم. ناگهان همه چیز را با کیفیت 4k می‌بینید. به طرز عجیبی غافلگیرکننده اما شگفت انگیز است.”

Midjourney همچنین وضوح اصلی را از 512x512px به 1024x1024px ارتقا داد. افزایش آن را با Dall-E هماهنگ می کند. با این حال، نسخه 4 می تواند سوپرنمونه برای دو برابر کردن وضوح اصلی. غیرمنطقی نیست که انتظار داشته باشیم V5 از همان تکنیک برای تولید تصاویر 2048×2048 استفاده کند، اما این برای به روز رسانی بیشتر در آینده است.

نتیجه نهایی این است که MidJourney تنها یک سال پیش وارد صحنه هوش مصنوعی شد. بسیاری از این تصاویر (نه همه) که در این هفته به فیدهای توییتر سرازیر می شوند دست نخورده هستند. پیش از این، Weiland از ترکیبی از تکنیک‌ها برای بهبود کیفیت بصری Midjourney 4 استفاده می‌کرد، از جمله “نقاشی پیشی” با Dall-E و تاچ آپ در فتوشاپ. نسخه 5 نوید ویرایش کمتر پس از نسل و شاید عکس‌های بی‌نقص را زودتر از آنچه که می‌توانیم تصور کنیم، می‌دهد. این چشم انداز در واقع هم هیجان انگیز و هم ترسناک است.





منبع