انتشار پایدار: برای هنرهای بصری عجیب است، برای فشرده سازی تصویر یک امتیاز است؟


به طور خلاصه: Stable Diffusion مثالی خارق‌العاده است که نشان می‌دهد یک عکس چقدر ارزش بیش از هزار کلمه دارد. در واقع، با برش دادن دستور متن تولید تصویر، می توان از هوش مصنوعی بصری برای دریافت فایل تصویری بسیار فشرده و با کیفیت بالا استفاده کرد.

Stable Diffusion یک الگوریتم یادگیری ماشینی است که قادر است تصاویر عجیب و غریب پیچیده و (تا حدودی) باورپذیر را فقط از تفسیر توصیفات زبان طبیعی تولید کند. با وجود این واقعیت که جوامع هنری آنلاین شروع به رد تصاویر مبتنی بر هوش مصنوعی کرده اند، مدل هوش مصنوعی متن به تصویر بین کاربران بسیار محبوب است.

به غیر از اینکه یک نمونه بحث برانگیز از بیان بصری به کمک ماشین است، Stable Diffusion می تواند آینده ای به عنوان یک الگوریتم فشرده سازی تصویر قدرتمند داشته باشد. Matthias Bühlmann، یک مهندس نرم‌افزار، کارآفرین، مخترع و فیلسوف از سوئیس، اخیراً فرصت استفاده از الگوریتم یادگیری ماشین را برای نوع کاملاً متفاوتی از دستکاری داده‌های گرافیکی کشف کرده است.

در مدل سنتی خود، Stable Diffusion 1.4 به لطف توانایی به دست آمده برای ایجاد ارتباط آماری مرتبط بین تصاویر و کلمات مرتبط، می تواند آثار هنری تولید کند. این الگوریتم با تغذیه میلیون‌ها تصویر اینترنتی به “هیولای هوش مصنوعی” آموزش داده شده است و به یک پایگاه داده 4 گیگابایتی نیاز دارد که حاوی نمایش‌های فشرده‌شده و ریاضی کوچک‌تر از تصاویر تحلیل‌شده قبلی است که می‌توان آن را به عنوان تصاویر بسیار کوچک در هنگام رمزگشایی استخراج کرد.

در آزمایش Bühlmann، دستور متن به کلی دور زده شد تا فرآیند رمزگذار تصویر Stable Diffusion فعال شود. فرآیند گفته شده تصاویر منبع کوچک (512×512 پیکسل) را می گیرد و آنها را به نمایشی حتی کوچکتر (64×64) تبدیل می کند. سپس تصاویر فشرده شده با وضوح اصلی استخراج می شوند و نتایج بسیار جالبی به دست می آید.

توسعه‌دهنده نشان داد که چگونه تصاویر فشرده‌شده با SD در مقایسه با فرمت‌های JPG یا WebP «کیفیت تصویر بسیار برتر» در اندازه فایل کوچک‌تر دارند. تصاویر Stable Diffusion کوچک‌تر بودند و جزئیات تعریف‌شده‌تری را نشان می‌دادند و مصنوعات فشرده‌سازی کمتری را نسبت به تصاویر تولید شده توسط الگوریتم‌های فشرده‌سازی استاندارد نشان می‌دادند.

آیا Stable Diffusion می تواند آینده ای به عنوان یک الگوریتم با کیفیت بالاتر برای فشرده سازی با اتلاف تصاویر در اینترنت و جاهای دیگر داشته باشد؟ روش استفاده شده توسط Bühlmann (که یک نمونه کد آنلاین برای آن وجود دارد) هنوز دارای محدودیت هایی است، زیرا با متن یا چهره ها به خوبی کار نمی کند و گاهی اوقات می تواند جزئیات اضافی را ایجاد کند که در تصویر منبع وجود نداشت. نیاز به یک پایگاه داده 4 گیگابایتی و فرآیند رمزگشایی زمانبر نیز بار بسیار مهمی است.



منبع