آینده نگر: اول برای هنر ما آمدند، بعد برای متن و مقاله های درهم ریخته ما آمدند. اکنون آنها به سراغ موسیقی می آیند، با یک الگوریتم یادگیری ماشینی “جدید” که تولید تصویر را برای ایجاد، درون یابی و حلقه بندی کلیپ ها و ژانرهای موسیقی جدید تطبیق می دهد.
ست فورسگرن و هایک مارتیروس الگوریتم Stable Diffusion (SD) را با موسیقی تطبیق دادند و در نتیجه نوع جدیدی از “ماشین موسیقی” عجیب و غریب را ایجاد کردند. Riffusion بر اساس همان اصل SD کار میکند و یک پیام متنی را به محتوای جدید تولید شده توسط هوش مصنوعی تبدیل میکند. تفاوت اصلی این است که الگوریتم به طور خاص با سونوگرافی آموزش داده شده است که می تواند موسیقی و صدا را به صورت تصویری به تصویر بکشد.
همانطور که در وب سایت Riffusion توضیح داده شده است، سونوگرافی (یا طیف نگاری برای فرکانس های صوتی) یک روش بصری برای نمایش محتوای فرکانس یک کلیپ صوتی است. محور X نشان دهنده زمان است، در حالی که محور Y نشان دهنده فرکانس است. رنگ هر پیکسل دامنه صدا را در فرکانس و زمان مشخص شده توسط سطر و ستون آن نشان می دهد.
Riffusion نسخه 1.5 الگوریتم بصری Stable Diffusion را “بدون هیچ تغییری” تطبیق می دهد، فقط کمی تنظیم دقیق برای پردازش بهتر تصاویر سونوگرام ها/طیف نگارهای صوتی جفت شده با متن. پردازش صدا در پایین دست مدل اتفاق میافتد، در حالی که الگوریتم همچنین میتواند تغییرات بینهایتی از یک دستور را با تغییر دانه ایجاد کند.
پس از تولید سونوگرافی جدید، Riffusion تصویر را با Torchaudio به صدا تبدیل می کند. هوش مصنوعی با طیفنگاریهایی که صداها، آهنگها یا ژانرها را به تصویر میکشد آموزش دیده است، بنابراین میتواند کلیپهای صوتی جدیدی را بر اساس انواع پیامهای متنی تولید کند. به عنوان مثال، چیزی شبیه «بتهوون با ریدیوهد ملاقات میکند»، که نمونه خوبی از نحوه رفتار الگوریتمهای یادگیری ماشینی ماورایی یا غیرعادی است.
پس از طراحی این نظریه، فورسگرن و مارتیروس همه آن را در یک برنامه وب تعاملی قرار دادند که در آن کاربران میتوانند هوش مصنوعی را آزمایش کنند. Riffusion درخواستهای متنی را دریافت میکند و “بینهایت محتوای درونیابی را در زمان واقعی تولید میکند، در حالی که خط زمانی طیفگرام را به صورت سه بعدی تجسم میکند.” صدا به آرامی از یک کلیپ به کلیپ دیگر منتقل می شود. اگر اعلان جدیدی وجود نداشته باشد، برنامه بین دانههای مختلف همان اعلان درونیابی میکند.
Riffusion بر اساس بسیاری از پروژه های منبع باز، یعنی Next.js، React، Typescript، three.js، Tailwind و Vercel ساخته شده است. کد این برنامه دارای مخزن Github خود نیز می باشد.
نه اولین هوش مصنوعی تولید کننده صدا، اما Riffusion یکی دیگر از فرزندان رنسانس ML است که قبلاً منجر به توسعه Dance Diffusion، Jukebox OpenAI، Soundraw و دیگران شده است. آخرین هم نخواهد بود