Riffusion، نسل موسیقی مبتنی بر هوش مصنوعی، جایی که بتهوون با Radiohead ملاقات می کند

همانطور که در وب سایت Riffusion توضیح داده شده است، سونوگرافی (یا طیف نگاری برای فرکانس های صوتی) یک روش بصری برای نمایش محتوای فرکانس یک کلیپ صوتی است. محور X نشان دهنده زمان است، در حالی که محور Y نشان دهنده فرکانس است. رنگ هر پیکسل دامنه صدا را در فرکانس و زمان مشخص شده توسط سطر و ستون آن نشان می دهد.

ست فورسگرن و هایک مارتیروس الگوریتم Stable Diffusion (SD) را با موسیقی تطبیق دادند و در نتیجه نوع جدیدی از “ماشین موسیقی” عجیب و غریب را ایجاد کردند. Riffusion بر اساس همان اصل SD کار می‌کند و یک پیام متنی را به محتوای جدید تولید شده توسط هوش مصنوعی تبدیل می‌کند. تفاوت اصلی این است که الگوریتم به طور خاص با سونوگرافی آموزش داده شده است که می تواند موسیقی و صدا را به صورت تصویری به تصویر بکشد.

پس از تولید سونوگرافی جدید، Riffusion تصویر را با Torchaudio به صدا تبدیل می کند. هوش مصنوعی با طیف‌نگاری‌هایی که صداها، آهنگ‌ها یا ژانرها را به تصویر می‌کشد آموزش دیده است، بنابراین می‌تواند کلیپ‌های صوتی جدیدی را بر اساس انواع پیام‌های متنی تولید کند. به عنوان مثال، چیزی شبیه «بتهوون با ریدیوهد ملاقات می‌کند»، که نمونه خوبی از نحوه رفتار الگوریتم‌های یادگیری ماشینی ماورایی یا غیرعادی است.

آینده نگر: اول برای هنر ما آمدند، بعد برای متن و مقاله های درهم ریخته ما آمدند. اکنون آنها به سراغ موسیقی می آیند، با یک الگوریتم یادگیری ماشینی “جدید” که تولید تصویر را برای ایجاد، درون یابی و حلقه بندی کلیپ ها و ژانرهای موسیقی جدید تطبیق می دهد.

بخونید:  فضای مرده - نظرات، جوانب مثبت و منفی 2023

Riffusion بر اساس بسیاری از پروژه های منبع باز، یعنی Next.js، React، Typescript، three.js، Tailwind و Vercel ساخته شده است. کد این برنامه دارای مخزن Github خود نیز می باشد.

پس از طراحی این نظریه، فورسگرن و مارتیروس همه آن را در یک برنامه وب تعاملی قرار دادند که در آن کاربران می‌توانند هوش مصنوعی را آزمایش کنند. Riffusion درخواست‌های متنی را دریافت می‌کند و “بی‌نهایت محتوای درون‌یابی را در زمان واقعی تولید می‌کند، در حالی که خط زمانی طیف‌گرام را به صورت سه بعدی تجسم می‌کند.” صدا به آرامی از یک کلیپ به کلیپ دیگر منتقل می شود. اگر اعلان جدیدی وجود نداشته باشد، برنامه بین دانه‌های مختلف همان اعلان درون‌یابی می‌کند.

Riffusion نسخه 1.5 الگوریتم بصری Stable Diffusion را “بدون هیچ تغییری” تطبیق می دهد، فقط کمی تنظیم دقیق برای پردازش بهتر تصاویر سونوگرام ها/طیف نگارهای صوتی جفت شده با متن. پردازش صدا در پایین دست مدل اتفاق می‌افتد، در حالی که الگوریتم همچنین می‌تواند تغییرات بی‌نهایتی از یک دستور را با تغییر دانه ایجاد کند.

نه اولین هوش مصنوعی تولید کننده صدا، اما Riffusion یکی دیگر از فرزندان رنسانس ML است که قبلاً منجر به توسعه Dance Diffusion، Jukebox OpenAI، Soundraw و دیگران شده است. آخرین هم نخواهد بود



منبع