در متن: با توجه به نوع تمرکزی که بیشتر سازمانها روی جنبه کاربردی تحول دیجیتالی میگذارند، فراموش کردن نقش حیاتی دادهها در این تلاشها آسان است. بله، حرکت به سمت برنامه های کاربردی مبتنی بر کانتینر و بومی ابری – چه در فضای ابری عمومی و چه خصوصی میزبانی شود – بسیار مهم است، اما پروژه هایی برای سازماندهی و تجزیه و تحلیل حجم عظیمی از داده هایی که اکثر سازمان ها تولید می کنند یا به آنها دسترسی دارند، حیاتی هستند. به طور خاص، نیاز به پشتیبانی از قابلیت حمل داده و ابزارهای تجزیه و تحلیل در چندین ابر عمومی و ابرهای خصوصی – مدل کلاسیک “ابر ترکیبی” اکنون اهمیت فزاینده ای پیدا می کند.
یکی از عناصر مهم این کار شامل تصمیم گیری در مورد نحوه بهترین اهرم از دارایی های داده موجود است. اخیراً، بسیاری از شرکتها شروع به بررسی این ایده کردهاند که بسیاری آن را خانههای دریاچه داده مینامند. همانطور که از نام آن پیداست، یک data lakehouse برخی از ویژگی های یک دریاچه داده و یک انبار داده را در یک موجودیت واحد ترکیب می کند.
دریاچههای داده معمولاً دارای مقادیر عظیمی از دادههای بدون ساختار و نیمه ساختاریافته هستند که شامل متن، تصویر، صوت، ویدئو و غیره است و برای جمعآوری مجموعهای از اطلاعات در مورد یک فرآیند یا موضوع خاص استفاده میشود. از سوی دیگر، انبارهای داده معمولاً از داده های ساختار یافته تشکیل شده اند که در جداول اعداد، مقادیر و غیره سازماندهی شده اند و برای انواع برنامه های کاربردی پرس و جوی سنتی پایگاه داده استفاده می شوند.
دریاچههای داده، انعطافپذیری و قابلیت دادههایی را که ذخیره میکنند گسترش میدهند و به شما امکان میدهند از انواع ابزارهای تحلیلی قدرتمندی که در ابتدا برای انبارهای داده در دریاچههای داده ایجاد شدهاند، استفاده کنید. علاوه بر این، آنها شما را قادر می سازند تا عناصر دو نوع ساختار داده را برای تجزیه و تحلیل پیچیده تر ترکیب کنید، که بسیاری کشف کرده اند که برای برنامه های هوش مصنوعی و ML بسیار مفید است.
یکی از حامیان اصلی مفهوم داده lakehouse، Cloudera است، شرکتی که برخی از ریشههای خود را به ابزارهای نرمافزاری منبع باز Hadoop برمیگرداند که به عنوان یک محرک کلیدی برای رشد دریاچههای داده عمل میکرد. در رویداد اخیر Cloudera Evolve 2022، این شرکت از برخی از ابزارهای اصلی Cloudera Data Platform (CDP) خود رونمایی کرد که میتواند به امکان استفاده از دادههای lakehouse در محیطهای بیشتر کمک کند.
این شرکت توانایی انتقال آسان داده ها و ابزارهای تجزیه و تحلیل را در چندین ابر عمومی، از جمله AWS و Microsoft Azure، و همچنین ابر خصوصی یک سازمان به ارمغان می آورد. کلودرا به این مفهوم به عنوان “داده های ترکیبی” اشاره می کند، که در آن داده ها اکنون انعطاف پذیری و اجتناب از قفل شدن را به دست می آورند که برنامه های کاربردی ابر ترکیبی شروع به ارائه کرده اند.
برای زنده کردن مفهوم داده ترکیبی، کلودرا سه قابلیت جدید خاص را فعال کرد: خدمات داده قابل حمل به شرکتها اجازه میدهد برنامههای تحلیلی و سرویسهای ایجاد شده برای یک مجموعه داده خاص را در محیطهای مختلف عمومی و خصوصی بدون نیاز به تغییر یک خط کد منتقل کنند. Replication Secure Data یک کپی دقیق از خود داده ها را در محیط های مختلف جابجا می کند و تضمین می کند که شرکت ها می توانند به داده های مورد نیاز خود برای یک حجم کاری معین دسترسی داشته باشند. در نهایت، Universal Data Distribution از ابزار جدید Cloudera DataFlow شرکت برای جذب یا وارد کردن به پلتفرم با تمرکز ویژه بر جریان داده ها استفاده می کند و به فیدهای داده زنده اجازه می دهد تا در ابزارهای مدیریت داده سازمانی شرکت نیز ادغام شوند. مانند بسیاری از جنبه های راه حل Cloudera، DataFlow بر اساس ابزارهای منبع باز، به ویژه Apache NiFi ساخته شده است.
در مجموع، این سه سرویس تمام ابزارهایی را که برای اجرای بارهای کاری تجزیه و تحلیل داده در طیف گسترده ای از انواع داده ها در چندین پلت فرم و مکان های فیزیکی نیاز دارند، به سازمان ها می دهند. این نه تنها به شرکتها انعطافپذیری را میدهد که با معماریهای ابری ترکیبی رشد کردهاند، بلکه فرصتهای جدیدی را نیز باز میکند.
برای مثال، میتوان از آن برای آزمایش حجم کاری تحلیلی در محیطهای مختلف برای درک بهتر شتاب سختافزاری منحصربهفرد یا مزایای پلتفرم که ابرهای مختلف (عمومی یا خصوصی) میتوانند ارائه دهند، استفاده کرد. هدف کمک به شرکتها برای ایجاد یک بافت داده انعطافپذیر است که میتواند به هر نوع محیطی که برای یک پروژه یا مجموعه دادهای مناسبتر است گسترش یابد.
همانطور که در رایانش ابری به طور کلی مشخص شده است، نیاز به پشتیبانی از راه حل های ترکیبی و چند ابری تبدیل به یک جدول برای ابزارهای کاربردی مدرن امروزی شده است. در نتیجه، فروشندگان یا قبلا ایجاد کرده اند یا در حال کار برای فعال کردن این نوع پشتیبانی انعطاف پذیر هستند. بنابراین، گسترش این نوع رویکرد به دادهها و ابزارهای تحلیلی که اغلب این برنامهها را نیرو میدهند، منطقی است. با آخرین برنامه های افزودنی Cloudera برای CDP، گام مهمی در این مسیر برداشته است.
Bob O’Donnell بنیانگذار و تحلیلگر ارشد TECHnalysis Research، LLC یک شرکت مشاوره فناوری است که خدمات مشاوره استراتژیک و تحقیقات بازار را به صنعت فناوری و جامعه مالی حرفه ای ارائه می دهد. می توانید او را در توییتر دنبال کنید @bobodtech.