Cloudera مزایای Lakehouse داده باز را به ابر هیبریدی گسترش می دهد


در متن: با توجه به نوع تمرکزی که بیشتر سازمان‌ها روی جنبه کاربردی تحول دیجیتالی می‌گذارند، فراموش کردن نقش حیاتی داده‌ها در این تلاش‌ها آسان است. بله، حرکت به سمت برنامه های کاربردی مبتنی بر کانتینر و بومی ابری – چه در فضای ابری عمومی و چه خصوصی میزبانی شود – بسیار مهم است، اما پروژه هایی برای سازماندهی و تجزیه و تحلیل حجم عظیمی از داده هایی که اکثر سازمان ها تولید می کنند یا به آنها دسترسی دارند، حیاتی هستند. به طور خاص، نیاز به پشتیبانی از قابلیت حمل داده و ابزارهای تجزیه و تحلیل در چندین ابر عمومی و ابرهای خصوصی – مدل کلاسیک “ابر ترکیبی” اکنون اهمیت فزاینده ای پیدا می کند.

یکی از عناصر مهم این کار شامل تصمیم گیری در مورد نحوه بهترین اهرم از دارایی های داده موجود است. اخیراً، بسیاری از شرکت‌ها شروع به بررسی این ایده کرده‌اند که بسیاری آن را خانه‌های دریاچه داده می‌نامند. همانطور که از نام آن پیداست، یک data lakehouse برخی از ویژگی های یک دریاچه داده و یک انبار داده را در یک موجودیت واحد ترکیب می کند.

دریاچه‌های داده معمولاً دارای مقادیر عظیمی از داده‌های بدون ساختار و نیمه ساختاریافته هستند که شامل متن، تصویر، صوت، ویدئو و غیره است و برای جمع‌آوری مجموعه‌ای از اطلاعات در مورد یک فرآیند یا موضوع خاص استفاده می‌شود. از سوی دیگر، انبارهای داده معمولاً از داده های ساختار یافته تشکیل شده اند که در جداول اعداد، مقادیر و غیره سازماندهی شده اند و برای انواع برنامه های کاربردی پرس و جوی سنتی پایگاه داده استفاده می شوند.

بخونید:  3D DRAM is coming, but we don't know how to build it - yet

دریاچه‌های داده، انعطاف‌پذیری و قابلیت داده‌هایی را که ذخیره می‌کنند گسترش می‌دهند و به شما امکان می‌دهند از انواع ابزارهای تحلیلی قدرتمندی که در ابتدا برای انبارهای داده در دریاچه‌های داده ایجاد شده‌اند، استفاده کنید. علاوه بر این، آنها شما را قادر می سازند تا عناصر دو نوع ساختار داده را برای تجزیه و تحلیل پیچیده تر ترکیب کنید، که بسیاری کشف کرده اند که برای برنامه های هوش مصنوعی و ML بسیار مفید است.

یکی از حامیان اصلی مفهوم داده lakehouse، Cloudera است، شرکتی که برخی از ریشه‌های خود را به ابزارهای نرم‌افزاری منبع باز Hadoop برمی‌گرداند که به عنوان یک محرک کلیدی برای رشد دریاچه‌های داده عمل می‌کرد. در رویداد اخیر Cloudera Evolve 2022، این شرکت از برخی از ابزارهای اصلی Cloudera Data Platform (CDP) خود رونمایی کرد که می‌تواند به امکان استفاده از داده‌های lakehouse در محیط‌های بیشتر کمک کند.

این شرکت توانایی انتقال آسان داده ها و ابزارهای تجزیه و تحلیل را در چندین ابر عمومی، از جمله AWS و Microsoft Azure، و همچنین ابر خصوصی یک سازمان به ارمغان می آورد. کلودرا به این مفهوم به عنوان “داده های ترکیبی” اشاره می کند، که در آن داده ها اکنون انعطاف پذیری و اجتناب از قفل شدن را به دست می آورند که برنامه های کاربردی ابر ترکیبی شروع به ارائه کرده اند.

برای زنده کردن مفهوم داده ترکیبی، کلودرا سه قابلیت جدید خاص را فعال کرد: خدمات داده قابل حمل به شرکت‌ها اجازه می‌دهد برنامه‌های تحلیلی و سرویس‌های ایجاد شده برای یک مجموعه داده خاص را در محیط‌های مختلف عمومی و خصوصی بدون نیاز به تغییر یک خط کد منتقل کنند. Replication Secure Data یک کپی دقیق از خود داده ها را در محیط های مختلف جابجا می کند و تضمین می کند که شرکت ها می توانند به داده های مورد نیاز خود برای یک حجم کاری معین دسترسی داشته باشند. در نهایت، Universal Data Distribution از ابزار جدید Cloudera DataFlow شرکت برای جذب یا وارد کردن به پلتفرم با تمرکز ویژه بر جریان داده ها استفاده می کند و به فیدهای داده زنده اجازه می دهد تا در ابزارهای مدیریت داده سازمانی شرکت نیز ادغام شوند. مانند بسیاری از جنبه های راه حل Cloudera، DataFlow بر اساس ابزارهای منبع باز، به ویژه Apache NiFi ساخته شده است.

بخونید:  شکایت FTC می تواند مانع از تصرف 69 میلیارد دلاری مایکروسافت از Activision شود

در مجموع، این سه سرویس تمام ابزارهایی را که برای اجرای بارهای کاری تجزیه و تحلیل داده در طیف گسترده ای از انواع داده ها در چندین پلت فرم و مکان های فیزیکی نیاز دارند، به سازمان ها می دهند. این نه تنها به شرکت‌ها انعطاف‌پذیری را می‌دهد که با معماری‌های ابری ترکیبی رشد کرده‌اند، بلکه فرصت‌های جدیدی را نیز باز می‌کند.

برای مثال، می‌توان از آن برای آزمایش حجم کاری تحلیلی در محیط‌های مختلف برای درک بهتر شتاب سخت‌افزاری منحصربه‌فرد یا مزایای پلت‌فرم که ابرهای مختلف (عمومی یا خصوصی) می‌توانند ارائه دهند، استفاده کرد. هدف کمک به شرکت‌ها برای ایجاد یک بافت داده انعطاف‌پذیر است که می‌تواند به هر نوع محیطی که برای یک پروژه یا مجموعه داده‌ای مناسب‌تر است گسترش یابد.

همانطور که در رایانش ابری به طور کلی مشخص شده است، نیاز به پشتیبانی از راه حل های ترکیبی و چند ابری تبدیل به یک جدول برای ابزارهای کاربردی مدرن امروزی شده است. در نتیجه، فروشندگان یا قبلا ایجاد کرده اند یا در حال کار برای فعال کردن این نوع پشتیبانی انعطاف پذیر هستند. بنابراین، گسترش این نوع رویکرد به داده‌ها و ابزارهای تحلیلی که اغلب این برنامه‌ها را نیرو می‌دهند، منطقی است. با آخرین برنامه های افزودنی Cloudera برای CDP، گام مهمی در این مسیر برداشته است.

Bob O’Donnell بنیانگذار و تحلیلگر ارشد TECHnalysis Research، LLC یک شرکت مشاوره فناوری است که خدمات مشاوره استراتژیک و تحقیقات بازار را به صنعت فناوری و جامعه مالی حرفه ای ارائه می دهد. می توانید او را در توییتر دنبال کنید @bobodtech.

بخونید:  AMD قیمت و در دسترس بودن Ryzen 7000X3D را از 28 فوریه اعلام کرد





منبع