لا تخزين ، لا بكاء: اغرق حاجز تخزين البيانات
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
في عصر المعلومات هذا ، يُنظر إلى البيانات الضخمة بشكل متزايد على أنها شريان الحياة لأي مؤسسة. ومع ذلك ، نظرًا لأن البيانات أصبحت كبيرة جدًا ومتنوعة ، فإن تحليلها بشكل صحيح لا يزال يمثل تحديًا كبيرًا للمؤسسات.
على هذا النحو ، فإن الرؤى التجارية التي يجب أن تكون هذه البيانات الأساسية قادرة على تحقيقها بدلاً من ذلك تصبح إما صعبة للغاية أو تستغرق وقتًا طويلاً أو مكلفة.
يتمثل أحد التحديات الرئيسية في التفاعل بين حلول التخزين والتحليلات وما إذا كان بإمكانهم التعامل مع هذه الكتل من البيانات – أم أن هناك طريقة لتخطي حاجز التخزين تمامًا؟
تنسيقات تخزين البيانات: تاريخ
يمكن تقسيم الجدول الزمني لهذا الانفجار الكبير في البيانات الضخمة إلى ثلاث فترات مختلفة.
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
أولاً ، كان هناك تخزين بسيط للملفات النصية (TXT) ، متبوعًا بأنظمة إدارة قواعد البيانات العلائقية (RDBMS) ، مما يتيح سهولة المراقبة والتفاعل مع مجموعات البيانات الأكبر حجمًا.
المرحلة الثالثة – التنسيقات الحديثة مفتوحة المصدر مثل Parquet و Iceberg ، والتي تجمع الملفات المضغوطة بشكل أكثر فعالية – نتجت عن حقيقة أن قدرة قواعد البيانات هذه قد تفوقت عليها البيانات التي تم تكليفهم بجمعها وتحليلها.
ثم جاءت المرحلة التي تطور فيها شركات قواعد البيانات أساليب التخزين الخاصة بها في شكل مستودعات بيانات. توفر تنسيقات تخزين البيانات المخصصة والمخصصة هذه أداءً أفضل وتسمح للشركات المعتمدة على البيانات بتخزين بياناتها بطرق يمكنها الاستعلام عنها والتعامل معها بشكل أكثر فاعلية.
إذن ، لماذا تحليلات البيانات لا تزال متخلفة؟
تكلفة مستودعات البيانات
على الرغم من التخصيص الذي توفره ، فإن تنسيقات تخزين مستودع البيانات تأتي مع عدد كبير من العيوب.
تتطلب بروتوكولات الاستيعاب الخاصة بهذه المستودعات ستخضع بيانات المؤسسة للمعالجة المسبقة قبل دخول المستودع ، لذلك يتم تأخير الاستعلامات. لا يوجد أيضًا مصدر واحد “للحقيقة” ، حيث إن عملية المزامنة بين موقع التخزين الأصلي (حيث يتم إنشاء البيانات ، لا تزال في تنسيقها الأولي) ومستودع البيانات معقد ويمكن أن يؤدي إلى تحريف مجموعات البيانات.
يُعد قفل البائع مشكلة أخرى ، حيث غالبًا ما يتم إغلاق البيانات القابلة للاستعلام من أي موقع تنسيق تخزين لتطبيق واحد فقط ، وبالتالي لا تتوافق دائمًا مع الأدوات المختلفة المطلوبة لتحليلات البيانات. أخيرًا ، في أي وقت يريد فيه القسم تحليل بياناته ، يجب تكرار مصادر البيانات ، مما قد يؤدي إلى مشاركة البيانات المعقدة والمستحيلة أحيانًا بين مستودعات البيانات المختلفة.
نظرًا لأن أوجه القصور هذه أصبحت بارزة بشكل متزايد وتشكل تحديات أكبر للمؤسسات التي تعتمد على البيانات ، فإن الفصل الرابع من ملحمة تخزين البيانات يتكشف.
أدخل “بحيرة البيانات”.
الغوص في بحيرة البيانات
على عكس مستودع البيانات (والطبيعة المحدودة المحاطة بالداخل التي يشير إليها اسمها) ، فإن بحيرة البيانات سائلة وعميقة ومفتوحة على مصراعيها. لأول مرة ، يمكن للشركات من أي حجم حفظ البيانات ذات الصلة من الصور إلى مقاطع الفيديو إلى نص في موقع تخزين مركزي وقابل للتطوير ويمكن الوصول إليه على نطاق واسع.
نظرًا لأن هذه الحلول ، مع مداخلها وروافدها والطبيعة المرنة لتنسيقات التخزين الخاصة بها ، مصممة ليس فقط لتخزين البيانات ولكن مع وضع مشاركة البيانات ومزامنتها في الاعتبار ، فإن بحيرات البيانات لا تتعطل بسبب قيود البائعين وتحديات تكرار البيانات . أو مصدر واحد للحقيقة مضاعفات.
إلى جانب التنسيقات مفتوحة المصدر مثل ملفات Apache Parquet – وهي فعالة بما يكفي لإدارة الاحتياجات التحليلية عبر العديد من الصوامع داخل المؤسسة – فقد مكّنت أنظمة التخزين الفريدة هذه المؤسسات من العمل بنجاح ضمن بنية بحيرة البيانات والاستمتاع بمزايا الأداء.
المنزل على البحيرة
على الرغم من أن بحيرات البيانات تعد حلاً واعدًا للتخزين والتحليل ، إلا أنها لا تزال جديدة نسبيًا. وفقًا لذلك ، لا يزال خبراء الصناعة يستكشفون الفرص والمزالق المحتملة التي قد تواجهها إمكانات الحوسبة السحابية في حلول التخزين الخاصة بهم.
تتمثل إحدى محاولات التغلب على العيوب الحالية في الجمع بين إمكانات بحيرة البيانات وتنظيم مستودع البيانات والحوسبة السحابية – التي يطلق عليها اسم “مستودع بحيرة البيانات” – وهي أساسًا مستودع بيانات يطفو فوق بحيرة بيانات.
ضع في اعتبارك أن بحيرة البيانات هي مجرد مجموعة من الملفات في مجلدات: بسيطة وسهلة الاستخدام ، ولكنها غير قادرة على سحب البيانات بشكل فعال بدون قاعدة بيانات مركزية. حتى بعد أن طورت مستودعات البيانات طريقة لقراءة تنسيقات الملفات مفتوحة المصدر ، ظلت تحديات تأخير الاستيعاب ، وقفل البائعين ، ومصدر واحد للحقيقة قائمة.
من ناحية أخرى ، تسمح بيوت بحيرات البيانات للمؤسسات باستخدام محرك معالجة قاعدة بيانات متشابه وطبقة دلالية للاستعلام عن جميع بياناتها كما هي ، بدون عمليات تحويل ونسخ مفرطة ، مع الحفاظ على مزايا كلتا الطريقتين.
إن نجاح هذا النهج المشترك لتخزين البيانات والتحليلات أمر مشجع بالفعل. يتوقع نائب رئيس شركة Ventana Research ومدير الأبحاث Matt Aslett أنه بحلول عام 2024 ، سيستثمر أكثر من ثلاثة أرباع متبني بحيرة البيانات في تقنيات Data Lakehouse لتحسين القيمة التجارية لبياناتهم المتراكمة.
يمكن للشركات الآن الاستمتاع بالمزايا التحليلية لقواعد بيانات SQL بالإضافة إلى إمكانات التخزين المرنة الرخيصة لبحيرة البيانات السحابية ، مع الاستمرار في امتلاك بياناتها الخاصة والحفاظ على بيئات تحليلية منفصلة لكل مجال.
إلى أي عمق تذهب هذه البحيرة؟
نظرًا لأن شركات البيانات تتبنى بشكل متزايد مستودعات البيانات السحابية ، فإن المزيد والمزيد ستكون الشركات قادرة على التركيز على أحد أهم أصول الأعمال اليوم – التحليلات المعقدة على مجموعات البيانات الكبيرة. بدلاً من إحضار بياناتهم إلى محركات الاستضافة ، ستقوم الشركات في الواقع بإحضار محركات عالية المستوى إلى أي بيانات تحتاج إلى تحليل.
بفضل عوائق الدخول المنخفضة لمراكز بحيرة البيانات السحابية ، حيث يمكن تحقيق تخصيص الأجهزة ببضع نقرات فقط ، سيكون لدى المؤسسات بيانات يمكن الوصول إليها بسهولة لكل حالة استخدام يمكن تصورها.
سيستمر موردو بيانات البحيرة في قدرتهم على التعامل مع مجموعات البيانات الأكبر دون التوسع التلقائي في موارد الحوسبة الخاصة بهم التي تم اختبارها إلى ما لا نهاية. ولكن حتى مع تقدم التكنولوجيا ، ستظل طريقة بحيرة البيانات متسقة في قدرتها على السماح باستقلالية البيانات ومنح المستخدمين مزايا مستودعات البيانات وبحيرات البيانات.
قد تبدو مياه بحيرة البيانات غير مختبرة ، ولكن من الواضح بشكل متزايد أن البائعين والشركات التي لا تأخذ زمام المبادرة لن تحقق إمكانات البيانات الخاصة بهم.
ماتان ليبيس هو نائب رئيس المنتج في سكريم.
صانعي القرار
مرحبًا بك في مجتمع VentureBeat!
DataDecisionMakers هو المكان الذي يمكن للخبراء ، بما في ذلك الأشخاص الفنيون الذين يقومون بعمل البيانات ، مشاركة الأفكار والابتكارات المتعلقة بالبيانات.
إذا كنت تريد أن تقرأ عن الأفكار المتطورة والمعلومات المحدثة ، وأفضل الممارسات ، ومستقبل البيانات وتكنولوجيا البيانات ، انضم إلينا في DataDecisionMakers.
يمكنك حتى التفكير في المساهمة بمقال خاص بك!
قراءة المزيد من DataDecisionMakers
اكتشاف المزيد من إشراق التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.