يُعرّف الجميع البيانات الضخمة بمجموعة مكونة من 3 أو 4 أو 10 مقابل. هل هذه الـ V تعطينا بالفعل تعريفًا لمفهوم البيانات الضخمة أم أنها شيء آخر يحاولون إخبارنا به؟ السبب الرئيسي لاستخدام هذا التوصيف المستند إلى V هو تسليط الضوء على التحديات التي تأتي محملة بهذه البيانات الضخمة. تحديات مثل - الالتقاط، والتنظيف، والتنظيم، والتكامل، والتخزين، والمعالجة وغير ذلك الكثير.
تعطي علامات V هذه التوجيهات لإعداد نفسك لمواجهة التحديات المحتملة. التحديات التي قد تعترض طريقك عندما تبدأ في إدارة بياناتك الضخمة والتي:
تشرح هذه القيم الجوانب المهمة للبيانات الضخمة واستراتيجية البيانات الضخمة التي لا يمكن للمؤسسة تجاهلها. دعونا نلقي نظرة على جميع مساهمة V في السمات المختلفة للبيانات الضخمة:
1. الحجم:
يتم تحميل 100 تيرابايت من البيانات يوميًا على فيسبوك؛ يقوم Akamai بتحليل 75 مليون حدث يوميًا لاستهداف الإعلانات عبر الإنترنت؛ يتعامل Walmart مع مليون معاملة عميل كل ساعة. تم إنشاء 90% من جميع البيانات التي تم إنشاؤها في العامين الماضيين.
توضح الأرقام المذكورة أعلاه حقًا ما يعنيه عندما نقول كميات كبيرة من البيانات. هذه هي الخصائص الأولى للبيانات التي تجعلها بيانات كبيرة. ويشكل هذا الحجم الهائل من البيانات بدوره تحديًا لنا في تخزين هذه البيانات.
راجع أيضًا: أفضل 19 أداة مجانية لاستخراج البيانات
2. السرعة:
1 في عام 1999، في كل دقيقة من كل يوم، نقوم بتحميل 100 ساعة من الفيديو على YouTube، ونرسل أكثر من 200 مليون بريد إلكتروني ونرسل 300000 تغريدة.
توجد أرقام الحجم الكامنة وراء هذا الرقم وهناك اتجاه أكبر، وهو أن 90% من البيانات الموجودة قد تم إنشاؤها في العامين الماضيين فقط. يصور هذا السرعة أو السرعة التي يتم بها إنشاء البيانات وتخزينها وتحليلها وتصورها.
إن التحدي الذي تواجهه المؤسسات هو التعامل مع السرعة الهائلة التي يتم بها إنشاء البيانات واستخدامها في الوقت الفعلي.
3. التنوع
في الماضي، كانت جميع البيانات التي تم إنشاؤها عبارة عن بيانات منظمة، وتم تركيبها بشكل أنيق في الأعمدة والصفوف ولكن تلك الأيام قد ولت. 90% من البيانات التي يتم إنشاؤها اليوم هي غير منظمة، وتأتي في جميع الأشكال والأشكال - من البيانات الجغرافية المكانية، إلى التغريدات التي يمكن تحليلها للمحتوى والمشاعر، إلى البيانات المرئية كالصور ومقاطع الفيديو.
يصف التنوع أحد أكبر التحديات التي تواجه البيانات الضخمة. يمكن أن يكون غير منظم ويمكن أن يتضمن العديد من أنواع البيانات المختلفة من XML إلى الفيديو إلى الرسائل القصيرة. إن تنظيم البيانات بطريقة ذات معنى ليس بالمهمة السهلة، خاصة عندما تتغير البيانات نفسها بسرعة.
4. التباين
غالبًا ما يتم الخلط بين التباين والتنوع. مثال بسيط لتمييزها هو: فكر في ستاربكس – فهي تحتوي على الكثير من النكهات في القهوة الباردة. هذا هو التنوع. لنفترض أنك تشتري مقهى موكا كل يوم وكان طعمه ورائحته مختلفين قليلاً عن كل يوم سابق. إنه التباين.
يشير التباين في سياق البيانات الضخمة إلى عدة أشياء مختلفة. الأول هو عدد التناقضات في البيانات. يجب العثور على هذه الأشياء عن طريق طرق الكشف عن الحالات الشاذة والغريبة من أجل إجراء أي تحليلات ذات معنى. البيانات الضخمة متغيرة أيضًا بسبب تعدد أبعاد البيانات الناتجة عن أنواع ومصادر بيانات متعددة ومتباينة. يمكن أن يشير التباين أيضًا إلى السرعة غير المتسقة التي يتم بها تحميل البيانات الضخمة في قاعدة بياناتك.
راجع أيضًا: أفضل أدوات تنظيف البيانات دون اتصال
5. الصدق
إن الأمر الحاسم لفهم البيانات الضخمة هو طبيعتها الفوضوية والصاخبة، وحجم العمل المبذول لإنتاج مجموعة بيانات دقيقة قبل أن يبدأ التحليل. ولا فائدة منه إذا كانت البيانات التي يتم تحليلها غير دقيقة أو غير كاملة.
ينشأ هذا الموقف عندما تنشأ تدفقات البيانات من مصادر متنوعة تقدم مجموعة متنوعة من التنسيقات بنسب إشارة إلى ضوضاء متفاوتة. قد تكون مليئة بهذه الأخطاء المتراكمة بحلول الوقت الذي تصل فيه إلى تحليلات البيانات الضخمة.
تتعلق الصدق بالتأكد من دقة البيانات، الأمر الذي يتطلب عمليات لمنع تراكم البيانات السيئة في أنظمتك. أبسط مثال هو جهات الاتصال التي تدخل نظام أتمتة التسويق الخاص بك بأسماء مزيفة ومعلومات اتصال غير دقيقة. كم مرة رأيت ميكي ماوس في قاعدة بياناتك؟ إنه التحدي الكلاسيكي "القمامة تدخل، القمامة تخرج".
6. التصور
هذا هو الجزء الصعب من البيانات الضخمة، والفشل فيه يجعل هذا الحجم الضخم من البيانات عديم الفائدة. تتمثل المهمة الأساسية لأي نظام معالجة بيانات ضخمة في تحويل الحجم الهائل لها إلى شيء يسهل فهمه وقابل للتنفيذ. بالنسبة للاستهلاك البشري، فإن إحدى أفضل الطرق لذلك هي تحويلها إلى تنسيقات رسومية.
تواجه أدوات تصور البيانات الضخمة الحالية تحديات فنية بسبب القيود المفروضة على التكنولوجيا في الذاكرة وضعف قابلية التوسع والوظائف ووقت الاستجابة. لا يمكن للرسوم البيانية التقليدية أن تلبي الحاجة إلى رسم مليار نقطة بيانات، لذلك تحتاج إلى طرق مختلفة لتمثيل البيانات مثل تجميع البيانات أو استخدام الخرائط الشجرية أو أمة الله أو الإحداثيات المتوازية أو مخططات الشبكة الدائرية أو الأشجار المخروطية.
7 . القيمة
القيمة هي نهاية اللعبة. إن القيمة المحتملة للبيانات الضخمة هائلة. بعد الاهتمام بالحجم والسرعة والتنوع والتنوع والصدق والتصور - الأمر الذي يستغرق الكثير من الوقت والجهد - من المهم التأكد من أن مؤسستك تحصل على قيمة من البيانات.
بالطبع فالبيانات في حد ذاتها ليست ذات قيمة على الإطلاق. تكمن القيمة في التحليلات التي يتم إجراؤها على تلك البيانات وكيفية تحويل البيانات إلى معلومات وتحويلها في النهاية إلى معرفة.
تخبرك العناصر السبعة المذكورة أعلاه عن 3 جوانب مهمة للبيانات الضخمة، وهي التعريف والخصائص والخصائص التحديات. ولكن عندما بدأ الناس في إجراء أبحاث حول البيانات الضخمة لاختراع طرق لمواجهة تحديات 7 V المذكورة أعلاه، صادفوا بعض تحديات V الأخرى. على الرغم من أنها لا تلعب هذا الدور الحاسم في البيانات الضخمة ولكنها تكمل قائمة الخصائص والتحديات.
8. الصلاحية
كما هو الحال مع الصدق، تشير الصلاحية إلى مدى دقة وصحة البيانات للاستخدام المقصود منها. إن صحة البيانات الضخمة هي مسألة صحة، أي أن البيانات صحيحة ودقيقة للاستخدام المقصود. من الواضح أن البيانات الصحيحة هي المفتاح لاتخاذ القرارات الصحيحة. التحقق من صحة البيانات هو الذي يشهد على نقل البيانات غير التالفة.
9. الصلاحية
فقط فكر في العبارات التالية:
مهمتنا الأولى هي تقييم مدى صلاحية تلك البيانات لأنه، مع وجود العديد من أنواع البيانات والمتغيرات التي يجب مراعاتها عند بناء نموذج تنبؤي فعال، فإننا نريد أن نقوم بسرعة وبتكلفة- اختبار وتأكيد أهمية متغير معين بشكل فعال قبل الاستثمار في إنشاء نموذج كامل المواصفات. بمعنى آخر، نريد التحقق من صحة هذه الفرضية قبل أن نتخذ المزيد من الإجراءات، وفي عملية تحديد مدى جدوى أي المتغير، يمكننا توسيع وجهة نظرنا لتحديد ما إذا كانت المتغيرات الأخرى - تلك التي لم تكن جزءًا من فرضيتنا الأولية - لها تأثير ملموس على النتائج المرغوبة أو الملحوظة.
10. التقلب
ما هو العمر الذي يجب أن تكون عليه بياناتك قبل أن تعتبر غير ذات صلة أو تاريخية أو غير مفيدة بعد الآن؟ ما المدة التي يجب الاحتفاظ بالبيانات فيها؟
عندما نتحدث عن تقلب البيانات الضخمة، يمكننا بسهولة أن نتذكر سياسة الاحتفاظ بالبيانات المنظمة التي ننفذها كل يوم في أعمالنا. بمجرد انتهاء فترة الاحتفاظ، يمكننا تدميرها بسهولة.
نظرًا لسرعة وحجم البيانات الضخمة، يجب دراسة تقلبها بعناية. أنت الآن بحاجة إلى وضع قواعد لعملة البيانات ومدى توفرها بالإضافة إلى ضمان استرجاع المعلومات بسرعة عند الحاجة.
11. الضعف
هل تتذكر اختراق Ashley Madison في عام 2015؟ أو هل تتذكر في مايو 2016، ذكرت CRN أن "متسللًا يُدعى Peace نشر بيانات على الويب المظلم للبيع، والتي زُعم أنها تضمنت معلومات عن 167 مليون حساب LinkedIn و360 مليون بريد إلكتروني وكلمات مرور لمستخدمي MySPace.
كبير تجلب البيانات معها مخاوف أمنية جديدة. ومع هذه الخصائص، يصبح من الصعب تطوير برنامج أمني للبيانات الضخمة. ففي نهاية المطاف، يعد اختراق البيانات بمثابة اختراق كبير.
فماذا يخبرنا كل هذا عن طبيعة البيانات الضخمة؟ حسنًا، إنه ضخم وسريع التوسع، ولكنه أيضًا صاخب وفوضوي ومتغير باستمرار، بمئات التنسيقات ولا قيمة له فعليًا بدون تحليل وتصور.
الحجم والسرعة والتنوع ليست فقط المعلمات الرئيسية البيانات الضخمة، ولكنها أيضًا سبب في ولادة مفهوم البيانات الضخمة والميزات الرئيسية التي تفصل بين البيانات العادية والبيانات الضخمة. على الرغم من أنها جوهرية في البيانات الضخمة نفسها، إلا أن التباين والصدق والتصور والقيمة في V الأخرى هي سمات مهمة تعكس التعقيد الهائل الذي تقدمه البيانات الضخمة لأولئك الذين يقومون بمعالجتها وتحليلها والاستفادة منها.
مما لا شك فيه أن البيانات الضخمة هي اتجاه رئيسي يجب أن تستوعبه تكنولوجيا المعلومات في الشركات من خلال البنى التحتية الحاسوبية المناسبة. ولكن بدون التحليلات عالية الأداء وعلماء البيانات لفهم كل ذلك، فإنك تخاطر ببساطة بإنشاء تكاليف كبيرة دون إنشاء القيمة التي تترجم إلى ميزة تجارية.
قراءة: 0