البيانات الكبيرة
لمواجهة الانفجار في حجم البيانات ، ظهر مجال تكنولوجي جديد: البيانات الكبيرة. تم ابتكار هذه الحلول من قبل عمالقة الويب ، وهي مصممة لتوفير الوصول في الوقت الفعلي إلى قواعد البيانات العملاقة.
كيفية تحديد البيانات الضخمة ، وما هو وعدها؟
في مواجهة الانفجار في حجم المعلومات ، تهدف Big Data إلى تقديم بديل لقواعد البيانات التقليدية وحلول التحليل (خادم SQL ، منصة ذكاء الأعمال ...). تمت مواجهتها في وقت مبكر جدًا مع مشاكل الأحجام الكبيرة جدًا ، وكان عمالقة الويب ، في مقدمتها ياهو (ولكن أيضًا Google و Facebook) ، أول من نشر هذا النوع من التكنولوجيا. وفقًا لـ Gartner ، فإن Big Data (في البيانات الفرنسية الكبيرة أو "البيانات الكبيرة") تجمع بين مجموعة من الأدوات التي تستجيب لثلاث مشكلات: حجم كبير من البيانات للمعالجة ، ومجموعة متنوعة من المعلومات (من عدة مصادر ، غير منظم ، منظم ، Opendata ...) ، ومستوى معين من السرعة لتحقيقه - وهذا يعني تكرار إنشاء هذه البيانات وجمعها ومعالجتها وتحليلها ومشاركتها. هذا هو ما يسمى بقاعدة 3V.
ما هي تقنيات البيانات الضخمة الرئيسية؟
لمواجهة الانفجار في حجم البيانات ، ظهر مجال تكنولوجي جديد: البيانات الكبيرة. تم ابتكار هذه الحلول من قبل عمالقة الويب ، وهي مصممة لتوفير الوصول في الوقت الفعلي إلى قواعد البيانات العملاقة.
كيفية تحديد البيانات الضخمة ، وما هو وعدها؟
في مواجهة الانفجار في حجم المعلومات ، تهدف Big Data إلى تقديم بديل لقواعد البيانات التقليدية وحلول التحليل (خادم SQL ، منصة ذكاء الأعمال ...). تمت مواجهتها في وقت مبكر جدًا مع مشاكل الأحجام الكبيرة جدًا ، وكان عمالقة الويب ، في مقدمتها ياهو (ولكن أيضًا Google و Facebook) ، أول من نشر هذا النوع من التكنولوجيا. وفقًا لـ Gartner ، فإن Big Data (في البيانات الفرنسية الكبيرة أو "البيانات الكبيرة") تجمع بين مجموعة من الأدوات التي تستجيب لثلاث مشكلات: حجم كبير من البيانات للمعالجة ، ومجموعة متنوعة من المعلومات (من عدة مصادر ، غير منظم ، منظم ، Opendata ...) ، ومستوى معين من السرعة لتحقيقه - وهذا يعني تكرار إنشاء هذه البيانات وجمعها ومعالجتها وتحليلها ومشاركتها. هذا هو ما يسمى بقاعدة 3V.
ما هي تقنيات البيانات الضخمة الرئيسية؟
- هناك الكثير. لتحسين أوقات المعالجة في قواعد البيانات العملاقة ، يمكن أن تدخل العديد من الحلول في الاعتبار:
- قواعد بيانات NoSQL (مثل MongoDB أو Cassandra أو Redis) التي تنفذ أنظمة التخزين التي تعتبر أكثر كفاءة من SQL التقليدية لتحليل البيانات الجماعية (موجه نحو القيمة / القيمة أو المستند أو العمود أو الرسم البياني).
- البنى التحتية للخوادم لتوزيع العلاجات على عشرات ، ومئات ، بل وآلاف العقد. وهذا ما يسمى المعالجة المتوازية بشكل كبير. ربما يكون إطار Hadoop هو أشهرها. فهو يجمع بين نظام الملفات الموزعة HDFS وقاعدة بيانات NoSQL HBase وخوارزمية MapReduce. ظهرت تقنيات أخرى تهدف إلى التحرك نحو معالجة أكثر "في الوقت الحقيقي" في هذه العملية (هذا هو الحال مع Apache Spark).
- تخزين البيانات في الذاكرة (Memtables) يجعل من الممكن تسريع أوقات معالجة الطلبات.
0 تعليقات