15- كورس تعلم الذكاء الاصطناعي Machine Learning – مجموعة البيانات

التجمعات البيانية Clustering في تعلم الآلة

تُعد التجمعات البيانية أو Clusters
من المفاهيم المهمة في تعلم الآلة وتحليل البيانات. والفكرة الأساسية هنا
أن بعض نقاط البيانات تكون متشابهة مع بعضها بدرجة تجعل من الممكن
جمعها داخل مجموعة واحدة، بينما تكون هناك نقاط أخرى مختلفة عنها
وتنتمي إلى مجموعات أخرى.

هذا النوع من التحليل مفيد جدًا عندما نريد فهم شكل البيانات،
واكتشاف البنية الداخلية لها، ومعرفة ما إذا كانت البيانات تحتوي
على مجموعات طبيعية يمكن تمييزها.

ما هي Clusters؟

التجمعات أو Clusters هي مجموعات من البيانات
يتم بناؤها على أساس التشابه.

وتوضح الصفحة الأصلية أن نقاط البيانات التي تتجمع معًا داخل الرسم البياني
يمكن غالبًا تصنيفها على أنها تنتمي إلى مجموعات مختلفة.
وفي المثال المعروض في الصفحة، يمكن تمييز
3 تجمعات مختلفة.

لماذا نهتم بالتجمعات؟

التجمعات قد تحتوي على قدر كبير من المعلومات القيمة،
لكن المشكلة أن أشكالها ليست ثابتة دائمًا.
فبعضها قد يكون واضحًا وسهل الملاحظة،
وبعضها قد يكون غير منتظم أو متداخل جزئيًا مع غيره.

ولهذا لا يكفي أن نعرف أن البيانات متشابهة فقط،
بل نحتاج أيضًا إلى طرق تساعدنا على
التعرّف على هذه التجمعات بدقة.

كيف نحدد التجمعات؟

توضح الصفحة أن هناك طريقتين أساسيتين للتعرف على التجمعات:

  • استخدام التصور البصري Visualization
  • استخدام خوارزمية تجميع Clustering Algorithm

في بعض الحالات، يكفي النظر إلى الرسم البياني حتى نلاحظ
وجود مجموعات منفصلة من النقاط. لكن في حالات أخرى تكون البيانات
أكثر تعقيدًا، وهنا نحتاج إلى خوارزميات مخصصة لاكتشاف
المجموعات بشكل آلي.

ما هو Clustering؟

التجميع أو Clustering هو نوع من
التعلم غير الموجّه Unsupervised Learning.

والمقصود بذلك أن النظام لا يحصل على إجابات جاهزة أو تسميات مسبقة،
بل يحاول بنفسه اكتشاف البنية أو النمط الموجود داخل البيانات.

وتوضح الصفحة أن Clustering يحاول القيام بأمرين:

  • جمع البيانات المتشابهة داخل مجموعات واحدة
  • فصل البيانات المختلفة داخل مجموعات أخرى

وهذا يجعل التجميع مناسبًا جدًا عندما نملك بيانات كثيرة
لكننا لا نعرف مسبقًا كيف ينبغي تقسيمها.

طرق التجميع Clustering Methods

تعرض الصفحة 4 عائلات رئيسية من طرق التجميع:

  • Density Method
  • Hierarchical Method
  • Partitioning Method
  • Grid-based Method

1) Density Method

تعتمد طريقة الكثافة على فكرة أن النقاط الموجودة
في المناطق ذات الكثافة العالية تكون أكثر تشابهًا مع بعضها،
وتختلف عن النقاط الموجودة في المناطق الأقل كثافة.

وتشير الصفحة إلى أن هذه الطريقة تتمتع
بدقة جيدة، كما تملك قدرة على
دمج التجمعات عند الحاجة.

ومن أمثلة الخوارزميات الشائعة فيها:

  • DBSCAN
  • OPTICS

2) Hierarchical Method

تعتمد الطريقة الهرمية على تكوين التجمعات
داخل بنية تشبه الشجرة.

أي أن التجمعات الجديدة يتم تكوينها اعتمادًا على
تجمعات تم تكوينها مسبقًا، بحيث تظهر لدينا بنية متدرجة
يمكن أن تمثل العلاقات بين المجموعات على مستويات مختلفة.

ومن أمثلة الخوارزميات الشائعة فيها:

  • CURE
  • BIRCH

3) Grid-based Method

تعتمد الطريقة المعتمدة على الشبكة Grid-based
على تقسيم البيانات إلى عدد محدود من الخلايا،
ثم تشكيل بنية شبيهة بالشبكة أو الجدول.

هذا النوع من الطرق مفيد عندما نريد تحويل الفضاء البياني
إلى وحدات منظمة يمكن معالجتها بسهولة أكبر.

ومن أمثلة الخوارزميات الشائعة فيها:

  • CLIQUE
  • STING

4) Partitioning Method

تعتمد طريقة التقسيم Partitioning
على تقسيم العناصر إلى k مجموعات،
بحيث يكون كل تقسيم مجموعة مستقلة.

والهدف هنا هو توزيع العناصر على عدد محدد من المجموعات
بطريقة تجعل كل مجموعة أكثر تجانسًا داخليًا،
وأكثر اختلافًا عن المجموعات الأخرى.

ومن أمثلة الخوارزميات المذكورة في الصفحة:

  • CLARANS

معامل الارتباط Correlation Coefficient

في الجزء الأخير من الصفحة، يتم شرح
معامل الارتباط r.

وتوضح الصفحة أن معامل الارتباط يصف
قوة العلاقة الخطية واتجاهها
بين متغيري x وy
في مخطط مبعثر Scatter Plot.

وتتراوح قيمة r دائمًا بين
-1 و+1.

مثال:
r = -1  → علاقة خطية سالبة مثالية
r =  0  → لا توجد علاقة خطية
r = +1  → علاقة خطية موجبة مثالية

وتعرض الصفحة أمثلة وصفية لعدد من القيم الوسيطة، مثل:

  • -0.70 علاقة سالبة قوية
  • -0.50 علاقة سالبة متوسطة
  • -0.30 علاقة سالبة ضعيفة
  • +0.30 علاقة موجبة ضعيفة
  • +0.50 علاقة موجبة متوسطة
  • +0.70 علاقة موجبة قوية

وهذا الجزء يساعد على فهم شكل العلاقات داخل الرسوم البيانية،
حتى لو لم يكن الهدف هو التجميع نفسه فقط.

ما الفرق بين Clustering وCorrelation؟

رغم أن الصفحة تجمع بين المفهومين، إلا أن بينهما فرقًا واضحًا:

  • Clustering يهتم بتقسيم البيانات إلى مجموعات متشابهة
  • Correlation يهتم بقياس قوة العلاقة الخطية بين متغيرين

إذن التجميع يساعدنا على اكتشاف البنية الداخلية للبيانات،
بينما معامل الارتباط يساعدنا على فهم مدى ترابط متغيرين
في اتجاه صاعد أو هابط.

الخلاصة

يوضح هذا الدرس أن التجمعات البيانية هي مجموعات
من البيانات المتشابهة، وأن Clustering هو أسلوب
من أساليب التعلم غير الموجّه يهدف إلى جمع العناصر
المتشابهة وفصل العناصر المختلفة. كما يشرح الطرق الرئيسية للتجميع:
الكثافة، والهرمية، والتقسيم، والشبكة، مع أمثلة على خوارزميات
كل نوع. وفي النهاية يضيف شرحًا مهمًا لـ
معامل الارتباط لفهم قوة واتجاه العلاقة الخطية
بين المتغيرات داخل الرسوم البيانية.