البيانات في تعلم الآلة

تُعد البيانات الأساس الحقيقي الذي يقوم عليه تعلم الآلة.
فالخوارزميات لا تتعلم من الفراغ، بل تعتمد على بيانات يتم جمعها وتحليلها
وتنظيفها واستخدامها بالشكل الصحيح. وتوضح الصفحة الأصلية أن ما يصل إلى
80% من مشروع تعلم الآلة قد يدور حول التعامل مع البيانات:
ما البيانات المطلوبة؟ ما البيانات المتاحة؟ كيف نختارها؟ كيف نجمعها؟
كيف ننظفها؟ كيف نجهزها؟ وكيف نستخدمها؟

ما هي البيانات؟

البيانات ليست نوعًا واحدًا فقط، بل يمكن أن تأتي في صور متعددة.
وفي سياق تعلم الآلة، تُفهم البيانات على أنها مجموعة من الحقائق
التي يمكن للنظام التعلم منها.

وتوضح الصفحة أن البيانات قد تكون:

أرقامًا مثل الأسعار والتواريخ
قياسات مثل الحجم والطول والوزن
كلمات مثل الأسماء وأسماء الأماكن
ملاحظات مثل عدّ السيارات
أوصافًا مثل القول إن الجو بارد

وهذا يوضح أن البيانات ليست مجرد أرقام داخل جدول، بل أي معلومة يمكن
تسجيلها والاستفادة منها في التحليل أو التنبؤ.

الذكاء يحتاج إلى بيانات

كما يحتاج الإنسان إلى بيانات ومعلومات لكي يفهم ويتخذ قرارات أفضل،
فإن الذكاء الاصطناعي أيضًا يحتاج إلى بيانات لكي يعمل بشكل صحيح.

تضرب الصفحة مثالًا بوسيط عقاري يحتاج إلى بيانات عن المنازل التي تم بيعها
حتى يقدّر أسعار المنازل الجديدة. وبنفس الفكرة، يحتاج برنامج تعلم الآلة
إلى بيانات حتى يستطيع تقدير الأسعار أو اتخاذ قرارات مشابهة.

ولا يقتصر دور البيانات على التنبؤ فقط، بل تساعدنا أيضًا على:

الرؤية والفهم بشكل أوضح
اكتشاف فرص جديدة
تقليل سوء الفهم وحل الالتباس

أمثلة على أهمية البيانات في القطاعات المختلفة

الرعاية الصحية

في قطاع الرعاية الصحية وعلوم الحياة، يتم جمع بيانات الصحة العامة وبيانات المرضى
لفهم كيفية تحسين الرعاية الطبية والمساعدة في إنقاذ الأرواح.

الأعمال

توضح الصفحة أن أكثر الشركات نجاحًا في قطاعات كثيرة هي شركات
مبنية على البيانات. فهي تستخدم تحليلات بيانات متقدمة
لفهم كيف يمكن للشركة أن تعمل بشكل أفضل وتحقق نتائج أقوى.

التمويل

في البنوك وشركات التأمين، يتم جمع بيانات العملاء والقروض والودائع
وتقييمها من أجل دعم اتخاذ القرارات الاستراتيجية.

التعداد الشامل أم العينة؟

عند جمع البيانات، قد نلجأ إلى أحد أسلوبين:

التعداد الشامل Census: جمع البيانات من كل فرد في المجموعة
العينة Sample: جمع البيانات من بعض أفراد المجموعة فقط

وتعطي الصفحة مثالًا بسيطًا: إذا أردنا معرفة عدد الأمريكيين الذين يدخنون السجائر،
فيمكننا أن نسأل كل شخص في الولايات المتحدة، وهذا يُعد تعدادًا شاملًا.
أو يمكننا أن نسأل 10,000 شخص فقط، وهذا يُعد عينة.

وتوضح الصفحة الفرق بوضوح:

التعداد الشامل أكثر دقة، لكنه صعب التنفيذ
العينة أقل دقة، لكنها أسهل وأسرع وأقل تكلفة

مصطلحات مهمة في أخذ العينات

قبل استخدام العينات، توضح الصفحة عدة مصطلحات أساسية:

Population: المجتمع أو مجموعة الأفراد/العناصر التي نريد جمع معلومات عنها
Census: معلومات عن كل فرد في هذا المجتمع
Sample: معلومات عن جزء من هذا المجتمع بهدف تمثيله

هذه المصطلحات أساسية لأن كثيرًا من جودة النموذج تعتمد على فهم
من أين جاءت البيانات، وهل تمثل المجتمع الحقيقي أم لا.

العينات العشوائية Random Samples

تشدد الصفحة على أن العينة حتى تمثل المجتمع بشكل جيد، يجب أن تكون
عشوائية. والمقصود بالعينة العشوائية أن يكون لكل عنصر
في المجتمع فرصة متساوية في أن يظهر داخل العينة.

وهذا مهم جدًا لأن العينة غير العشوائية قد تقود إلى استنتاجات مضللة،
حتى لو كان عدد البيانات كبيرًا.

الانحياز في أخذ العينات Sampling Bias

توضح الصفحة أن Sampling Bias أو خطأ الانحياز في العينة
يحدث عندما يتم جمع العينات بطريقة تجعل بعض الأفراد أقل احتمالًا أو
أكثر احتمالًا للدخول في العينة من غيرهم.

بمعنى آخر، إذا لم تكن طريقة اختيار العينة عادلة أو متوازنة،
فالبيانات الناتجة قد لا تمثل الواقع بشكل صحيح، وبالتالي قد يتعلم
النموذج صورة مشوهة عن الحقيقة.

البيانات الضخمة Big Data

تنتقل الصفحة بعد ذلك إلى مفهوم Big Data أو البيانات الضخمة.
وتعرّفها بأنها بيانات يصبح من المستحيل على البشر معالجتها من دون
الاستعانة بآلات وأنظمة متقدمة.

كما توضح الصفحة أن البيانات الضخمة لا تملك تعريفًا ثابتًا من حيث الحجم فقط،
لكن الفكرة الأساسية أن مجموعات البيانات أصبحت تكبر باستمرار مع استمرارنا
في جمع المزيد من البيانات، ومع انخفاض تكلفة التخزين.

وهذا يعني أن مفهوم Big Data لا يرتبط برقم واحد محدد، بل بطبيعة
الحجم والتعقيد والسرعة التي تتولد بها البيانات.

التنقيب عن البيانات Data Mining

عندما تكبر البيانات وتزداد تعقيدًا، تظهر الحاجة إلى
التنقيب عن البيانات. وتشير الصفحة إلى أن البيانات الضخمة
تأتي غالبًا بهياكل معقدة، وأن جزءًا كبيرًا من معالجتها يعتمد على
تنقية البيانات وتحسينها.

وهذا يعني أن التعامل مع البيانات لا يقتصر على جمعها فقط،
بل يشمل أيضًا:

تنظيمها
تنظيفها
إزالة الضوضاء والأخطاء
استخراج الأنماط والمعاني المفيدة منها

وهنا تظهر أهمية Data Mining كمرحلة تساعد على تحويل البيانات الخام
إلى معلومات قابلة للاستخدام في النماذج والتحليلات.

لماذا تُعد البيانات أهم جزء في المشروع؟

الفكرة العامة التي تؤكدها الصفحة هي أن نجاح مشروع تعلم الآلة لا يعتمد
فقط على الخوارزمية، بل يعتمد بدرجة كبيرة على جودة البيانات.
فالبيانات السيئة، أو المنحازة، أو غير الممثلة للواقع، قد تؤدي إلى نموذج
ضعيف حتى لو استخدمنا خوارزمية قوية جدًا.

ولهذا نجد أن الجزء الأكبر من العمل في مشاريع تعلم الآلة يكون في:

تحديد ما نحتاج إليه من بيانات
معرفة ما هو متاح بالفعل
اختيار البيانات المناسبة
جمعها من مصادر صحيحة
تنظيفها وتجهيزها
استخدامها بالشكل السليم

الخلاصة

يوضح هذا الدرس أن البيانات هي العمود الفقري لتعلم الآلة. فهي ليست مجرد
أرقام، بل حقائق وملاحظات وقياسات وأوصاف يمكن أن تتعلم منها الأنظمة الذكية.
كما يشرح أهمية جمع البيانات بشكل صحيح، والتمييز بين التعداد الشامل والعينة،
وفهم معنى المجتمع والعينة العشوائية والانحياز في العينات. ثم ينتقل إلى
البيانات الضخمة والتنقيب عن البيانات، ليؤكد أن بناء نموذج جيد يبدأ أولًا
بفهم البيانات والتعامل معها بعناية.

14- كورس تعلم الذكاء الاصطناعي Machine Learning – بيانات التعلم الآلي