مهارة تنظيف البيانات

Hala Mohy
9/18/2025 9:59:32 AM

 :مهارة تنظيف البيانات

تنظيف البيانات هو عملية إزالة أو تصحيح الأخطاء والتناقضات في البيانات لجعلها جاهزة للتحليل.

ويشمل التعامل مع القيم المفقودة ، التكرار ، القيم المتطرفة

التنسيقات غير الموحدة

:مثال مبسط 

جدول يحتوي على أعمار الطلاب، لكن بعض الخانات فارغة أو تحتوي على "غير معروف" أو "عمره كبير جدًا".

🧪 الجزء الثاني: أنواع المشاكل في البيانات

المشكلة

الوصف

مثال

القيم المفقودة

بيانات غير مدخلة

خانة العمر فارغة

التكرار

صفوف مكررة

نفس الطالب مكرر مرتين

القيم المتطرفة

أرقام غير منطقية

عمر طالب = 150 سنة

تنسيقات غير موحدة

اختلاف في طريقة كتابة البيانات

"القاهرة" و"CAIRO"

هنا يحتوي الجدول علي اخطاء تحتاج لتنظيفها مثل بعض الخانات الفارغة التي تعبر عن قيم مفقودة وحالات  مكررة وأيضا اعمار طلاب غير منطقية وهي قيم متطرفة،ولغة وتنسيقات غير موحدة.

مثال تدريبي :

 

الاسم الكامل

العمر

المحافظة

التخصص

البريد الإلكتروني

أحمد محمد

22

المنيا

إعلام

ahmed@gmail.com

سارة حسن

 

القاهرة

صحافة

saraa@ymail

محمد صلاح

150

cairo

إعلام

mohammad@@hotmail

سارة حسن

 

القاهرة

صحافة

saraa@ymail

ريم خالد

غير معروف

Giza

علاقات عامة

reemgmail.com

إسلام فؤاد

23

الجيزة

علاقات عامة

islam@gmail.com

ريم خالد

25

Giza

علاقات عامة

reem@gmail.com

 

الأخطاء المقصودة في الملف

قيم مفقودة :العمر غير مدخل في صفين

. سارة حسن مكررة بنفس المعلومات. تكرار الصفوف:

 قيم متطرفة : عمر محمد صلاح غير منطقي (150 سنة)

تنسيقات غير موحدة :المحافظات مكتوبة بأكثر من شكل.

أخطاء في البريد الإلكتروني: بعضها بدون (@) وبعضها مكرر أو غير صحيح.

© copyright 2025 Data Journalism