
مهارة تنظيف البيانات

:مهارة تنظيف البيانات
تنظيف البيانات هو عملية إزالة أو تصحيح الأخطاء والتناقضات في البيانات لجعلها جاهزة للتحليل.
ويشمل التعامل مع القيم المفقودة ، التكرار ، القيم المتطرفة
التنسيقات غير الموحدة
:مثال مبسط
جدول يحتوي على أعمار الطلاب، لكن بعض الخانات فارغة أو تحتوي على "غير معروف" أو "عمره كبير جدًا".
🧪 الجزء الثاني: أنواع المشاكل في البيانات
المشكلة |
الوصف |
مثال |
القيم المفقودة |
بيانات غير مدخلة |
خانة العمر فارغة |
التكرار |
صفوف مكررة |
نفس الطالب مكرر مرتين |
القيم المتطرفة |
أرقام غير منطقية |
عمر طالب = 150 سنة |
تنسيقات غير موحدة |
اختلاف في طريقة كتابة البيانات |
"القاهرة" و"CAIRO" |
هنا يحتوي الجدول علي اخطاء تحتاج لتنظيفها مثل بعض الخانات الفارغة التي تعبر عن قيم مفقودة وحالات مكررة وأيضا اعمار طلاب غير منطقية وهي قيم متطرفة،ولغة وتنسيقات غير موحدة.
مثال تدريبي :
الاسم الكامل |
العمر |
المحافظة |
التخصص |
البريد الإلكتروني |
أحمد محمد |
22 |
المنيا |
إعلام |
ahmed@gmail.com |
سارة حسن |
|
القاهرة |
صحافة |
saraa@ymail |
محمد صلاح |
150 |
cairo |
إعلام |
mohammad@@hotmail |
سارة حسن |
|
القاهرة |
صحافة |
saraa@ymail |
ريم خالد |
غير معروف |
Giza |
علاقات عامة |
reemgmail.com |
إسلام فؤاد |
23 |
الجيزة |
علاقات عامة |
islam@gmail.com |
ريم خالد |
25 |
Giza |
علاقات عامة |
reem@gmail.com |
الأخطاء المقصودة في الملف
قيم مفقودة :العمر غير مدخل في صفين
. سارة حسن مكررة بنفس المعلومات. تكرار الصفوف:
قيم متطرفة : عمر محمد صلاح غير منطقي (150 سنة)
تنسيقات غير موحدة :المحافظات مكتوبة بأكثر من شكل.
أخطاء في البريد الإلكتروني: بعضها بدون (@) وبعضها مكرر أو غير صحيح.
© copyright 2025 Data Journalism