٪۴۰ تخفیف تابستانه شروع شد! بزرگترین حراج سال ما

به ما بپیوندید

آموزش پانداها – رفع داده های اشتباه

داده اشتباه “داده های اشتباه” لزوماً نباید “سلول خالی” یا “قالب اشتباه” باشد ، بلکه ممکن است اشتباه باشد ، مانند این که شخصی به جای “1.99” “199” را ثبت کرده باشد. گاهی اوقات می توانید با نگاه کردن به…

محمد یوسفی

28 سپتامبر 2021

داده اشتباه

“داده های اشتباه” لزوماً نباید “سلول خالی” یا “قالب اشتباه” باشد ، بلکه ممکن است اشتباه باشد ، مانند این که شخصی به جای “1.99” “199” را ثبت کرده باشد.

گاهی اوقات می توانید با نگاه کردن به مجموعه داده ها ، داده های اشتباه را تشخیص دهید ، زیرا انتظار دارید آنچه باید باشد.

اگر به مجموعه داده های ما نگاهی بیندازید ، می بینید که در ردیف 7 ، مدت زمان 450 است ، اما برای همه ردیف های دیگر مدت زمان بین 30 تا 60 است.

لازم نیست اشتباه باشد ، اما با توجه به اینکه این مجموعه داده های جلسات تمرین شخصی است ، ما با این واقعیت نتیجه می گیریم که این شخص در 450 دقیقه تمرین نکرد.

  مدت زمان پالس کالری Maxpulse
0 60 '2020/12/01' 110 130 409.1
1 60 '2020/12/02' 117 145 479.0
2 60 '2020/12/03' 103 135 340.0
3 45 '2020/12/04' 109 175 282.4
4 45 '2020/12/05' 117 148 406.0
5 60 '2020/12/06' 102 127 300.0
6 60 '2020/12/07' 110 136 374.0 
7 450 '2020/12/08' 104 134 253.3
8 30 '2020/12/09' 109 133 195.1
9 60 '2020/12/10' 98 124 269.0
10 60 '2020/12/11' 103 147 329.3
11 60 '2020/12/12' 100 120 250.7
12 60 '2020/12/12' 100 120 250.7
13 60 '2020/12/13' 106 128 345.3
14 60 '2020/12/14' 104 132 379.3
15 60 '2020/12/15' 98 123 275.0
16 60 '2020/12/16' 98 120 215.2
17 60 '2020/12/17' 100 120 300 300.0
18 45 '2020/12/18' 90 112 NaN
19 60 '2020/12/19' 103 123 323.0
20 45 '2020/12/20' 97 125 243.0
21 60 '2020/12/21' 108 131 364.2
22 45 NaN 100 119 282.0
23 60 '2020/12/23' 130 101 300.0.0
24 45 '2020/12/24' 105 132 246.0
25 60 '2020/12/25' 102 126 334.5
26 60 20201226 100 120 250.0
27 60 '2020/12/27' 92 118 241.0
28 60 '2020/12/28' 103 132 NaN
29 60 '2020/12/29' 100 132 280.0
30 60 '2020/12/30' 102 129 380.3
31 60 '2020/12/31' 92 115 243.0

چگونه می توانیم مقادیر اشتباه ، مانند مقدار “مدت” در ردیف 7 را برطرف کنیم؟


جایگزینی مقادیر

یکی از راههای اصلاح مقادیر اشتباه جایگزینی آنها با چیزهای دیگر است.

در مثال ما ، به احتمال زیاد اشتباه تایپی است و مقدار باید به جای “450” ​​”45″ باشد و ما فقط می توانیم “45” را در ردیف 7 وارد کنیم:

مثال

“Duration” = 45 را در ردیف 7 تنظیم کنید:

df.loc[7, 'Duration'] = 45

برای مجموعه داده های کوچک ممکن است بتوانید داده های اشتباه را یکی یکی جایگزین کنید ، اما نه برای مجموعه داده های بزرگ.

برای جایگزینی داده های اشتباه برای مجموعه داده های بزرگتر ، می توانید برخی قوانین را ایجاد کنید ، به عنوان مثال برای مقادیر قانونی محدودیت تعیین کنید و هر مقداری را که خارج از مرزها هستند جایگزین کنید.

مثال

تمام مقادیر موجود در ستون “مدت” را باز کنید.

اگر مقدار بیشتر از 120 است ، آن را روی 120 تنظیم کنید:

for x in df.index:
  if df.loc[x, "Duration"] > 120:
    df.loc[x, "Duration"] = 120

حذف سطرها

راه دیگر مدیریت داده های اشتباه حذف سطرهایی است که حاوی داده های اشتباه است.

به این ترتیب شما مجبور نیستید دریابید که آنها را با چه چیزی جایگزین کنید ، و به احتمال زیاد برای انجام تجزیه و تحلیل خود به آنها احتیاج ندارید.

مثال

حذف سطرهایی که “مدت” آنها از 120 بیشتر است:

for x in df.index:
  if df.loc[x, "Duration"] > 120:
    df.drop(x, inplace = True)

منبع

مطالب مرتبط

0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها