سلولهای خالی
هنگام تجزیه و تحلیل داده ها ، سلول های خالی می توانند به طور بالقوه نتیجه اشتباهی به شما بدهند.
حذف سطرها
یکی از راه های برخورد با سلول های خالی حذف سطرهایی است که حاوی سلول های خالی هستند.
این معمولاً خوب است ، زیرا مجموعه داده ها می توانند بسیار بزرگ باشند و حذف چند ردیف تأثیر زیادی در نتیجه نخواهد داشت.
مثال
یک Data Data Frame بدون سلول خالی بازگردانید:
import pandas as pd df = pd.read_csv('data.csv') new_df = df.dropna() print(new_df.to_string())
در نمونه های تمیز کردن ما از یک فایل CSV به نام ‘dirtydata.csv’ استفاده خواهیم کرد.
دانلود dirtydata.csv . یا dirtydata.csv را باز کنید
توجه: به طور پیش فرض ، dropna()
روش یک DataFrame جدید را برمی گرداند و اصل را تغییر نمی دهد.
اگر می خواهید DataFrame اصلی را تغییر دهید ، از inplace = True
آرگومان استفاده کنید :
مثال
حذف همه سطرها با مقادیر NULL:
import pandas as pd df = pd.read_csv('data.csv') df.dropna(inplace = True) print(df.to_string())
توجه: در حال حاضر ، dropna(inplace = True)
یک DataFrame جدید برنمی گردد ، اما همه سطرهای دارای مقادیر NULL را از DataFrame اصلی حذف می کند.
مقادیر خالی را جایگزین کنید
راه دیگر برخورد با سلول های خالی این است که به جای آن مقدار جدیدی وارد کنید.
به این ترتیب شما مجبور نیستید کل ردیف ها را فقط به دلیل وجود سلول های خالی حذف کنید.
این fillna()
روش به ما امکان می دهد سلول های خالی را با مقدار زیر جایگزین کنیم:
مثال
مقادیر NULL را با عدد 130 جایگزین کنید:
import pandas as pd df = pd.read_csv('data.csv') df.fillna(130, inplace = True)
فقط برای ستون های مشخص جایگزین کنید
مثال بالا همه سلولهای خالی را در کل Data Frame جایگزین می کند.
برای جایگزینی مقادیر خالی برای یک ستون ، نام ستون را برای DataFrame تعیین کنید:
مثال
مقادیر NULL را در ستون “کالری” با شماره 130 جایگزین کنید:
import pandas as pd df = pd.read_csv('data.csv') df["Calories"].fillna(130, inplace = True)