یافتن روابط
جنبه بزرگ ماژول Pandas corr()
روش است.
این corr()
روش رابطه بین هر ستون در مجموعه داده های شما را محاسبه می کند.
نمونه های موجود در این صفحه از یک فایل CSV به نام: ‘data.csv’ استفاده می کند.
data.csv را بارگیری کنید . یا data.csv را باز کنید
مثال
رابطه بین ستون ها را نشان دهید:
df.corr()
نتیجه
مدت زمان کالری پالس Maxpulse مدت زمان 1.000000 -0.155408 0.009403 0.922721 نبض -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 کالری 0.922721 0.025120 0.203814 1.000000
توجه: این corr()
روش ستون های “نه عددی” را نادیده می گیرد.
نتیجه توضیح داده شد
نتیجه corr()
روش ، جدولی با اعداد زیاد است که نشان می دهد رابطه بین دو ستون چقدر خوب است.
تعداد آنها از -1 تا 1 متغیر است.
1 به این معنی است که یک رابطه 1 به 1 وجود دارد (یک همبستگی کامل) ، و برای این مجموعه داده ، هر بار که یک مقدار در ستون اول بالا رفت ، دیگری نیز افزایش یافت.
0.9 نیز رابطه خوبی است و اگر یک مقدار را افزایش دهید ، احتمالاً ارزش دیگری نیز افزایش می یابد.
-0.9 رابطه خوبی با 0.9 خواهد داشت ، اما اگر یک مقدار را افزایش دهید ، ارزش دیگر احتمالاً کاهش می یابد.
0.2 به معنی رابطه خوب نیست ، بدین معنا که اگر یک مقدار بالا رفت به این معنا نیست که دیگری افزایش می یابد.
همبستگی خوب چیست؟ این بستگی به استفاده دارد ، اما من فکر می کنم با اطمینان می توان گفت که حداقل باید 0.6
(یا -0.6
) داشته باشید تا آن را یک همبستگی خوب بنامید.
همبستگی کامل:
ما می توانیم ببینیم که “مدت” و “مدت” عدد را دریافت کردند 1.000000
، که منطقی است ، هر ستون همیشه با خودش رابطه ای کامل دارد.
همبستگی خوب:
“مدت” و “کالری” دارای 0.922721
همبستگی هستند ، که همبستگی بسیار خوبی است ، و ما می توانیم پیش بینی کنیم که هر چه بیشتر تمرین کنید ، کالری بیشتری می سوزانید و برعکس: اگر کالری زیادی سوزانده اید ، احتمالاً مدت طولانی تمرین کرده است
همبستگی بد:
“مدت” و “Maxpulse” یک 0.009403
همبستگی دارند ، که یک همبستگی بسیار بد است ، بدین معنا که ما نمی توانیم حداکثر پالس را فقط با نگاه کردن به مدت زمان تمرین ، و بالعکس پیش بینی کنیم.