لیستی از مهم‌ترین توابع پانداس که مورد نیاز دانشمندان داده است

فهرست مطالب

 

اصل پارتو و کتابخانه‌های پانداس

تسلط کامل بر یک کتابخانه‌ی پایتون مانند پانداس ‌برای هر کسی می‌تواند چالش برانگیز باشد. اگر یک قدم به عقب برداریم و بیاندیشیم؛ آیا واقعاً نیاز است با جزئیات یک کتابخانه‌ی خاصی آشنا باشیم؟ بخصوص در دنیایی زندگی می‌کنیم که با اصل پارتو (Pareto principle) اداره می‌گردد. همچنین اصل پارتو بعنوان قانون 20-80 نیز شناخته می‌شود.

این اصل بیان می‌کند که %20 از ورودی‌های شما همیشه در تولید %80 از خروجی‌های شما نقش دارند. بنابراین در این پست تلاش کرده‌ایم اصل پارتو را در کتابخانه‌ی پانداس اعمال کنیم؛ یعنی %20 از توابع خاص پانداس را به شما معرفی می‌نمائیم که احتمالاً %80 از وقت خود را با آنها می‌گذرانید. روش‌های زیر برای شروع پانداس ضروری هستند.

1. خواندن فایل csv

اگر بخواهید یک فایل csv را در پانداس بخوانید باید از روش ( )pd.read_csv استفاده کنید که در شکل زیر نشان داده شده‌ است:

برای توضیحات بیشتر اینجا کلیک نمائید

2. ذخیره سازی دیتافریم در یک فایل csv

اگر بخواهید دیتافریم را در یک فایل بصورت csv ذخیره سازی کنید باید از روش ( )to_csv استفاده نمائید که در شکل زیر نشان داده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

3. ساخت دیتافریم از تعدادی لیستی

اگر بخواهید از لیست‌ها، دیتافریم بسازید باید از روش ( )pd.DataFrame استفاده کنید که در شکل زیر نشان داده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

4. ساخت دیتافریم از دیکشنری

اگر بخواهید یک دیتافریم از دیکشنری بسازید باید از روش ( )pd.DataFrame استفاده کنید. که در شکل زیر نشان داده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

5. ادغام دیتافریم‌ها

عمل ادغام در دیتافریم‌ها همان عمل پیوستن (Join) در SQL است که از آن برای پیوستن دو دیتافریم در یک یا چند ستون استفاده می‌کنیم. همچنین اگر بخواهید دو دیتافریم را ادغام کنید باید از روش ( )pd.merge استفاده نمائید که در شکل زیر نشان داده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

6. مرتب سازی دیتافریم

اگر بخواهید یک دیتافریم را بر اساس مقادیر موجود در یک ستون خاص مرتب کنید باید از روش ( )sort_values استفاده کنید که در شکل زیر نشان داده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

7. به هم پیوستن دیتافریم‌ها

اگر بخواهید دیتافریم‌ها را با هم الحاق کنید باید از روش ()pd.concat استفاده کنید که بصورت زیر نشان داده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

  • axis = 1 انباشته کردن ستون‌ها باهم
  • axis = 0 انباشته کردن ردیف‌ها باهم

8. تغییر نام ستون

اگر بخواهید نام یک ستون یا چندین ستون را در دیتافریم تغییر دهید باید از روش ( )rename استفاده کنید که بصورت زیر نشان داده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

9. اضافه کردن ستون جدید

اگر بخواهید یک ستون جدید به دیتافریم اضافه کنید می‌توانید عمل تخصیص را بصورت زیر انجام دهید:

10. فیلتر کردن دیتافریم بر اساس شرط

اگر بخواهید ردیف‌های دیتافریم را بر اساس یک شرط فیلتر کنید می‌توانید این کار را بصورت زیر که نشان داده شده است انجام دهید:

11. حذف ستون‌ها

اگر بخواهید یک یا چند ستون از دیتافریم را حذف کنید باید از روش ( )drop استفاده کنید که در زیر نشان داده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

12. روش GroupBy:

اگر بخواهید عمل تجمیع را بعد از دسته‌بندی انجام دهید باید از روش ( )groupby استفاده کنید که بصورت زیر نشان داده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

13. مقادیر یکتا (یونیک) در یک ستون

اگر بخواهید مقادیر یونیک را در یک ستون از دیتافریم شمارش کنید باید از روش ( )nunique استفاده کنید. همچنین برای چاپ مقادیر یونیک در یک ستون از دیتافریم می‌توان از روش ( )unique استفاده کرد. از این دو روش در شکل زیر استفاده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

14. پر کردن مقادیر NaN:

اگر می‌خواهید در یک ستون مقادیر NaN را با مقادیر دیگر جایگزین کنید باید از روش ( )fillna استفاده کنید که بصورت زیر نشان داده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

15. اعمال تابع روی یک ستون:

اگر می‌خواهید یک تابع را در یک ستون اعمال کنید باید از روش ( )apply استفاده نمائید که بصورت زیر نشان داده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

16. حذف تکراری‌ها:

اگر می‌خواهید مقادیر تکراری (duplicate values) را حذف کنید باید از روش ( )drop_duplicates استفاده کنید که بصورت زیر نشان داده شده است:

برای توضیحات بیشتر اینجا کلیک نمائید

17. روش شمارش مقادیر (Value Counts):

اگر می‌خواهید فراوانی هر مقدار را در یک ستون پیدا کنید باید از روش ( )value_counts استفاده کنید که بصورت زیر نشان داده شده است:

18. اندازه‌ی دیتافریم:

اگر می‌خواهید سایز یا اندازه‌ی دیتافریم را پیدا کنید باید از shape استفاده کنید که بصورت زیر است:

 

در این پست، برخی از متداول‌ترین روش‌ها در پانداس را پوشش دادیم تا در شروع به شما کمک نماید. این توابع و روش‌ها به شما در فرایند یادگیری، بسیار کمک خواهد نمود. اکیداً توصیه می‌کنیم که یک دیتافریم از خودتان ایجاد کنید و یا بیابید و در jupyter notebook موارد ذکر شده را تمرین کنید.

علاوه بر این بهترین راه برای افزایش دانش مراجعه به مستندات رسمی پانداس است که می‌توانید به آدرس زیر مراجعه کنید:

/https://pandas.pydata.org/docs

متشکرم از اینکه این مقاله را مطالعه کردید، امیدوارم برای شما مفید بوده باشد.

 

مترجم: علی محمدی

منبع:

 

 

پست‌های مرتبط با این مقاله:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.