سؤال: سلام آقای دکتر یک سوال امروز در انجام پروژه کلاسترین کشورها برام پیش اومد. اینکه وقتی مثلا شیش تا قاره داریم یا دادههای کتگوریکالمون زیادن مصلا ده تا پونزده تا باز هم باید با همین روش مپ، مپینگ انجام بدیم چون اون روش get_dummies برای اینجور شرایط استفاده نمیشه درسته؟
پاسخ: وقتی تعداد زیاد باشه باید از روشی بنام one-hot encoding استفاده کنیم که جلوتر به اون خواهیم پرداخت. یک مثالی داریم در خصوص یک فروشگاه زنجیرهای، اونجا فکر کنم اینرو میگم. در حالتی که تعداد دادههای کتگوریکال بسیار زیاد باشد هم باید از روشی بنام binary encoding استفاده کنیم. در این مقاله اکثر روشهای خوب (6 روش را دقیق شرح داده) تبدیل دادهی رستهای به عددی رو نوشته، حتمن نگاهی بندازید بهش.