سؤال: سلام آقای دکتر یک سوال امروز در انجام پروژه کلاسترین کشورها برام پیش اومد. اینکه وقتی مثلا شیش تا قاره داریم یا داده‌های کتگوریکالمون زیادن مصلا ده تا پونزده تا باز هم باید با همین روش مپ، مپینگ انجام بدیم چون اون روش get_dummies برای اینجور شرایط استفاده نمیشه درسته؟

پاسخ: وقتی تعداد زیاد باشه باید از روشی بنام one-hot encoding استفاده کنیم که جلوتر به اون خواهیم پرداخت. یک مثالی داریم در خصوص یک فروشگاه زنجیره‌ای، اونجا فکر کنم اینرو میگم. در حالتی که تعداد داده‌های کتگوریکال بسیار زیاد باشد هم باید از روشی بنام binary encoding استفاده کنیم. در این مقاله اکثر روش‌های خوب (6 روش را دقیق شرح داده) تبدیل داده‌ی رسته‌ای به عددی رو نوشته، حتمن نگاهی بندازید بهش.