ارزیابی پروپوزال‌های علم داده مرتبط با کسب و کارها

تفکر موثر تحلیلی داده، باید شما را قادر به ارزیابی پروژه‌های داده‌کاوی بصورت سیستماتیک نماید. این مهارت هم می‌تواند بعنوان یک فرایند خود-ارزیاب و هم بعنوان مهارتی در بررسی پروپوزال‌های دیگران بشما کمک کند. آن چیزی که در ادامه ذکر می‌شود، شامل یک مجموعه از سؤالات مختلف است که شما بعنوان یک متخصص علم داده، در هنگام بررسی و ممیزی پروپوزال‌های علم داده و داده کاوی، باید در ذهن داشته باشید تا بتوانید به بهترین شکل ممکن، آن پیشنهادیه‌ها را ارزیابی و در صورت نیاز تصحیح نماید و یا حداقل پیشنهاداتی مفید به نگارنده و مجری اصلی کار بدهید.

این مجموعه به چهار دسته به صورت ذیل تقسیم می‌گردند.

  1. فهم کسب و کار و داده

  • دقیقاً قرار است چه مسئله‌ای از کسب و کار حل شود؟
  • آیا راه حل علم داده بصورت درست فرمول‌بندی شده است که این مسئله‌ را حل کند؟
  • کدامیک از اجزای کسب و کار در فرمول‌بندی مسئله نقش دارد؟
  • آیا مسئله یه سؤال (یادگیری ماشینی) نظارت‌شده یا غیر نظارتی است؟
    • اگر نظارت شده است:
      • آیا متغیر هدف (target) تعریف شده است؟
      • اگر شده، آیا بطور دقیق اینکار صورت گرفته؟
      • در خصوص مقادیری که این متغیر می‌گیرد، فکر کنید.
    • آیا ویژگی‌ها (attributes) بدرستی تعریف شده‌اند؟
      • در خصوص مقادیری که این ویژگی‌ها می‌پذیرند، فکر کنید.
    • برای مسئله‌های نظارت شده؛ آیا مدل کردن این متغیر هدف باعث بهبود مسئله‌ی کسب و کار مطرح شده می‌گردد؟ یک زیر مسئله‌ی مهم چطور؟ اگر حالت دوم رخ ‌دهد، آیا مابقی مسئله‌های کسب و کار ذکر شده است؟
    • آیا بررسی مسئله با استفاده از میانگین ارزشی مورد انتظار (expected value) باعث کمک به فعالیت‌های جانبی برای حل مسئله‌ی اصلی می‌شود؟
    • اگر مسئله غیر نظارتی است؛ آیا یک مسیر آنالیز داده‌ی تحلیلی مناسب تعریف شده است؟ یعنی اینکه آیا مشخص است که آنالیز به کجا قرار است ختم شود و برسد؟
  1. آماده سازی داده‌ها

  • آیا بدست آوردن ویژگی‌های مختلف و ساخت بردارهای شاخص و قرار دادن آنها در یک جدول عملی و شدنی است؟
  • اگر نیست، آیا یک فرمت خاص دیگر از داده‌ها تعریف شده است؟ آیا این مورد در دیگر مراحل پروژه در نظر گرفته شده است؟
  • اگر مدل بندی بصورت نظارت شده باشد، آیا متغیر هدف بخوبی انتخاب شده است؟ آیا مشخص است که مقادیر متغیر هدف را برای فرایند یادگیری و آزمایش چگونه و چطور بدست آورده‌اند و آنها را در جداول خود جای داده‌اند؟
  • چونه مقادیر درست و دقیق برای متغیر هدف باید بدست بیاید؟ آیا برای بدست آوردن این مقادیر باید هزینه‌ای شود؟ اگر جواب مثبت است، آیا این هزینه در پروپوزال در نظر گرفته شده است؟
  • آیا داده‌هایی که در حال جمع‌آوری هستند، از جامعه‌‌ای مشابه که مدل روی آن یادگرفته، بدست آمده است؟ اگر تمایزهایی وجود دارد، آیا جانبداری انتخاب (selection bias) به وضوح در نظر گرفته شده است؟ آیا برنامه‌ای برای جبران آنها وجود دارد؟
  1. مدل‌بندی

  • آیا انتخاب مدل، مناسب برای انتخاب متغیر هدف است؟
    • دسته‌بندی، برآورد احتمال کلاس، رتبه‌بندی، رگرسیون، خوشه‌بندی و …
  • آیا تکنیک مدل/مدل‌بندی سایر ملزومات و فرایند حل مسئله را برآورده می‌کند؟
    • آیا مدل روی سایر داده‌ها عملگرد خوبی دارد؟ جامع است؟ سرعت یادگیریش چطور است؟ سرعت بکارگیریش؟ مقدار داده‌ی موردنیازش چقدر می‌تواند زیاد شود؟ نوع داده‌ها؟ مدیریت خانه‌های بدون مقدار یا همان مقادیر گم‌شده؟
    • آیا تکنیک انتخاب مدل سازگار با دانش قبلی ما از مسئله است؟ بعنوان مثال آیا یک مدل خطی برای حل یک مسئله‌ی غیرخطی پیشنهاد شده است؟
  • آیا مدل‌های مختلف باید امتحان و مقایسه بشوند (در فاز ارزیابی و صحت خروجی‌ها)؟
  • در خصوص خوشه‌بندی، آیا یک متریک برای برآورد میزان تشابه تعریف شده است؟ آیا این متر، برای مسئله‌ی کسب و کار معنای خاصی دارد؟
  1. ارزیابی و بکارگیری

  • آیا یک برنامه برای اعتبارسنجی دانش زمینه‌ای وجود دارد؟
    • آیا متخصصین حوزه‌ی مد نظر و یا سهامداران قصد بررسی مدل قبل از بکارگیری را دارند؟
  • آیا برپایی ارزیابی و متریک مناسب برای کسب و کار وجود دارد؟
    • آیا هزینه‌ها و سودهای کسب و کار در نظر گرفته شده است؟
    • برای دسته‌بندی، مرز و آستانه‌ی دسته‌بندی چطور انتخاب شده است؟
  • آیا تخمین‌های احتمال بدرستی و مستقیماً استفاده شده‌اند؟
  • آیا رتبه‌بندی بهتر نیست (بعنوان مثال برای یک بودجه‌ی ثابت)؟
  • برای رگرسیون، چگونه کیفیت و پیش‌بینی‌های عددی را ارزیابی می‌کنید؟ چرا چنین چیزی مسیر درست در خصوص مسئله‌ی ما است؟
  • آیا در فرایند ارزیابی از داده‌های ذخیره یا نگه‌داری شده (holdout data) استفاده شده است؟ (بخشی از داده‌ها را که برای ارزیابی مدل نگه می‌دارند، داده‌های ذخیره می‌نامند).  ارزیابی مقطعی (cross validation) یکی از چنین تکنیک‌هاست.
  • در برابر چه مدل ثابتی و پایه‌ای (baseline model) نتایج را باید مقایسه کنیم؟
    • چرا چنین چیزی در فرایند حل مسئله‌ی اصلی مفید و بامعناست؟
    • آیا برنامه‌ای برای ارزیابی مدل پایه‌ای وجود دارد؟
  • در خصوص خوشه‌بندی، خوشه‌ها چطور معنا می‌شوند؟ در واقع چگونه‌ خوشه‌های مختلف را شناسایی کنیم و بدرستی برای آنها عنواینی انتخاب نمائیم؟
  • آیا بکارگیری مدل همان‌گونه که در برنامه وجود داشت، باعث بهبود یا حل مسئله‌ی کسب و کار شد؟
  • اگر مجبور به توجیه خرج و مخارج پروژه برای سهام‌داران بودیم، چه برنامه‌ای برای اندازه‌گیری تاثیر نهایی مدل برای بهبود کسب و کار داریم؟
این پست را هم بخوانید:  ده درس از رساله‌ی علم داده؛ مصاحبه با 25 دیتاساینتیست

 

البته توجه نمائید که این لیست، تنها بخشی از سؤالات ممکن است که شما می‌توانید در نظر بگیرید. قطعاً تعدا سؤالات چنین لیستی، بسیار طولانی‌تر و وابسته به مسئله‌ی جاری دارد. با امید اینکه مطالعه‌ی این مقاله بشما در ارزیابی پروپوزال‌های آینده در فضای کسب و کارتان، مفید واقع شود.

منبع:

Data Science for Business, Appendix A, pp. 347–349

ترجمه، تهیه و انتشار:

گروه علم داده، دکتر محمد فزونی

دانلود این مقاله بصورت یک فایل پی.دی.اف

0 پاسخ

دیدگاه خود را ثبت کنید

تمایل دارید در گفتگوها شرکت کنید؟
در گفتگو ها شرکت کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *