یکی از کتاب‌های فوق‌العاده‌ای که اخیراً خواندم و بسیار هم لذت بردم، کتاب

Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are

by Seth Stephens-Davidowitz

بود. آقای سِت دیویدوویتز دانش‌آموخته‌ی دانشگاه هاروارد در رشته‌ی اقتصاد هستند که با توجه به سوابق کاری خود در گوگل بعنوان یک دیتا ساینتیست، این کتاب ارزشمند را به چاپ رساندند. ایشان یک متخصص علم داده‌اند که از طریق اقتصاد وارد این حوزه شدند. در ادامه گزیده‌هایی از این کتاب را که قبلاً در کانال تلگرام علم داده، منتشر شده، برای استفاده‌ی عزیزان و علاقمندان قرار خواهم داد. فقط ذکر یک نکته ضروری است. بنده کتاب حاضر را به زبان اصلی خوانده‌ام و شاید بخش‌هایی از این گزیده‌ها در نسخه‌ی فارسی موجود نباشد (سانسور شده باشد). این بخش‌ها تنها یک جز بسیار کوچک از این اثر فاخر است.

بخش اول:

مقدمه‌ی کتاب با یک گزارش و آمار خاک‌برسری 😉😄، آغاز می‌شود. لطفاً تحریک نشوید 😂. این متن صرفاً یک گزارش علمی است.

دیویدوویتز، نویسنده‌ی کتاب، می‌گوید «به بسیاری از نظرسنجی‌ها نمی‌شود اعتماد کرد. بعنوان مثال، در یک نظرسنجی در آمریکا، با توجه به پاسخ‌های زنان به سؤالات، میزان مصرف کاندوم در روابط زوجین در آمریکا سالیانه حدود ۱.۱ میلیارد؛ طبق پاسخ‌های مردان ۱.۶ میلیارد؛ و طبق یک نهاد بررسی کننده رفتار خریداران، ۶۰۰ میلیون گزارش شده است». نویسنده با توجه به اختلاف معنادار اعداد، نتیجه می‌گیرد که در این میان عده‌ای دروغ می‌گویند.

«بسیاری از مردان، در یک رده‌ی سنی خاص، تعداد سکس‌شان را، یک بار در هفته اعلام می‌کنند. این در حالی است که بیشترین واژه‌ای که در گوگل در همان مناطق نظرسنجی ثبت شده است “sexless marriage” می‌باشد (یعنی ازدواج بدون سکس)» نویسنده نتیجه می‌گیرد که بسیاری از مردان در این خصوص در نظرسنجی‌ها دروغ می‌گویند، چون اگر خلاف این بود، بدنبال خواندن مقالاتی در رابطه با این مورد، یعنی ازدواج بدون سکس، نبودند.

نویسنده عنوان می‌کند «تمامی افراد، در هنگام نظرسنجی‌ها واقعیت را نمی‌گویند، ولی چون به گوگل اعتماد کامل داشتند و دارند و در هنگام جستجو، بیم این را ندارند که شاید شخصیت‌شان زیر سوال رود، هر چیزی را که در درونشان دارند، عنوان می‌کنند و راجع به آن به جستجو می‌پردازند. از این جهت، دیتاست‌های گوگل، شاید بهترین وسیله برای مطالعه‌ی روان انسان‌ها باشد»

نکته: کتاب حاضر بخشی از رساله‌ی دکتری نویسنده است

بخش دوم:

باهوش‌ترین کمپانی‌های فعال در بیگ‌دیتا، معمولاً، اندازه‌ی داده‌هاشون رو کاهش می‌دهند. در گوگل، تصمیمات اصلی، تنها بر مبنای یک نمونه‌ی خیلی کوچیک از داده‌هاشون گرفته می‌شود. شما همیشه نیاز به حجم عظیمی از داده‌ها که بتونی بینش خوب از بینشون دربیاری نداری، چیزی که نیاز داری، داده‌های درست و مناسب هست. یکی از دلایل اصلی اینکه داده‌های گوگل، خیلی خوبن، فقط به خاطر زیاد بودنشون نیست، بخاطر اینه که اکثراً افراد با گوگل صادق و روراست هستند. پس داده‌های گوگل بسیار بسیار ارزشمند هست.

بخش سوم:

در فصل دوم کتاب «آیا حق با فروید بود؟» سِت دو تا از تئوری‌های فروید رو با دیتاست‌هایی که داره، به چالش می‌کشه و اولی رو رد می‌کنه ولی دومی رو تائید می‌کند.

ست میگه با توجه به سوابق جستجو در گوگل و یکی از بزرگ‌ترین پلت‌فرم‌های پورنوگرافی، عده‌ی قابل توجهی از افراد بدنبال ویدیوهای incest (رابطه با محارم) هستند که تا حدودی نشان دهنده‌ی عقیده‌ی ادیپ در افراد هست.

دوستان متمم می‌گویند، ست اشتباه کرده. چون افراد در این سایت‌ها، هویت واقعی خودشون رو درست نمی‌نویسند، پس نتایج غلطه. ولی این نظر درست نیست، چون دیتاستی که نویسنده بر مبنای اون نتیجه‌گیری می‌کنه، هزارتا یا صدهزارتا رکورد نداره؛ رکوردها و مشاهدات بعضاً میلیاردی هست. ویدیوها و پروفایل‌هایی وجود دارند، که میلیاردی بازدید شده. پس نظر ست نسبت به عقیده‌ی متمم، سندیت بیشتری داره.

قدرت بیگ‌دیتا، اینه که بعضاً در اون سمپل‌های عالی پیدا میشه. چیزی که تا به امروز، به هیچ وجه بشر بهش دسترسی نداشته. وظیفه‌ی اصلی دیتاساینس اینه که جهان رو بهتر بما بشناساند و برای شناخت بهتر جهان، اول باید ذات بشر رو بهتر و عمیق‌تر موشکافی کنیم.

بخش چهارم:

یک تیم از محققین خواستند که بدونند در اولین قرار یک زوج (دختر و پسر) اگر چه حرف‌هایی زده بشه، قرار ملاقات دوم هم برگزار خواهد شد.

یکسری دیتاهای سنتی رو بررسی کردند و متوجه شدند که زیاد اطلاعات نمی‌گیرن. اومدن تعداد قابل توجهی از اون قرارها رو ضبط کردند و از NLP استفاده کردند. به این نتیجه رسیدند که

در قرارهایی که در اولین جلسه، بیشتر راجع به خانم حرف زده بشه، احتمال برگزاری دومین قرار خیلی بیشتره. زیاد هم نباید سؤال رد و بدل بشه، چون باعث ابهامات میشه. مخصوصاً اگر خانم‌ها از واژه‌ی «من» در اولین قرار استفاده کنند، یعنی خیلی خوشبحال پسره شده، این یعنی به طرف داره اعتماد می‌کنه

خلاصه به آقایون عرض کنم که اگر خواستید قرارهای بعدی هم تنظیم بشه و بقول خودتون مخ بزنید 😁😂، بیشتر گوش بدین.

بخش پنجم:

یک مقاله در حوزه‌ی رشد GDP مخصوص به کشورهای درحال توسعه نوشته می‌شه که روش کار مولفین، بسیار جالب توجه هست.

این عزیزان، با استفاده از تصاویر یکی از ماهواره‌‌های نظامی آمریکا که روزانه ۱۴ بار دور زمین می‌چرخه، و آنالیز کردن عکس‌ها در طی چند سال به این نتیجه رسیدند که «در کشورهای در حال توسعه، در مواقعی که اقتصاد بسیار ضعیف هست، چراغ‌های کمتری در شب روشن می‌باشد. و در مناطقی که بنابدلایلی اقتصاد در حال شکوفایی است، شب اکثر چراغ‌ها روشن هست». این ملاک، چیز خیلی ساده‌ای هست، ولی اینا اولین نفرهایی بودن که بهش توجه کردن. این خیلی مهمه.

یک متخصص کامپیوتر وقتی این مقاله رو خوند و دید که میشه از عکس پول درآورد، اومد یه شرکت زد بنام Premise. کارشون چی بود؟ در کشورهای در حال توسعه یک تیم از افراد رو که فقط توان کار با موبایل‌های هوشمند داشتند، استخدام کردند و بهشون گفتند که از هر چیزی که فکر میکنید شاید آورده‌ی اقتصادی داشته باشه، مرتب عکس بگیرید. سپس این عکس‌ها به دفاتر مرکزی ارسال میشد و تیم دوم که آنالیزور‌های عکس بودند، زیر و بم این تصاویر رو درمی‌آورند. بعد این شرکت می‌رفت اطلاعاتی که از طریق همین عکسها بدست آورده بود رو به قیمت‌های گزاف به بانک‌ها و یا دولت‌ها می‌فروخت. اخیراً سرمایه‌گذارها ۵۰ میلیون دلار ناقابل وارد این شرکت کردند.

بخش ششم:

مارک زاکربرگ وقتی که دانشجو بود، یه وبسایت راه می‌اندازه که خیلی سر و صدا میکنه. مارک می‌فهمه که علی‌رغم اعتراض‌ها، تعداد کلیک‌ها و بازدیدهای سایت خیلی زیاده. اونجا بود که می‌فهمه «ملت چیزی رو که می‌گن، انجام نمی‌دن 🤔». در ظاهر همه جنتلمن، ولی ذاتاً غیرقابل باور و تحمل.

اون درس، مارک رو به سمت پایه‌گذاری فیسبوک می‌کشونه، که تقریباً میشه گفت یکی از موفق‌ترین استارتاپ‌های زمان خودش بوده و هست.

نت‌فلیکس هم دقیقاً از این تکنیک استفاده کرد و شد نت‌فلیکس. اونا ابتدا از ملت نظرسنجی می‌کردن که چه ویدیوهایی رو دوست دارن ببینند. اما متوجه شدند که اینکار بهشون جواب نمی‌ده. اومدن بیخیال نظرسنجی شدند و رفتار کاربرها رو آنالیز کردند و بر مبنای رفتار اونها یه الگوریتم نوشتند. الگوریتمی که با دیتاهای قبلی آموزش دیده بود. اینکار نتیجه‌ی بسیار چشمگیری بهشون داد. فهمیدند که ملت خیلی وقتا دقیقاً نمی‌دونن چی می‌خوان. ولی الگوریتم‌ اونا رو از خودشون بهتر می‌شناسه.

بخش هفتم:

۲۷ام فوریه‌ی سال ۲۰۰۰ چندتا از مهندسین گوگل که در مانتین وی‌یو نشسته بودند در حال عشق و حال، تصمیمی می‌گیرند که یکجورایی باعث انقلابی در اینترنت شد.

اونها اومدن بدون اینکه کاربرها بفهمند، افراد رو به دو دسته تقسیم کردند و به افراد دسته‌ی اول، در سایت‌های گوکل، ۲۰ تا لینک رو نشون دادند و به افراد دسته‌ی دوم، ۱۰ لینک. در مرحله‌ی بعد، میزان رضایت و نرخ کلیک رو مقایسه کردند. به این‌کار می‌گن آزمون آ/ب یا؛
A/B test.
چون این آزمون به طرز فوق‌العاده‌ای به گوگل کمک کرد که درآمدش رو چندین برابر کنه، کم‌کم صغیر و کبیر شروع کردند به انجام این آزمون روی افراد از همه‌جا بی‌خبر. این تست، حتی به کمپین‌های انتخاباتی اوباما هم رسید.

پی‌نوشت: این موارد در فصلی از کتاب نوشته شده با عنوان «کل دنیا یک آزمایشگاه هست». یاد کتاب «کم عمق‌ها» افتادم که نگارنده عنوان کرده بود، «هر تکنولوژی که ابداع میشه توسط بشر، تقریباً ده سال طول می‌کشه تا افراد، فرهنگ استفاده از اون رو یاد بگیرند». اینکه کل دنیا تبدیل شده به یک آزمایشگاه، شاید برای یکعده مطلوب باشه، ولی قطعاً برای اکثریت افراد، چیز جالبی نیست. واقعاً پشت تمام کارهایی که در حال انجامش هستیم، عواقبی وجود داره که ذره ذره و ریز ریز میفهمیم‌شون. واقعاً حرفی که افلاطون دوهزار سال پیش زده درسته؛

«تنها می‌دانم که هیچ نمی‌دانم».

بخش هشتم:

ملت دروغ می‌گن تا خودشون رو بهتر از چیزی که هستند نشون بدن. دنیا هم یکجورایی بما داره دروغ میگه. چطوری؟ با داده‌های غلط و گمراه‌کننده‌ای که هر روز به ما نشون میده.

مثلاً، دنیا تعداد خیلی زیادی از آدم‌های موفق رو معرفی میکنه که رفتن به دانشگاه هاروارد، ولی افراد بسیار کمتری رو که در یه دانشگاه دیگه بودند و موفق هم شدند، نشون میده. انگار ارزش کمتری برای این افراد قائل میشه. ولی اونقدرها هم که فکر میکنیم، هاروارد رفتن چنگی به دل نمیزنه و ضامن رسیدن به رویاهامون نیست.

پی‌نوشت: مولف کتاب خودش دانش‌آموخته‌ی هاروارد هست، ولی خیلی بزرگش نمیکنه. ایشون بیشتر به استعداد و انگیزه‌های افراد اهمیت میدن، تا دانشگاهی که توش درس خونده. پذیرش در دانشگاه سطح بالا، لزوماً دلیل بر عالی و نخبه بودن شخص نیست. افراد زیادی، مثلاً بیل گیتس، زاکربرگ و خیلی‌های دیگه، از چنین دانشگاه‌هایی انصراف دادن، چون کسل کننده بوده براشون.

بخش نهم:

سؤالی مطرح می‌گردد.
آیا منابع جدید بیگ‌دیتا می‌تونند پیش‌بینی کنند که کدوم سهم (از بازار بورس) افزایش خواهد یافت؟

پاسخ کوتاه به این سؤال؛ خـــــیـــــر.

در واقع بیگ‌دیتاها به تنهایی مشکل‌گشا و روشنگر مسیر راه نمی‌باشند. در برخی از موارد نیاز به داده‌های کوچک-مقدار که مثلاً از نظرسنجی‌ها بدست آمده هم داریم (دقت کنید که این دیتاست‌های کوچک، مکمل بیگ دیتا‌ست‌ها هستند).

بعنوان مثال، فیسبوک علی‌رغم در دست داشتن بزرگ‌ترین دیتا‌ست‌ها در خصوص رفتار افراد، در تیم دیتای خودش، روانشناسان اجتماعی، انسان‌شناسان و جامعه شناسان رو استخدام می‌کنه تا اون چیزی که اعداد در دیتاست‌ها از دست دادند و کشف نکردند، پیدا کنه.

پی‌نوشت: پس کشکی نیست که بتونیم از دیتاست‌ها نتایج خوب بدست بیاریم. کار کاملاً، گروهی هست و نیاز به زمان و تمرکز داره.

بخش دهم:

دیتاست‌های موسسات مالی و بانک‌ها رو بررسی کردند و به این نتیجه رسیدند، افرادی که در فرم تقاضای وام یکسری کلمات رو عنوان می‌کنند، احتمال بیشتری داره که قسط‌هاشون رو ندهند و دقیقاً کلماتی وجود داره که نوشتن اونها مساوی هست با پرداخت به موقع اقساط.

دسته‌ی اول کلماتی که باعث بد عهدی شده:
God, thank you, promise, hospital, will pay
دسته‌ی دوم (خوب‌ها):
Debt-free, minimum payment, lower interest rate, graduate, after-tax

پی‌نوشت: اگر در بلا کفر هستید، سعی کنید از کلمات دسته‌ی اول در فرم تقاضاتون استفاده نکنید

بخش یازدهم:

کازینودارها فهمیدند که هر کدوم از مشتری‌هاشون یه چیزی دارند بنام نقطه‌ی درد
“pain point”
این چی هست دقیقاً؟ مثلاً اگر نقطه‌ی درد سارا برابر باشه با ۳۰۰۰ دلار، اگر ایشون یه شب بره کازینو و ۳۰۰۰ دلار ببازه، احتمالاً تا مدت خیلی زیادی دیگه برنمی‌گرده، ولی اگر شخص ۲۹۹۹ دلار ببازه، بازهم میاد به کازینو، خیلی هم زود.

کازینودارها که می‌فهمند نقطه‌ی درد مشتری‌هاشون چی هست، خیلی حواسشون به اونهاست ‌که به هیچ وجه به این آستانه نزدیک نشوند، تا بتونن طرف رو بیشتر خالی کنند.
حالا این عدد رو چطور محاسبه می‌کنند؟ داده‌هایی که از زندگی فرد، جمع شده رو از برخی از موسسات می‌خرند و با آنالیز اونها، این عدد رو تخمین می‌زنند. ولی خیلی تا به امروز در اینکار موفق بودند که کماکان دارن انجامش میدن.

بخش پایانی:

در آخرین فصل کتاب، که در واقع همون نتیجه‌گیری هست، سِت (نویسنده‌ی کتاب) می‌گه

«خیلی تلاش کردم که یه نتیجه‌ی خوب بنویسم. اما وقتی داده‌ها رو آنالیز کردم، متوجه شدم اکثر افراد ۵۰ صفحه‌ی اول کتاب رو می‌خونن و مابقی رو رها می‌کنند و می‌رن دنبال زندگی‌شون. به این نتیجه رسیدم که بیخیال نوشتن نتیجه بشم؛ برم یه آبجو (غیراسلامی) با یکی از بر و بچ بزنم به بدن و حالشو ببرم، چون که اکثراً نمی‌خونن این بخش رو، چرا اینقدر خودمو اذیت کنم».

این کتاب حاوی نکات بسیار ارزشمندی در حوزه‌ی علم داده است و نحوه‌ی برخورد با مسائل مختلف اجتماعی و علمی را از لنز  و نگاه یک متخصص علم داده به خواننده نشان می‌دهد. از طریق این لینک، می‌توانید فایل این کتاب (به زبان انگلیسی) را مطالعه بفرمائید. در این لینک هم می‌توانید فایل صوتی کتاب به زبان فارسی را بارگیری کرده و استفاده نمائید.

این پست را هم بخوانید:  آموزش رایگان علم داده یا دیتا ساینس

مطالب بیشتر از این وب‌سایت

0 پاسخ

دیدگاهتان را بنویسید

می خواهید در گفت و گو شرکت کنید؟
خیالتان راحت باشد :)

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *