یادگیری با نظارت به کمک داده‌های برچسب‌گذاری شده

این نوشته، بخشی از کتاب یادگیری ماشین است.

در نوشته قبلی، گفتیم که دیتا ساینتیست‌ها، مسائل دنیای واقعی را به گونه‌ای تعریف می‌کنند که توسط چاقوی سوئیسی یادگیری ماشین، قابل‌حل باشد. در مثال بستنی‌فروشی، مسئله را این‌طور تعریف کردیم که فاصله یک خط، با نقاط روی صفحه در کمترین حالت ممکن باشد.

اکنون بیایید چند مثال متفاوت دیگر را با هم بررسی کنیم.

انواع دیگری از مسائل بهینه‌سازی

می‌خواهیم به کمک یک مدل، پیش‌بینی کنیم که آیا یک دانشجو، در آزمونی خاص موفق می‌شود یا نه. دو ویژگی را برای آموزش این مدل انتخاب کرده‌ایم: میزان مطالعه در هفته قبل و میزان خواب در شب قبل از امتحان.

داده‌های جمع‌آوری شده را روی صفحه می‌ریزیم:

افرادی که در امتحان قبول شده‌اند با نقطه سبز و سایر افراد با ضربدر قرمز نمایش داده شده‌اند. محور افقی ساعت‌های مطالعه و محور عمودی ساعت استراحت را نشان می‌دهد.

در این‌جا مسئله بهینه‌سازی، رسیدن به خطی است که این دو گروه را به درستی افراز کند (نقطه‌چین آبی). به این خط، مرز تصمیم‌گیری یا Decision Boundary می‌گوییم.

در مثال بالا، ما دو دسته داریم و هر نمونه، باید به یکی از دو دسته نسبت داده شود. به همین علت به این گونه مسائل، دسته‌بندی دودویی یا Binary Classification می‌گویند.

درست است که دانشجویان یا در امتحان قبول می‌شوند و یا مردود، اما ما با داشتن تعداد ساعت مطالعه، نمی‌توانیم درباره نتیجه قطعی امتحان آن‌ها اظهارنظر کنیم.

انتظار داریم کسی که زیاد مطالعه کرده با احتمال بالا قبول شود و کسی که هرگز مطالعه نکرده، شانس زیادی برای قبولی نداشته باشد. اما این احتمال وجود دارد که دانشجویی با مطالعه کم، نمره قبولی را بگیرد.

بنابراین در این‌جا می‌خواهیم مدل جدیدی بسازیم که فقط براساس ساعت‌های مطالعه کار می‌کند. ولی به جای یک خروجی قطعی، احتمال قبول یا مردود شدن را محاسبه می‌کند. اگر خروجی به ۱ نزدیک باشد، یعنی به احتمال زیاد، دانشجو قبول می‌شود. برعکس، اگر نزدیک به صفر باشد، یعنی احتمال قبول شدن دانشجو بسیار کم است.

نمودار بالا را نگاه کنید. نقاط قرمز رنگ افراد قبول شده را نشان می‌دهند و نقاط آبی، مردود شده‌ها را. با این‌که نتیجه امتحان قطعی است، مدل ما (منحنی سبز) به ازای تعداد ساعات مطالعه (محور افقی)، عددی بین ۰ و ۱ بر می‌گرداند (محور عمودی).

برای این‌که احتمال قبولی یک دانشجو بیش از ۵۰ درصد باشد، دانشجو باید بیش از ۵ ساعت مطالعه داشته باشد. همان‌طور که می‌بینید، مدل برای افرادی که بالای ۸ ساعت مطالعه داشته‌اند، احتمالی نزدیک به ۱ تولید می‌کند.

مدل ما در حالت بهینه، باید کم‌ترین خطا را داشته باشد. یعنی احتمالی که برای هر دانشجو تولید می‌کند، باید در مجموع کم‌ترین خطا را در واقعیت داشته باشد. در این‌جا، نحوه تعریف مسئله متفاوت است، با این حال همچنان از همان چاقوی سوئیسی – یعنی گرادیان کاهشی – برای رسیدن به پاسخ بهینه استفاده می‌شود.

این مدل همان چیزی است که به آن رگرسیون لاجستیک می‌گویند؛ مدلی که برای هر مقدار ساعت مطالعه، احتمالی بین صفر و یک برمی‌گرداند و کمک می‌کند تصمیم بگیریم دانشجو بیشتر به سمت قبولی است یا مردودی. اسمش «رگرسیون» است چون شبیه رگرسیون خطی (مثال دمای هوا و بستنی) یک تابع می‌سازد، اما در عمل برای دسته‌بندی استفاده می‌شود.

تعریف یادگیری با نظارت

در مثال‌هایی که تا این‌جا بررسی کردیم، ما به مدل، نمونه‌هایی را همراه با پاسخ درست نشان دادیم. یعنی علاوه بر ویژگی‌ها (مثل ساعت مطالعه یا ساعت خواب)، نتیجه واقعی هم در اختیار مدل قرار دادیم (قبول یا مردود شدن). مدل با دیدن این داده‌ها، یاد گرفت که بین ویژگی‌ها و نتیجه چه رابطه‌ای وجود دارد. به این گونه داده‌ها، به اصطلاح «داده‌های برچسب‌گذاری شده» می‌گویند.

به بیان دیگر، مثل این است که معلمی کنار مدل نشسته و برای هر مثال، جواب درست را هم می‌گوید. مدل کم‌کم الگوها را پیدا می‌کند و بعد از آموزش، می‌تواند برای داده‌های جدید، که جواب آن‌ها را نمی‌داند، پیش‌بینی انجام دهد. خط‌کش ویژه‌ای که در نوشته قبل از آن صحبت کردیم، در واقع در دستان همین معلم سخت‌گیر است.

به این شیوه آموزش، یادگیری با نظارت یا Supervised Learning می‌گویند. اگر در داده‌های آموزشی، پاسخ درست مشخص نباشد – مثلا هیچ سابقه‌ای از تعداد فروش بستنی در دماهای مختلف نداشته باشیم – نمی‌توانیم از این روش استفاده کنیم.

به داده‌هایی

کلیدواژه‌های مهم

بعد از خواندن این مطلب، سعی کنید این کلیدواژه‌ها/مفاهیم را به خاطر بسپارید:

یادگیری با نظارت | Supervised learning
رگرسیون خطی | Linear regression
رگرسیون لاجستیک | Logistic regression
مرز تصمیم‌گیری | Decision surface
داده‌های برچسب‌گذاری شده | Labeled data

نوشته حاضر، بخشی از «کتاب یادگیری ماشین» است که برای مدیر محصول‌ها یا افراد غیرفنی نوشته شده است. فهرست این کتاب را در این‌جا ببینید.

می‌توانید به فصل قبلی برگردید و با گرادیان کاهشی آشنا شوید یا به فصل بعدی کتاب بروید و درباره انتخاب ویژگی‌ها و کاهش ابعاد داده‌ها بخوانید. در بخش‌های آتی، با موضوعات مشابهی نظیر یادگیری بدون نظارت و یادگیری خودنظارتی هم آشنا خواهید شد.

نوشته‌های روزانه من را درباره محصول، فناوری و کسب‌وکار در تلگرام دنبال کنید!

یادگیری با نظارت

انواع دیگری از مسائل بهینه‌سازی

تعریف یادگیری با نظارت

کلیدواژه‌های مهم

دیدگاه‌ها

دیدگاهتان را بنویسید لغو پاسخ