در نوشته قبلی، گفتیم که دیتا ساینتیستها، مسائل دنیای واقعی را به گونهای تعریف میکنند که توسط چاقوی سوئیسی یادگیری ماشین، قابلحل باشد. در مثال بستنیفروشی، مسئله را اینطور تعریف کردیم که فاصله یک خط، با نقاط روی صفحه در کمترین حالت ممکن باشد.
اکنون بیایید چند مثال متفاوت دیگر را با هم بررسی کنیم.
انواع دیگری از مسائل بهینهسازی
میخواهیم به کمک یک مدل، پیشبینی کنیم که آیا یک دانشجو، در آزمونی خاص موفق میشود یا نه. دو ویژگی را برای آموزش این مدل انتخاب کردهایم: میزان مطالعه در هفته قبل و میزان خواب در شب قبل از امتحان.
دادههای جمعآوری شده را روی صفحه میریزیم:

افرادی که در امتحان قبول شدهاند با نقطه سبز و سایر افراد با ضربدر قرمز نمایش داده شدهاند. محور افقی ساعتهای مطالعه و محور عمودی ساعت استراحت را نشان میدهد.
در اینجا مسئله بهینهسازی، رسیدن به خطی است که این دو گروه را به درستی افراز کند (نقطهچین آبی). به این خط، مرز تصمیمگیری یا Decision Boundary میگوییم.
در مثال بالا، ما دو دسته داریم و هر نمونه، باید به یکی از دو دسته نسبت داده شود. به همین علت به این گونه مسائل، دستهبندی دودویی یا Binary Classification میگویند.
درست است که دانشجویان یا در امتحان قبول میشوند و یا مردود، اما ما با داشتن تعداد ساعت مطالعه، نمیتوانیم درباره نتیجه قطعی امتحان آنها اظهارنظر کنیم.
انتظار داریم کسی که زیاد مطالعه کرده با احتمال بالا قبول شود و کسی که هرگز مطالعه نکرده، شانس زیادی برای قبولی نداشته باشد. اما این احتمال وجود دارد که دانشجویی با مطالعه کم، نمره قبولی را بگیرد.
بنابراین در اینجا میخواهیم مدل جدیدی بسازیم که فقط براساس ساعتهای مطالعه کار میکند. ولی به جای یک خروجی قطعی، احتمال قبول یا مردود شدن را محاسبه میکند. اگر خروجی به ۱ نزدیک باشد، یعنی به احتمال زیاد، دانشجو قبول میشود. برعکس، اگر نزدیک به صفر باشد، یعنی احتمال قبول شدن دانشجو بسیار کم است.

نمودار بالا را نگاه کنید. نقاط قرمز رنگ افراد قبول شده را نشان میدهند و نقاط آبی، مردود شدهها را. با اینکه نتیجه امتحان قطعی است، مدل ما (منحنی سبز) به ازای تعداد ساعات مطالعه (محور افقی)، عددی بین ۰ و ۱ بر میگرداند (محور عمودی).
برای اینکه احتمال قبولی یک دانشجو بیش از ۵۰ درصد باشد، دانشجو باید بیش از ۵ ساعت مطالعه داشته باشد. همانطور که میبینید، مدل برای افرادی که بالای ۸ ساعت مطالعه داشتهاند، احتمالی نزدیک به ۱ تولید میکند.
مدل ما در حالت بهینه، باید کمترین خطا را داشته باشد. یعنی احتمالی که برای هر دانشجو تولید میکند، باید در مجموع کمترین خطا را در واقعیت داشته باشد. در اینجا، نحوه تعریف مسئله متفاوت است، با این حال همچنان از همان چاقوی سوئیسی – یعنی گرادیان کاهشی – برای رسیدن به پاسخ بهینه استفاده میشود.
این مدل همان چیزی است که به آن رگرسیون لاجستیک میگویند؛ مدلی که برای هر مقدار ساعت مطالعه، احتمالی بین صفر و یک برمیگرداند و کمک میکند تصمیم بگیریم دانشجو بیشتر به سمت قبولی است یا مردودی. اسمش «رگرسیون» است چون شبیه رگرسیون خطی (مثال دمای هوا و بستنی) یک تابع میسازد، اما در عمل برای دستهبندی استفاده میشود.
تعریف یادگیری با نظارت
در مثالهایی که تا اینجا بررسی کردیم، ما به مدل، نمونههایی را همراه با پاسخ درست نشان دادیم. یعنی علاوه بر ویژگیها (مثل ساعت مطالعه یا ساعت خواب)، نتیجه واقعی هم در اختیار مدل قرار دادیم (قبول یا مردود شدن). مدل با دیدن این دادهها، یاد گرفت که بین ویژگیها و نتیجه چه رابطهای وجود دارد.
به بیان دیگر، مثل این است که معلمی کنار مدل نشسته و برای هر مثال، جواب درست را هم میگوید. مدل کمکم الگوها را پیدا میکند و بعد از آموزش، میتواند برای دادههای جدید، که جواب آنها را نمیداند، پیشبینی انجام دهد. خطکش ویژهای که در نوشته قبل از آن صحبت کردیم، در واقع در دستان همین معلم سختگیر است.
به این شیوه آموزش، یادگیری با نظارت یا Supervised Learning میگویند. اگر در دادههای آموزشی، پاسخ درست مشخص نباشد – مثلا هیچ سابقهای از تعداد فروش بستنی در دماهای مختلف نداشته باشیم – نمیتوانیم از این روش استفاده کنیم.
کلیدواژههای مهم
بعد از خواندن این مطلب، سعی کنید این کلیدواژهها/مفاهیم را به خاطر بسپارید:
- یادگیری با نظارت | Supervised learning
- رگرسیون خطی | Linear regression
- رگرسیون لاجستیک | Logistic regression
- مرز تصمیمگیری | Decision surface
آنچه خواندید، بخشی از سلسله مطالبی درباره یادگیری ماشین است. این نوشتهها مخصوص مدیران و افراد غیرفنی است که میخواهند، بدون ورود به جزئیات، از هوش مصنوعی و یادگیری ماشین سر در بیاورند.
میتوانید به نوشته قبلی برگردید و با گرادیان کاهشی آشنا شوید. در نوشتههای بعدی، این مباحث را ادامه خواهم داد.
نوشتههای روزانه من را درباره محصول، فناوری و کسبوکار در تلگرام دنبال کنید!
دیدگاهتان را بنویسید