رگرسیون چیست؟ تمام آنچه درباره انواع رگرسیون باید بدانید

محمد دهقانی

در مقالات گذشته درباره آماده‌سازی مجموعه‌داده صحبت شد. ابتدا روش‌های پیش پردازش داده ها شامل انتخاب ویژگی و فشرده‌سازی ردیف‌ها بررسی شدند که هدف آن‌ها، تغییر یا حذف داده‌های ناکامل، داده‌هایی با فرمت نادرست، نامربوط و تکراری می‌باشد. پس از آن، مجموعه‌داده را یا نسبت 30/70 به داده های آموزش و تست تقسیم کردیم. اکنون که داده‌ها آماده هستند، می‌توان الگوریتم‌های مختلف را روی آن اعمال کرد. با رگرسیون شروع می‌کنیم و در این مقاله یاد می‌گیریم رگرسیون چیست. همچنین با مفهوم رگرسیون خطی و رگرسیون لجستیک آشنا می‌شویم.

. . . .

رگرسیون چیست؟

به‌عنوان “Hello World” در یادگیری ماشین (منظور اولین و ساده ترین برنامه برای شروع برنامه نویسی است)، تحلیل رگرسیون یک تکنیک ساده یادگیری نظارتی برای یافتن بهترین خط روند (Trendline) برای تحلیل و توصیف مجموعه‌داده است.

رگرسیون انواع مختلفی دارد که در این مقاله دو روش مهم آن یعنی رگرسیون خطی و رگرسیون منطقی را یاد می‌گیریم.

مفهوم رگرسيون به زبان ساده

رگرسیون خطی اولین تکنیک از تحلیل رگرسیون است که بررسی می‌کنیم که از یک خط صاف برای توصیف داده استفاده می‌کند. برای درک بهتر این تکنیک ساده، دوباره به سراغ مجموعه‌داده “ارزش بیت‌کوین به دلار آمریکا” می‌رویم و این مثال به سوال رگرسیون چیست پاسخ می‌دهیم.

فرض کنید سال 2015 است و دوباره به دبیرستان برگشته‌اید. سال آخر، تیتر خبری نظرتان را به بیت‌کوین جلب می‌کند. باتوجه‌به میل طبیعی‌تان برای دنبال‌کردن موضوعات جدید و احتمالاً پول‌ساز، درباره امید و آرزوهایتان در زمینه رمزنگاری (Cryptocurrency) و سودآوری آن با خانواده صحبت می‌کنید. ولی قبل از اینکه فرصتی داشته باشید تا روی اولین بیت‌کوینتان در Coinbase پیشنهاد بگذارید، پدرتان مداخله کرده و اصرار دارد تا قبل از اینکه روی پس‌اندازهایتان ریسک کنید، یک معامله کاغذی را تجربه کنید. “معامله کاغذی” (Paper Trading) استفاده از سرمایه‌های شبیه‌سازی‌شده برای خریدوفروش یا سرمایه‌گذاری، بدون درگیرکردن پول واقعی است.

پس در طی بیست و چهار ماه آینده، ارزش بیت‌کوین را دنبال می‌کنید و ارزش آن را در بازه‌های منظمی می‌نویسید. همچنین تعداد روزهای گذشته از زمانی که معامله کاغذی را آغاز کردید، ثبت می‌کنید. هرگز فکر نمی‌کردید که پس از دو سال همچنان مشغول معامله کاغذی باشید، ولی متأسفانه، هرگز فرصتی برای ورود به بازار رمزنگاری نیافتید. طبق پیشنهاد پدرتان، منتظر ماندید تا ارزش بیت‌کوین به میزانی که قادر به خرید آن باشید کاهش پیدا کند. ولی در عوض، ارزش بیت‌کوین رشد زیادی می‌کند.

بااین‌حال، امید به اینکه یک روز صاحب بیت‌کوین بشوید را از دست نمی‌دهید. برای کمک به تصمیم اینکه آیا برای سقوط ارزش بیت‌کوین صبر می‌کنید یا یک روش سرمایه‌گذاری جایگزین پیدا می‌کنید، به سراغ تحلیل آماری می‌روید. ابتدا برای استفاده از نمودار پراکندگی، دستتان را داخل جعبه ابزار می‌برید. با داشتن نمودار پراکندگی خالی در دستانتان، مختصات x و y از مجموعه‌داده را به نمودار می‌دهید و ارزش بیت‌کوین را از 2015 تا 2017 رسم می‌کنید. بااین‌حال، به‌جای استفاده از تمام ستون‌های جدول، ستون دوم (قیمت بیت‌کوین) و سوم (تعداد روزهای گذشته) را برای ساخت مدل و پرکردن نمودار پراکندگی (در شکل زیر نمایش‌داده‌شده) انتخاب می‌کنید. همان‌طور که می‌دانیم، مقادیر عددی (موجود در ستون دوم و سوم) برای واردکردن به نمودار پراکندگی راحت‌تر هستند و نیازمند به هیچ تبدیل خاص یا رمزگذاری one-hot نیست. همین‌طور، ستون‌های اول و سوم هر دو متغیر زمان هستند و ستون سوم به‌تنهایی کافی است.

ازآنجایی‌که هدف، پیش‌بینی ارزش بیت‌کوین در آینده است، محور y متغیر وابسته را نمایش می‌دهد که “قیمت بیت‌کوین” است. در این حالت، متغیر مستقل (X)، زمان است. در نتیجه “تعداد روزهای گذشته” بر روی محور x رسم می‌شود.

پس از رسم مقادیر X و y بر روی نمودار پراکندگی، یک‌روند به شکل یک منحنی قابل‌مشاهده است که از چپ به راست صعود می‌کند – با رشدی شدید بین روزهای 604 و 736. باتوجه‌به مسیر صعودی (بالارونده) منحنی، شاید زمان آن رسیده که از فکر افت قیمت، خارج شوید.

بااین‌حال، ناگهان ایده‌ای به ذهنتان می‌رسد که اگر به‌جای انتظار برای افت ارزش بیت‌کوین به حدی که توان خرید آن را داشته باشید، از یک دوست پول قرض گرفته و همین‌الان در روز 736 بیت‌کوین بخرید سپس وقتی ارزش بیت‌کوین افزایش پیدا کرد، آنگاه قرضتان را به دوستتان بپردازید و به دریافت سود بر روی بیت‌کوینی که حالا صاحب آن هستید ادامه بدهید.

برای ارزیابی اینکه آیا ارزش دارد که از دوستتان پول قرض بگیرید، ابتدا باید تخمین بزنید چه مقدار سود بالقوه قابل کسب است. پس از آن باید بررسی کنید که آیا سود به‌دست‌آمده از سرمایه‌گذاری، در کوتاه‌مدت، برای پس دادن پول‌دوستتان کافی خواهد بود یا خیر.

یکی از ساده‌ترین الگوریتم‌های یادگیری ماشین، تحلیل رگرسیون است که برای تشخیص استحکام رابطه بین متغیرها استفاده می‌شود. تحلیل رگرسیون به شکل‌های مختلفی وجود دارد، از جمله رگرسیون خطی، غیرخطی (Non-linear)، منطقی (Logistic) و چندخطی (Multilinear)، ولی ابتدا مفهوم رگرسیون خطی بررسی می‌شود. رگرسیون خطی از یک خط صاف تشکیل شده است که نقاط داده را بر روی یک نمودار پراکندگی تقسیم می‌کند. هدف رگرسیون خطی تقسیم داده‌ها به شکلی است که فاصله بین خط رگرسیون و تمام نقاط داده در نمودار پراکندگی حداقل بشود. این به این معنی است که اگر یک خط عمودی از خط رگرسیون به هر نقطه داده بر روی منحنی بکشید، مجموع فاصله‌ها با کوچک‌ترین فاصله ممکن با خط رگرسیون مساوی خواهد شد.

خط رگرسیون بر روی نمودار پراکندگی در شکل بالا رسم شده است. اصطلاح فنی برای خط رگرسیون، ابرصفحه (Hyperplane) است و چنین اصطلاحی را در طول مطالعات یادگیری ماشین خواهید دید. یک ابرصفحه در عمل یک خط روند است.

ویژگی مهم دیگر در مفهوم رگرسیون خطی، شیب است که به‌راحتی با استفاده از ابر صفحه قابل محاسبه است. زمانی که یک متغیر افزایش می‌یابد، متغیر دیگر در نقطه‌ی میانگین نشان‌داده‌شده توسط ابرصفحه، افزایش خواهد یافت. در نتیجه شیب در انجام پیش‌بینی‌ها بسیار مفید است. برای مثال، اگر بخواهید ارزش بیت‌کوین را در 800 امین روز تخمین بزنید، می‌توانید 800 را به‌عنوان مختصات x خود وارد کنید و محور y متناظر بر روی ابر صفحه پیدا کنید. در این حالت، مقدار y، 1850 می‌شود. به کمک x محور y شیب قابل محاسبه خواهد بود.

باتوجه‌به شکل بالا و ابرصفحه به یک نکته مهم پی می‌بریم که در 800 امین روز دچار ضرر و کاهش سرمایه می‌شویم (پس از خرید در روز 736 ام)! بر اساس شیب ابرصفحه، انتظار می‌رود که ارزش بیت‌کوین بین روز 736ام و 800 ام کاهش داشته باشد – باوجود اینکه هیچ سابقه‌ای از افت ارزش بیت‌کوین در مجموعه‌داده وجود ندارد.

لازم به یادآوری است که رگرسیون خطی یک روش بی‌نقص و قطعی برای تحلیل روند صعود و نزول سرمایه‌گذاری‌ها نیست، بلکه خط روند فقط یک نقطه اولیه و مرجع برای پیش‌بینی آینده ارائه می‌کند. اگر بخواهیم از خط روند به‌عنوان نقطه مرجع در یک‌ زمان قبل‌تر، مثلاً در روز 240 ام استفاده کنیم، پیش‌بینی انجام شده صحیح‌تر خواهد بود. در روز 240 ام، درجه انحراف نسبت به ابرصفحه کم است، درحالی‌که در روز 736 ام انحراف زیادی وجود دارد. منظور از انحراف، فاصله بین ابر صفحه و نقطه داده است. شکل زیر فاصله بین نقاط داده و ابرصفحه را نشان می‌دهد.

در کل، هر چه‌قدر نقاط داده به خط رگرسیون نزدیک‌تر باشند، پیش‌بینی نهایی صحیح‌تر می‌شود. اگر میزان انحراف بین نقاط داده و خط رگرسیون زیاد باشد، شیب، پیش‌بینی‌های صحیح کمتری خواهد داشت. اگر مبنای پیش‌بینی‌ها 736 امین روز باشد که میزان انحراف آن زیاد است، دقت افت می‌کند. در واقع، نقطه داده در روز 736 ام یک داده‌ی پرت (Outlier) است چون از روند کلی چهار نقطه‌ی قبلی پیروی نمی‌کند و همین‌طور به‌عنوان یک نقطه پرت، به علت مقدار زیاد محور y آن، مسیر ابرصفحه را منحرف می‌کند. اگر نقاط داده جدید و نقاط پرت، از نظر مقادیر محور y، در یک مقیاس قرار گیرند، دقت پیش‌بینی مدل افت بسیاری می‌کند.

دوره آموزشی: برای آشنایی بیشتر با انواع یادگیری ماشین و یادگیری انجام پروژه، آموزش رایگان یادگیری ماشین را در کانال یوتیوب دیتاهاب ببینید.

مثال رگرسیون خطی

با اینکه زبان برنامه‌نویسی محاسبات را به‌صورت خودکار انجام می‌دهد، ولی نمایش نحوه محاسبه رگرسیون خطی، خالی‌ از لطف نیست. از مجموعه‌داده و فرمول زیر برای انجام رگرسیون خطی استفاده خواهیم کرد.

(دو ستون آخر جدول بخشی از مجموعه‌داده اصلی نیستند و برای راحت شدن محاسبه‌ها در فرمول‌های زیر اضافه شدند.)

به‌طوری‌که:

Σ = جمع کل

Σx = جمع کل تمام مقادیر x (1 + 2 + 1 + 4 + 3 = 11)

Σy = جمع کل تمام محور y (3 + 4 + 2 + 7 + 5 = 21)

Σxy = جمع کل عبارت x*y برای هر ردیف (3 + 8 + 2 + 28 + 15 = 56)

Σx2 = جمع کل عبارت x*x برای هر ردیف (1 + 4 + 1 + 16 + 9 = 31)

n = تعداد کل ردیف‌ها. در این مثال خاص n = 5.

1.029 = (651 – 616) / (155 – 121) = ((21 x 31) – (11 x 56)) / (5(31) – 112) =A

B = (5(56) – (11 x 21)) / (5(31) – 112) = (280 – 231) / (155 – 121) =1.44

مقادیر “a” و “b” را در معادله خطی جای‌گذاری می‌کنیم.

y = a + bx

y = 1.029 + 1.441x

معادله خطی y = 1.029 + 1.441x نشان می‌دهد که چطور ابر صفحه رسم بشود (شکل زیر).

حالا خط رگرسیون را با بررسی مختصات x=2 مورد آزمایش قرار می‌دهیم.

y = 1.029 + 1.441(x)

y = 1.029 + 1.441(2)

y = 3.911

در این حالت، پیش‌بینی به نتیجه واقعی 4.0 بسیار نزدیک است.

رگرسیون لجستیک چیست؟

بخش بزرگی از تحلیل داده در قالب یک سؤال ساده و کوچک خلاصه می‌رسد: مقدار موردنظر “A” یا “B” است؟ آیا “مثبت” است یا “منفی”؟ این فرد “یک خریدار احتمالی است” یا “یک خریدار احتمالی نیست”؟ یادگیری ماشین چنین سؤالاتی را در معادلات منطقی و خصوصاً از طریق چیزی که به‌عنوان تابع سیگموید (Sigmoid Function) شناخته می‌شود، جای می‌دهد. تابع سیگموید یک منحنی S-شکل تولید می‌کند که هر عددی را به یک مقدار عددی بین 0 و 1 نگاشت می‌کند ولی هیچ وقت نگاشت به خود 0 یا 1 نخواهیم داشت.

یکی از کاربردهای معمول تابع سیگموید، رگرسیون لجستیک یا منطقی (Logistic regression) است. رگرسیون لجستیک، از تابع سیگموید برای تحلیل داده و پیش‌بینی دسته‌های گسسته موجود در مجموعه‌داده، استفاده می‌کند. با اینکه رگرسیون لجستیک با رگرسیون خطی شباهت بصری دارد، ولی از لحاظ فنی، یک روش دسته‌بندی به‌حساب می‌آید. درصورتی‌که رگرسیون خطی مخصوص معادلات عددی است و برای تشخیص رابطه‌های بین متغیرها، پیش‌بینی‌های عددی انجام می‌دهد ولی رگرسیون منطقی دسته‌های گسسته را پیش‌بینی می‌کند. شکل زیر مثالی از رگرسیون لجستیک را نشان می‌دهد.

تابع سیگموید

رگرسیون منطقی معمولاً برای دسته‌بندی دودویی و پیش‌بینی دودسته گسسته مورداستفاده قرار می‌گیرد، برای مثال شاغل بودن یا شاغل نبودن. برای این کار، تابع سیگموید (همان‌طور که در پایین نشان‌داده‌شده است) اضافه می‌شود تا نتیجه را محاسبه کند و نتایج عددی را به یک عبارت احتمالاتی بین 0 تا 1 تبدیل کند.

تابع سیگموید منطقی که در بالا آورده شده به شکل تقسیم “1” بر “1” به‌اضافه e به توان منفی x محاسبه می‌شود به صورتی که:

x = عددی که می‌خواهید آن را تبدیل کنید.

e = ثابت اویلر، 2.718

در حالت باینری، 0 نشان‌دهنده این است که احتمال انجام رویداد وجود ندارد، و 1 نشان‌دهنده انجام قطعی رویداد است. درجه احتمال برای مقادیر بین 0 و 1 می‌تواند باتوجه‌به اینکه بر روی نمودار پراکندگی چقدر به 0 (غیرممکن) یا 1(حتمی) نزدیک هستند، محاسبه شود. شکل زیر یک تابع سیگموید برای دسته‌بندی نقاط داده را نشان می‌دهد.

بر اساس احتمالات یافته شده می‌توانیم هر نقطه داده را به یکی از دودسته گسسته اختصاص بدهیم. همان‌طور که در شکل بالا دیده می‌شود، می‌توانیم در 0.5 یک نقطه برش (Cut-off point) برای دسته‌بندی نقاط داده به دسته‌ها بسازیم. نقاط دادة با مقدار بالای 0.5، به‌عنوان عضوی از دسته A دسته‌بندی می‌شوند و هر نقطه داده‌ای که کمتر از 0.5 باشد در دسته B قرار می‌گیرد. نقاط داده‌ای که نتیجه‌ای دقیقاً برابر 0.5 دارند قابل دسته‌بندی نیستند، ولی چنین نمونه‌هایی به دلیل خصوصیات ریاضی تابع سیگموید نادر هستند.

همچنین توجه داشته باشید این فرمول به‌تنهایی ابرصفحه جداکننده دسته‌های گسسته را آن‌طوری که قبلاً در شکل اول (بالای صفحه) دیدیم نمی‌سازد. فرمول آماری برای رسم ابرصفحه منطقی کمی پیچیده‌تر است ولی با استفاده از زبان برنامه‌نویسی به‌راحتی قابل رسم است.

دوره آموزشی: از بقیه شنیدید برای یادگیری هوش مصنوعی باید ریاضیات بلد باشید و نگرانید که ریاضی را فراموش کردید؟ آموزش رایگان جبر خطی را در کانال یوتیوب دیتاهاب ببینید تا خیالتان راحت شود.

معرفی رگرسیون منطقی و کاربرد آن

اکنون که فهمیدیم رگرسیون چیست، لازم است بدانیم کجا به کار می‌آید. رگرسیون منطقی، به علت قدرت در دسته‌بندی دودویی، در زمینه‌های زیادی از جمله تشخیص تقلب (Fraud Detection)، تشخیص بیماری (Disease Diagnosis)، تشخیص شرایط اورژانسی (Emergency Detection)، پیش‌بینی پرداخت یا عدم پرداخت قسط وام (Loan Default Prediction) یا شناسایی ایمیل اسپم مورداستفاده قرار می‌گیرد. بااین‌حال، رگرسیون منطقی در مثال‌های با مقادیر ترتیبی نیز قابل‌استفاده است مثلاً وقتی مجموعه عددی از مقادیر گسسته وجود دارد برای مثال دانشجو، شاغل و بیکار.

رگرسیون منطقی با بیش از دو مقدار خروجی، به‌عنوان رگرسیون منطقی multinomial شناخته می‌شود که در شکل زیر دیده می‌شود.

دو نکته که در زمان انجام رگرسیون منطقی باید به یاد داشته باشید: داده نباید مقدار ناموجود داشته باشد و اینکه تمام مقادیر از یکدیگر مستقل باشند. همچنین برای رسیدن به‌دقت خوب، باید برای هر مقدار خروجی به‌اندازه کافی داده داشته باشید. یک نقطه شروع خوب، داشتن تقریباً 30-50 نقطه داده برای هر خروجی است – برای مثال 60-100 تعداد کل نقاط داده برای رگرسیون منطقی دودویی.

. . . .

و در انتها…

در این مقاله فهمیدیم رگرسیون چیست و با مفهوم رگرسیون خطی و رگرسیون لجستیک آشنا شدیم. رگرسیون خطی برای معادلات عددی است و رابطه‌های بین متغیرها را با پیش‌بینی‌های عددی تشخیص می‌دهد. اما رگرسیون لجستیک دسته‌های گسسته را پیش‌بینی کرده و یک روش دسته‌بندی به‌حساب می‌آید. در بخش بعدی درباره یکی دیگر از الگوریتم‌های بانظارت، یعنی ماشین بردار پشتیبان (SVM) صحبت می‌کنیم که نوعی پیشرفته از رگرسیون است.

دوره آموزشی: هنوز انجام پروژه یادگیری ماشین شروع نکردید، چون برنامه‌نویسی بلد نیستید؟ اصلا نگران نباشید. دوره آموزش پایتون ویژه هوش مصنوعی را در کانال یوتیوب دیتاهاب ببینید.

مطالب بیشتر

زبان‌ های برنامه‌ نویسی یادگیری ماشین

بهترین زبان‌ های برنامه‌ نویسی یادگیری ماشین یا ماشین لرنینگ

در مقاله روش های یادگیری جمعی آخرین الگوریتم یادگیری ماشین را بررسی کردیم. پس از

محمد دهقانی

github-page

چگونه به کمک گیت‌ هاب، وب سایت رایگان راه اندازی کنیم؟

چگونه به کمک گیت‌ هاب، وب‌سایت شخصی رایگان بسازیم؟ اگر برای معرفی خودتان، محصول یا

محمد دهقانی

2 دیدگاه

به گفتگوی ما بپیوندید و دیدگاه خود را با ما در میان بگذارید.

Mohammad Eshaq گفت:

6 مارس 2023 در 2:41 ب.ظ

سلام!
یک جزوه آمار و احتمالات نیاز دارم

برای پاسخ دادن وارد شوید
- محمد دهقانی گفت:
  
  27 مارس 2023 در 7:05 ب.ظ
  
  سلام وقت بخیر
  دوره جبر خطی سایتمون ملاحظه کردید؟
  
  برای پاسخ دادن وارد شوید

دیدگاهتان را بنویسید

برای نوشتن دیدگاه باید وارد بشوید.