آشنایی با خوشه بندی (Clustering) و انواع آن

محمد دهقانی

در مقالات اخیر، بررسی الگوریتم‌های مختلف یادگیری ماشین را شروع کردیم. گفتیم که رگرسیون چیست و سپس ماشین بردار پشتیبان را بررسی کردیم. در این مقاله خوشه بندی در یادگیری ماشین و روش‌های آن را توضیح می‌دهیم. خوشه‌ بندی یکی از الگوریتم‌های یادگیری ماشین است که با توجه به روش‌های آن می‌تواند هم در دسته‌بندی بانظارت و هم بدون‌نظارت قرار گیرد. دو روش خوشه بندی در یادگیری ماشین الگوریتم KNN و k-means هستند که در ادامه جزییات هر یک از این روش‌ها را توضیح می‌دهیم.

. . . .

الگوریتم های خوشه بندی

یکی از شیوه‌های تحلیل اطلاعات، خوشه‌ بندی (Clustering) داده‌ها بر اساس ویژگی‌های مشترکشان است. برای مثال، شرکتتان بخشی از مشتریان که در زمان مشابه خرید می‌کنند را بررسی کرده و عوامل مؤثر در رفتار خرید آن‌ها را پیدا می‌کند.

درک ویژگی‌های یک خوشه از مشتریان، در تصمیم‌گیری‌ها مفید است؛ اینکه از طریق تبلیغات چه محصولاتی را به چه گروهی از مشتریان پیشنهاد بدهید. به جز تحقیقات بازاریابی (Market Research)، خوشه‌ بندی در سناریوهای دیگر، از جمله شناسایی الگو (Pattern Recognition)، تشخیص تقلب (Fraud Detection) و پردازش تصویر (Image Processing) قابل‌استفاده است.

تحلیل خوشه‌ بندی در هر دودسته یادگیری بانظارت و یادگیری بدون‌نظارت قرار می‌گیرد. به‌عنوان یک روش یادگیری بانظارت، از خوشه‌ بندی (به کمک الگوریتم KNN یا همان k نزدیک‌ترین همسایه) برای دسته‌بندی نقاط داده جدید در خوشه‌های موجود استفاده می‌کند و به‌عنوان یک روش یادگیری بدون‌نظارت، خوشه‌ بندی برای شناسایی گروه‌های گسسته از نقاط داده (به کمک الگوریتم k-means) مورداستفاده قرار می‌گیرد. با اینکه مدل‌های دیگری از تکنیک‌های خوشه‌ بندی در یادگیری ماشین وجود دارند، ولی این دو الگوریتم، معروف‌ترین‌ها در هر دو زمینه یادگیری ماشین و داده‌کاوی هستند.

دوره آموزشی: هنوز انجام پروژه یادگیری ماشین شروع نکردید، چون برنامه‌نویسی بلد نیستید؟ اصلا نگران نباشید. دوره آموزش پایتون ویژه هوش مصنوعی را در کانال یوتیوب دیتاهاب ببینید.

الگوریتم KNN

ساده‌ترین روش خوشه‌ بندی در یادگیری ماشین، الگوریتم KNN یا k نزدیک‌ترین همسایه (k-NN: k-nearest neighbors) است؛ یک روش یادگیری بانظارت که برای دسته‌بندی نقاط داده جدید بر اساس نزدیکی با نقاط داده فعلی، استفاده می‌شود.

الگوریتم KNN شبیه به یک سیستم رأی‌گیری است. این الگوریتم را شبیه به یک بچه تازه‌وارد به مدرسه در حال انتخاب یک گروه از هم‌کلاسی‌ها برای داشتن روابط اجتماعی بر اساس پنج هم‌کلاسی که در نزدیک‌ترین محل می‌نشینند، فرض کنید. در بین این پنج هم‌کلاسی، سه نفر درس‌خوان (Geek)، یک نفر اسکیت‌باز و یک نفر ورزشکار است. بر اساس الگوریتم KNN، وقت‌گذرانی با درس‌خوان‌ها را به علت مزایای بالای آن انتخاب می‌کند. بگذارید یک مثال دیگر را بررسی کنیم.

همان‌طور که در شکل بالا دیده می‌شود، نمودار پراکندگی، امکان محاسبه فاصله بین هر دو نقطه داده‌ای را فراهم می‌کند. قبلاً نقاط داده بر روی نمودار پراکندگی به دو خوشه تقسیم شده‌اند. در ادامه، یک نقطه داده جدید که برچسب (Class) آن را نمی‌دانیم به نمودار اضافه می‌شود. حال برچسب نقطه داده جدید را بر اساس رابطه‌اش با نقاط داده موجود، پیش‌بینی می‌کنیم.

ولی ابتدا، باید “k” را انتخاب کنیم تا تعداد نقاط داده کاندید برای دسته‌بندی نقطه داده جدید را مشخص کنیم. اگر مقدار k را 3 قرار بدهیم، الگوریتم KNN تنها رابطه نقطه داده جدید را با سه‌ نقطه داده در نزدیک‌ترین فاصله (همسایه‌ها) را تحلیل می‌کند. با انتخاب سه تا نزدیک‌ترین همسایه، دو نقطه داده دسته B و یک نقطه داده دسته A را خواهیم داشت. در این شرایط پیش‌بینی مدل برای نقطه داده جدید دسته B است چون دو همسایه از سه همسایه نزدیک را شامل می‌شود.

تعداد همسایه‌ها در تشخیص و تعیین نتیجه نهایی، تعریف شده توسط k، نقش مهمی ایفا می‌کند. در شکل بالا، بسته به اینکه مقدار k، برابر 3 یا 7 باشد، دسته‌بندی تغییر می‌کند. پس پیشنهاد می‌شود که تعداد زیادی از ترکیبات k را مورد آزمایش قرار بدهید تا بهترین k را پیدا کنید. همچنین از مقادیر خیلی کم یا خیلی زیاد برای k اجتناب کنید. انتخاب مقادیر فرد برای k همچنین کمک می‌کند تا امکان رسیدن به یک بن‌بست آماری و نتیجه نامعتبر از بین برود. تعداد پیش‌فرض همسایه‌ها در استفاده از Scikit-learn، پنج است.

با اینکه معمولاً الگوریتم KNN تکنیکی بادقت بالا و ساده است ولی ذخیره کل یک مجموعه‌داده و محاسبه فاصله بین هر نقطه داده جدید و تمام نقاط داده موجود، بار سنگین محاسباتی دارد. در نتیجه، KNN برای استفاده بر روی مجموعه‌داده‌های بزرگ پیشنهاد نمی‌شود.

نکته منفی احتمالی دیگر این است که اعمال KNN برای داده‌های با بعد بالا (سه‌بعدی یا چهاربُعدی) با چندین ویژگی می‌تواند چالش‌برانگیز باشد. اندازه‌گیری چندین فاصله بین نقاط داده در یک فضای سه یا چهاربعدی، فشار مضاعفی بر روی منابع محاسباتی می‌آورد و همچنین دسته‌بندی صحیح را پیچیده می‌کند. کاهش تعداد کل بُعدها، به‌وسیله یک الگوریتم کاهش بُعد مثل تحلیل مؤلفه‌های اصلی (PCA: Principle Component Analysis) یا ادغام متغیرها، یک استراتژی معمول برای ساده‌سازی و آماده‌سازی یک مجموعه‌داده برای تحلیل الگوریتم KNN است.

دوره آموزشی: برای ورود به دنیای پروژه‌های یادگیری ماشین، دوره آموزش یادگیری ماشین به زبان ساده با پایتون را در کانال یوتیوب دیتاهاب ببینید.

معرفی روش خوشه بندی K-means

به‌عنوان یک الگوریتم معروف یادگیری بدون نظارت، خوشه‌ بندی k-means، داده‌ها را به k گروه گسسته تقسیم می‌کند. این الگوریتم در کشف الگوهای ابتدایی داده‌ها مؤثر است. نمونه‌هایی از گروه‌بندی‌های احتمالی شامل گونه‌های حیوانات، مشتریان با ویژگی‌های مشابه و تقسیم‌بندی بازار مسکن است. الگوریتم خوشه‌ بندی k-means ابتدا داده را به تعداد k خوشه تقسیم می‌کند – k نشان‌دهنده تعداد دلخواه خوشه‌ها است. برای مثال، اگر انتخاب کنید که مجموعه‌داده‌تان را به سه خوشه تقسیم کنید پس مقدار k، برابر 3 می‌شود. شکل زیر مقایسه داده اصلی و داده خوشه‌ بندی شده با استفاده از الگوریتم k-means را نشان می‌دهد.

در شکل بالا، داده اصلی (خوشه‌ بندی نشده) به سه خوشه تبدیل شده است (مقدار k برابر 3 است). اگر مقدار k را 4 قرار می‌دادیم، برای ساخت چهار خوشه، یک خوشه اضافه از مجموعه‌داده جدا می‌شد.

نحوه کار الگوریتم K-Means

خوشه‌ بندی k-means چگونه نقاط داده را جدا می‌کند؟ قدم اول بررسی داده خوشه‌ بندی نشده (Unclustered) بر روی نمودار پراکندگی و انتخاب دستی نقاط مرکزی (Centroids) برای هرکدام از خوشه‌ها است که در ادامه این نقاط مرکزی برای هر خوشه یک epicenter ایجاد می‌کنند. در ابتدا می‌توان نقاط مرکزی را تصادفی انتخاب کرد که به آن معنی است که می‌توانید هر نقطه داده‌ای بر روی نمودار پراکندگی را کاندید کنید تا به‌عنوان نقطه مرکزی عمل کند. بااین‌حال، با انتخاب نقاط مرکزی پراکنده در سطح نمودار پراکندگی و نه در نزدیکی یکدیگر می‌توانید در زمان صرفه‌جویی کنید. به بیان دیگر، با حدس اینکه نقطه مرکزی برای هر خوشه کجا می‌تواند قرار بگیرد، شروع کنید. پس از آن نقاط داده باقی‌مانده بر روی نمودار پراکندگی به نزدیک‌ترین نقطه مرکزی که توسط فاصله اقلیدسی (Euclidean Distance) محاسبه می‌شود، تعلق می‌گیرد. محاسبه فاصله اقلیدسی را در زیر مشاهده می‌کنید.

دوره آموزشی: از بقیه شنیدید برای یادگیری هوش مصنوعی باید ریاضیات بلد باشید و نگرانید که ریاضی را فراموش کردید؟ آموزش رایگان جبر خطی را در کانال یوتیوب دیتاهاب ببینید تا خیالتان راحت شود.

هر نقطه داده تنها می‌تواند به یک خوشه تعلق بگیرد و خوشه‌ها گسسته خواهند بود پس هیچ‌گونه هم‌پوشانی بین خوشه‌ها وجود ندارد و در هیچ حالتی هیچ خوشه‌ای داخل خوشه دیگر جای نمی‌گیرد. همچنین، تمام نقاط داده حتی نقاط پرت، بدون توجه به اینکه شکل نهایی خوشه را چطور تحت‌تأثیر قرار می‌دهند به یک نقطه مرکزی تعلق می‌گیرند. بااین‌حال، به علت نیروی آماری (Statistical Force) که تمام نقاط داده نزدیک به هم را به یک نقطه مرکزی می‌کشاند، خوشه‌ها معمولاً شکلی بیضوی یا کروی می‌شوند. مثالی از یک خوشه بیضی در زیر مشاهده می‌شود.

پس از آنکه تمام نقاط داده به یک نقطه مرکزی اختصاص داده شدند، قدم بعدی، جمع تمامی مقادیر نقاط داده برای هر خوشه و میانگین‌گیری است – محاسبه میانگین مقادیر x و y تمام نقاط داده در هر خوشه.

سپس از مقدار میانگین تمام نقاط داده در خوشه و مقادیر x و y آن، برای به‌روزرسانی مختصات نقطه مرکزی استفاده می‌کنید که به‌احتمال زیاد باعث جابه‌جایی محل فعلی نقطه مرکزی می‌شود. بااین‌وجود، تعداد کل خوشه‌ها، تغییری نخواهد کرد. خوشه‌های جدیدی نمی‌سازید، صرفاً محل آن‌ها را بر روی نمودار پراکندگی را به‌روزرسانی می‌کنید. اگر هر نقطه داده‌ای بر روی نمودار پراکندگی، با تغییر نقاط مرکزی، خوشه خود را تغییر بدهد، قدم قبلی دوباره تکرار می‌شود. این به معنای محاسبه دوباره متوسط میانگین مقادیر خوشه و به‌روزرسانی مقادیر x و y هر نقطه مرکزی است. هدف از این کار اعمال تغییرات میانگین مختصات نقاط داده روی هر خوشه است. زمانی که به مرحله‌ای برسید که پس از به‌روزرسانی مختصات نقطه مرکزی، نقاط داده خوشه‌های خود را تغییر نمی‌دهند، الگوریتم کامل می‌شود و مجموعه نهایی خوشه‌های خود را خواهید داشت. فرایند الگوریتمی کلی در زیر تشریح شده است.

1- چند نقطه داده بر روی نمودار پراکندگی رسم شده‌اند.

2- دو نقطه داده به‌عنوان نقاط مرکزی کاندید شده‌اند.

3- پس از محاسبه فاصله اقلیدسی نقاط داده باقی‌مانده با نقاط مرکزی، دو خوشه تشکیل شده است.

4- مختصات نقطه مرکزی برای هر خوشه به‌روزرسانی شده تا نشان‌دهنده مقدار میانگین هر خوشه باشد. ازآنجایی‌که یک نقطه داده از خوشه راستی به خوشه چپی تغییر داشته است، نقطه مرکزی هر دو خوشه دوباره محاسبه می‌شوند.

5- بر اساس نقاط مرکزی به‌روزرسانی شده برای هر خوشه، دو خوشه نهایی ساخته شده‌اند.

در خوشه بندی k-means مقدار k چند باشد؟

در تنظیم k، انتخاب تعداد درستی از خوشه‌ها بسیار مهم است. در الگوریتم k-means، معمولاً با افزایش k، خوشه‌ها کوچک‌تر می‌شوند و واریانس کاهش می‌یابد. بااین‌حال، نکته منفی این است که با افزایش k، میزان تمایز خوشه‌های همسایه از یکدیگر کمتر می‌شود.

اگر مقدار k را به‌اندازه تعداد نقاط داده در مجموعه‌داده قرار بدهید، هر نقطه داده به شکل خودکار به یک خوشه مستقل تبدیل می‌شود. برعکس، اگر مقدار k را 1 قرار بدهید، تمام نقاط داده، همگن تصور می‌شوند و تنها یک خوشه ساخته می‌شود. پس مقدارهای خیلی کم یا خیلی زیاد برای k، هیچ بینش تحلیلی باارزشی تولید نمی‌کند.

بهینه‌سازی k در خوشه بندی k-means

به‌منظور بهینه‌سازی k، نمودار scree (شکل زیر) کمک‌کننده است. نمودار scree درجه پراکندگی (واریانس) در داخل یک خوشه را با افزایش تعداد کل خوشه‌ها نشان می‌دهد. یک مفهوم معروف در نمودارهای scree، “بازو (Elbow)” است که نشانگر پیچ‌های موجود در منحنی نمودار می‌باشد.

نمودار scree مجموع مربع خطا (SSE: Sum of squared error) برای ترکیب‌های مختلف از خوشه‌ها را مقایسه می‌کند. SSE به شکل مجموع مربع فاصله بین نقطه مرکزی و دیگر همسایگان داخل یک خوشه محاسبه می‌شود. نکته کلیدی این است که با افزایش تعداد خوشه‌ها، مقدار SEE کاهش می‌یابد.

تعداد بهینه خوشه‌ها در الگوریتم k-means

حالا یک سؤال مهم مطرح می‌شود که تعداد بهینه خوشه‌ها چیست؟ برای پاسخ به این سؤال بهتر است به سراغ نمودار رفته و به دنبال جایی در سمت چپ باشید که SSE به طور چشمگیری کاهش پیدا کرده باشد، اما از سمت راست، شاهد تغییرات ناچیز باشیم به صورتی که تقریباً منحنی به حالت ثابت رسیده باشد. برای مثال در شکل 10، مقدار SSE برای شش خوشه یا بیشتر، تغییرات اندکی می‌کند که باعث ساخت خوشه‌های کوچکی می‌شود که تمایز بین آن‌ها دشوار می‌شود.

در این نمودار scree، دو یا سه خوشه به نظر گزینه ایده‌آلی است. در سمت چپ وقتی تعداد خوشه‌ها 2 باشد شاهد جهشی (Kink) بزرگ هستیم که می‌تواند یک نقطه مناسب برای drop-off باشد. در این حالت و با حرکت به سمت راست همچنان تغییرات کوچکی در مقدار SSE مشاهده می‌شود. این باعث اطمینان می‌شود که این دو خوشه متمایز هستند و بر روی دسته‌بندی داده تأثیر دارند.

مثال انتخاب مقدار k در روش خوشه بندی k-means

یک شیوه ساده‌تر و کمتر ریاضیاتی برای انتخاب مقدار k استفاده از دانش دامنه است. برای مثال، اگر داده‌های بازدیدکنندگان وب‌سایت یک ارائه‌دهنده خدمات فناوری اطلاعات را تحلیل کنم، ممکن است مقدار k را 2 قرار بدهم. چرا دو خوشه؟ زیرا از قبل می‌دانم که احتمالاً اختلاف زیادی بین بازدیدکننده‌های قدیمی و جدید وجود دارد – از لحاظ رفتاری و خصوصاً انجام تراکنش‌ها. خیلی بعید است که بازدیدکننده‌های جدید، محصولات و خدمات فناوری اطلاعات در سطح سازمانی خریداری کنند، چون قبل از خرید معمولاً یک بازه طولانی تحقیقات و فرایند ارزیابی را می‌گذرانند.

در نتیجه، می‌توانم از خوشه‌ بندی k-means برای ساختن دو خوشه و آزمودن فرضیه خود استفاده کنم. پس از ساختن دو خوشه، ممکن است بخواهم یکی از دو خوشه را، یا با استفاده از تکنیک دیگری و یا دوباره با استفاده از خوشه‌ بندی k-means بیشتر بررسی کنم. برای مثال، ممکن است بخواهم بازدیدکننده‌هایی که دوباره برمی‌گردند را به دو خوشه (با استفاده از خوشه‌ بندی k-means) تقسیم کنم تا فرضیه خود درباره اینکه کاربران موبایل و کاربران کامپیوتر میزی (Desktop Users) دو گروه مجزا را تشکیل می‌دهند، بررسی کنم. دوباره از دانش دامنه استفاده می‌کنم که معمولاً سازمان‌های بزرگ خریدهای مهم خود را با موبایل انجام نمی‌دهند. برای بررسی این فرض، یک مدل یادگیری ماشین می‌سازم.

بااین‌حال، اگر صفحه یک محصول ارزان را تحلیل کنم، برای مثال یک دامنه 4.99 دلاری، بازدیدکنندگان جدید و قدیمی ممکن است دو خوشه متمایز و دقیق نسازند. چون کاربران جدید قبل از خرید دامنه، به علت ارزانی محصول، نیازمند تحلیل و بررسی خاصی نخواهند بود.

در عوض، ممکن است بر اساس سه دسته اولیه بازدیدکننده‌ها، مقدار k را 3 قرار بدهم: ترافیک ارگانیک (Organic Traffic) (بازدیدکننده‌هایی که از طریق جستجو و بدون لینک‌های تبلیغاتی که برای آن‌ها پول پرداخت شده باشد، وارد سایت شده‌اند)، ترافیک پرداخت شده(Paid Traffic) (بازدیدکننده‌هایی که از لینک‌های تبلیغاتی وارد شده‌اند) و بازاریابی ایمیلی (Email Marketing).

الف) ترافیک ارگانیک: معمولاً شامل هر دودسته مشتریان جدید و مشتریان قبلی می‌شوند که با نیت خرید قطعی از وب‌سایت آمده‌اند (از قبل تصمیم به خرید گرفته‌اند از طریق آشنایی دهان‌به‌دهان، تجربه قبلی مشتری).

ب) ترافیک پرداخت شده: خریداران جدیدی که معمولاً با سطح پایین‌تری از اعتماد نسبت به ترافیک ارگانیک وارد وب‌سایت می‌شوند را هدف قرار می‌دهد، از جمله مشتریان احتمالی که به‌اشتباه بر روی تبلیغات پولی کلیک می‌کنند.

ج) بازاریابی ایمیلی: مشتریان موجودی که قبلاً تجربه خرید از وب‌سایت را داشته‌اند و حساب کاربری ساخته‌اند را هدف قرار می‌دهد.

این یک مثال از کاربرد دانش دامنه (Domain Knowledge) بر اساس شغل خودم است، ولی باید در نظر گرفت که با افزایش تعداد خوشه‌ها تأثیر”دانش دامنه” کاهش می‌یابد. به بیان دیگر، دانش دامنه ممکن است برای تشخیص دو یا چهار خوشه کافی باشد ولی در انتخاب بین 20 یا 21 خوشه کارایی چندانی نخواهد داشت.

. . . .

و در انتها…

در این بخش، روش های خوشه بندی یعنی الگوریتم k-means و KNN را کامل توضیح دادیم. در مقاله بعد موقتا الگوریتم‌ها را کنار گذاشته و درباره تفاوت بایاس و واریانس صحبت می کنیم. پس از آن، الگوریتم‌های یادگیری ماشین را ادامه می‌دهیم.

مطالب بیشتر

آموزش کامل پردازش زبان طبیعی چیست

پردازش زبان طبیعی چیست؟ آشنایی با مفاهیم و تکنیک‌های آن

آموزش جامع پردازش زبان طبیعی اصلی‌ترین وسیله ارتباطی که ما انسان‌ها در اختیار داریم، زبان

سارا خرم

آموزش کامل کتابخانه پارسی ور در پایتون

پارسی ور (Parsivar) چیست؟ – قسمت دوم

فهرست مطالب انجام مراحل مختلف پیش پردازش متون با استفاده از پارسی ور در مقاله

محمد دهقانی

دیدگاهتان را بنویسید

برای نوشتن دیدگاه باید وارد بشوید.