در حوزه دادهکاوی (Data Mining) و یادگیری ماشین (Machine Learning)، خوشه بندی (Clustering) یک تکنیک کلیدی بدون نظارت (Unsupervised Learning) است که هدف آن کشف ساختارها و الگوهای پنهان در دادهها است. این روش به جای پیشبینی یک خروجی خاص بر اساس برچسبهای از پیش تعریفشده، دادهها را بر اساس شباهتهای درونیشان به گروههای مجزا (خوشهها) تقسیم میکند. در میان انواع روشهای خوشهبندی، خوشه بندی سلسله مراتبی (Hierarchical Clustering) به دلیل رویکرد ساختاریافته و توانایی بصریسازی روابط بین خوشهها در قالب یک ساختار درختی، جایگاه ویژهای دارد.
ماهیت و مفهوم خوشه بندی سلسله مراتبی
خوشه بندی سلسله مراتبی، به جای تولید یک مجموعه نهایی از خوشههای مستقل، یک سلسله مراتب (Hierarchy) یا ساختار درختی از خوشهها را ایجاد میکند. این سلسله مراتب نشاندهنده روابط شباهت در سطوح مختلف انتزاعی بین نقاط داده است. نتیجه نهایی این فرآیند، یک نمایش گرافیکی به نام دندروگرام (Dendrogram) است که میتوان از آن برای تصمیمگیری در مورد تعداد بهینه خوشهها با “برش” درخت در سطوح مختلف استفاده کرد. این رویکرد به تحلیلگر انعطافپذیری بالایی در تفسیر و انتخاب تعداد خوشهها میدهد.
انواع رویکردهای خوشه بندی سلسله مراتبی
خوشه بندی سلسله مراتبی عمدتاً به دو رویکرد اصلی تقسیم میشود که هر یک از جهت متفاوتی به ساختار سلسله مراتبی میرسند:
1. رویکرد تجمیعی (Agglomerative - Bottom-Up)
این رایجترین شکل خوشهبندی سلسله مراتبی است که به آن “پایین به بالا” نیز گفته میشود. فرآیند به این صورت آغاز میشود که هر نقطه داده به عنوان یک خوشه مستقل و یکتا در نظر گرفته میشود. سپس، در هر مرحله تکراری، نزدیکترین جفت خوشهها (بر اساس یک معیار فاصله و روش پیوند مشخص) با یکدیگر ادغام میشوند. این ادغام تا زمانی ادامه مییابد که همه نقاط داده در یک خوشه بزرگ نهایی قرار گیرند، یا تا زمانی که معیار توقف از پیش تعیین شدهای برآورده شود. نتیجه این فرآیند، یک دندروگرام است که از برگها (نقاط داده منفرد) به سمت ریشه (خوشه جامع) رشد میکند.
2. رویکرد تقسیمی (Divisive - Top-Down)
این رویکرد که به آن “بالا به پایین” نیز گفته میشود، برعکس روش تجمیعی عمل میکند. در ابتدا، تمامی نقاط داده در یک خوشه بزرگ و واحد قرار میگیرند. سپس، در هر مرحله، بزرگترین و ناهمگونترین خوشه به دو خوشه کوچکتر تقسیم میشود. این تقسیمبندی به طور مکرر ادامه مییابد تا زمانی که هر نقطه داده یک خوشه مستقل را تشکیل دهد، یا تا زمانی که معیار توقف خاصی اعمال شود. در عمل، پیادهسازی روش تقسیمی از نظر محاسباتی پیچیدهتر و گرانتر از روش تجمیعی است، زیرا در هر مرحله باید بهترین تقسیم را در میان تعداد زیادی از گزینهها یافت.
مفاهیم کلیدی در خوشه بندی سلسله مراتبی
برای انجام خوشه بندی سلسله مراتبی، دو عنصر حیاتی وجود دارد:
1. معیار فاصله (Distance Metric)
برای تعیین “نزدیکی” یا “شباهت” بین نقاط داده، از توابع فاصله مختلفی استفاده میشود. انتخاب تابع فاصله به نوع دادهها و ماهیت مسئله بستگی دارد. برخی از معیارهای فاصله رایج عبارتند از:
- فاصله اقلیدسی (Euclidean Distance): رایجترین معیار، که فاصله مستقیم بین دو نقطه در فضای چند بعدی را محاسبه میکند.
- فاصله منهتن (Manhattan Distance): مجموع قدر مطلق تفاوت مختصات در هر بعد را اندازه میگیرد.
- فاصله کسینوسی (Cosine Distance): شباهت زاویهای بین دو بردار را اندازه میگیرد و برای دادههای متنی یا ابعاد بالا مفید است.
2. روش پیوند (Linkage Method)
هنگامی که خوشهها شروع به شکلگیری میکنند، نیاز است که “فاصله” بین دو خوشه کامل را تعریف کنیم، نه فقط بین دو نقطه. روش پیوند تعیین میکند که این فاصله چگونه محاسبه شود:
- پیوند تکی (Single Linkage): فاصله بین دو خوشه را برابر با حداقل فاصله بین هر جفت نقطه از دو خوشه در نظر میگیرد. به خوشههای “زنجیرهای” (chain-like) تمایل دارد.
- پیوند کامل (Complete Linkage): فاصله بین دو خوشه را برابر با حداکثر فاصله بین هر جفت نقطه از دو خوشه در نظر میگیرد. به خوشههای فشرده (compact) تمایل دارد.
- پیوند میانگین (Average Linkage): فاصله بین دو خوشه را برابر با میانگین فاصله بین هر جفت نقطه از دو خوشه در نظر میگیرد.
- روش وارد (Ward’s Method): این روش سعی میکند واریانس درون خوشهها را در هر مرحله از ادغام به حداقل برساند و به خوشههای گرد (spherical) تمایل دارد.
دندروگرام (Dendrogram)
دندروگرام، خروجی بصری خوشه بندی سلسله مراتبی است. این نمودار درختی، تاریخچه ادغام (در رویکرد تجمیعی) یا تقسیم (در رویکرد تقسیمی) خوشهها را نشان میدهد. محور عمودی دندروگرام معمولاً نشاندهنده فاصله یا عدم شباهت بین خوشهها است، در حالی که محور افقی نشاندهنده نقاط داده یا خوشههای فردی است. با “برش” افقی دندروگرام در سطوح مختلف، میتوان تعداد متفاوتی از خوشهها را به دست آورد و بهترین سطح تفکیک را برای دادهها پیدا کرد.
مزایای کلیدی خوشه بندی سلسله مراتبی
- عدم نیاز به تعیین تعداد خوشهها پیش از موعد: برخلاف روشهایی مانند K-Means که نیاز به تعیین
K(تعداد خوشهها) دارند، خوشه بندی سلسله مراتبی یک سلسله مراتب کامل را ارائه میدهد که اجازه میدهد تعداد خوشهها پس از مشاهده دندروگرام انتخاب شود. - بصریسازی قدرتمند: دندروگرام یک ابزار بصری عالی برای درک ساختار دادهها و روابط بین خوشهها ارائه میدهد.
- انعطافپذیری: با انتخاب معیارهای فاصله و روشهای پیوند مختلف، میتوان آن را با انواع مختلف دادهها و مسائل سازگار کرد.
کلیدواژه ها : خوشه بندی سلسله مراتبی-Hierarchical Clustering-Weka-داده کاوی-Clustering-دندروگرام-Dendrogram-روش تجمیعی-Agglomerative-روش تقسیمی-Divisive-معیار فاصله-Distance Metric-روش پیوند-Linkage Method-Euclidean Distance-Single Linkage-Complete Linkage-Average Linkage-Ward’s Method-Unsupervised Learning