در حوزه داده‌کاوی (Data Mining) و یادگیری ماشین (Machine Learning)، خوشه بندی (Clustering) یک تکنیک کلیدی بدون نظارت (Unsupervised Learning) است که هدف آن کشف ساختارها و الگوهای پنهان در داده‌ها است. این روش به جای پیش‌بینی یک خروجی خاص بر اساس برچسب‌های از پیش تعریف‌شده، داده‌ها را بر اساس شباهت‌های درونی‌شان به گروه‌های مجزا (خوشه‌ها) تقسیم می‌کند. در میان انواع روش‌های خوشه‌بندی، خوشه بندی سلسله مراتبی (Hierarchical Clustering) به دلیل رویکرد ساختاریافته و توانایی بصری‌سازی روابط بین خوشه‌ها در قالب یک ساختار درختی، جایگاه ویژه‌ای دارد.

ماهیت و مفهوم خوشه بندی سلسله مراتبی

خوشه بندی سلسله مراتبی، به جای تولید یک مجموعه نهایی از خوشه‌های مستقل، یک سلسله مراتب (Hierarchy) یا ساختار درختی از خوشه‌ها را ایجاد می‌کند. این سلسله مراتب نشان‌دهنده روابط شباهت در سطوح مختلف انتزاعی بین نقاط داده است. نتیجه نهایی این فرآیند، یک نمایش گرافیکی به نام دندروگرام (Dendrogram) است که می‌توان از آن برای تصمیم‌گیری در مورد تعداد بهینه خوشه‌ها با “برش” درخت در سطوح مختلف استفاده کرد. این رویکرد به تحلیل‌گر انعطاف‌پذیری بالایی در تفسیر و انتخاب تعداد خوشه‌ها می‌دهد.

انواع رویکردهای خوشه بندی سلسله مراتبی

خوشه بندی سلسله مراتبی عمدتاً به دو رویکرد اصلی تقسیم می‌شود که هر یک از جهت متفاوتی به ساختار سلسله مراتبی می‌رسند:

1. رویکرد تجمیعی (Agglomerative - Bottom-Up)

این رایج‌ترین شکل خوشه‌بندی سلسله مراتبی است که به آن “پایین به بالا” نیز گفته می‌شود. فرآیند به این صورت آغاز می‌شود که هر نقطه داده به عنوان یک خوشه مستقل و یکتا در نظر گرفته می‌شود. سپس، در هر مرحله تکراری، نزدیک‌ترین جفت خوشه‌ها (بر اساس یک معیار فاصله و روش پیوند مشخص) با یکدیگر ادغام می‌شوند. این ادغام تا زمانی ادامه می‌یابد که همه نقاط داده در یک خوشه بزرگ نهایی قرار گیرند، یا تا زمانی که معیار توقف از پیش تعیین شده‌ای برآورده شود. نتیجه این فرآیند، یک دندروگرام است که از برگ‌ها (نقاط داده منفرد) به سمت ریشه (خوشه جامع) رشد می‌کند.

2. رویکرد تقسیمی (Divisive - Top-Down)

این رویکرد که به آن “بالا به پایین” نیز گفته می‌شود، برعکس روش تجمیعی عمل می‌کند. در ابتدا، تمامی نقاط داده در یک خوشه بزرگ و واحد قرار می‌گیرند. سپس، در هر مرحله، بزرگترین و ناهمگون‌ترین خوشه به دو خوشه کوچکتر تقسیم می‌شود. این تقسیم‌بندی به طور مکرر ادامه می‌یابد تا زمانی که هر نقطه داده یک خوشه مستقل را تشکیل دهد، یا تا زمانی که معیار توقف خاصی اعمال شود. در عمل، پیاده‌سازی روش تقسیمی از نظر محاسباتی پیچیده‌تر و گران‌تر از روش تجمیعی است، زیرا در هر مرحله باید بهترین تقسیم را در میان تعداد زیادی از گزینه‌ها یافت.

مفاهیم کلیدی در خوشه بندی سلسله مراتبی

برای انجام خوشه بندی سلسله مراتبی، دو عنصر حیاتی وجود دارد:

1. معیار فاصله (Distance Metric)

برای تعیین “نزدیکی” یا “شباهت” بین نقاط داده، از توابع فاصله مختلفی استفاده می‌شود. انتخاب تابع فاصله به نوع داده‌ها و ماهیت مسئله بستگی دارد. برخی از معیارهای فاصله رایج عبارتند از:

  • فاصله اقلیدسی (Euclidean Distance): رایج‌ترین معیار، که فاصله مستقیم بین دو نقطه در فضای چند بعدی را محاسبه می‌کند.
  • فاصله منهتن (Manhattan Distance): مجموع قدر مطلق تفاوت مختصات در هر بعد را اندازه می‌گیرد.
  • فاصله کسینوسی (Cosine Distance): شباهت زاویه‌ای بین دو بردار را اندازه می‌گیرد و برای داده‌های متنی یا ابعاد بالا مفید است.

2. روش پیوند (Linkage Method)

هنگامی که خوشه‌ها شروع به شکل‌گیری می‌کنند، نیاز است که “فاصله” بین دو خوشه کامل را تعریف کنیم، نه فقط بین دو نقطه. روش پیوند تعیین می‌کند که این فاصله چگونه محاسبه شود:

  • پیوند تکی (Single Linkage): فاصله بین دو خوشه را برابر با حداقل فاصله بین هر جفت نقطه از دو خوشه در نظر می‌گیرد. به خوشه‌های “زنجیره‌ای” (chain-like) تمایل دارد.
  • پیوند کامل (Complete Linkage): فاصله بین دو خوشه را برابر با حداکثر فاصله بین هر جفت نقطه از دو خوشه در نظر می‌گیرد. به خوشه‌های فشرده (compact) تمایل دارد.
  • پیوند میانگین (Average Linkage): فاصله بین دو خوشه را برابر با میانگین فاصله بین هر جفت نقطه از دو خوشه در نظر می‌گیرد.
  • روش وارد (Ward’s Method): این روش سعی می‌کند واریانس درون خوشه‌ها را در هر مرحله از ادغام به حداقل برساند و به خوشه‌های گرد (spherical) تمایل دارد.

دندروگرام (Dendrogram)

دندروگرام، خروجی بصری خوشه بندی سلسله مراتبی است. این نمودار درختی، تاریخچه ادغام (در رویکرد تجمیعی) یا تقسیم (در رویکرد تقسیمی) خوشه‌ها را نشان می‌دهد. محور عمودی دندروگرام معمولاً نشان‌دهنده فاصله یا عدم شباهت بین خوشه‌ها است، در حالی که محور افقی نشان‌دهنده نقاط داده یا خوشه‌های فردی است. با “برش” افقی دندروگرام در سطوح مختلف، می‌توان تعداد متفاوتی از خوشه‌ها را به دست آورد و بهترین سطح تفکیک را برای داده‌ها پیدا کرد.

مزایای کلیدی خوشه بندی سلسله مراتبی

  • عدم نیاز به تعیین تعداد خوشه‌ها پیش از موعد: برخلاف روش‌هایی مانند K-Means که نیاز به تعیین K (تعداد خوشه‌ها) دارند، خوشه بندی سلسله مراتبی یک سلسله مراتب کامل را ارائه می‌دهد که اجازه می‌دهد تعداد خوشه‌ها پس از مشاهده دندروگرام انتخاب شود.
  • بصری‌سازی قدرتمند: دندروگرام یک ابزار بصری عالی برای درک ساختار داده‌ها و روابط بین خوشه‌ها ارائه می‌دهد.
  • انعطاف‌پذیری: با انتخاب معیارهای فاصله و روش‌های پیوند مختلف، می‌توان آن را با انواع مختلف داده‌ها و مسائل سازگار کرد.

کلیدواژه ها : خوشه بندی سلسله مراتبی-Hierarchical Clustering-Weka-داده کاوی-Clustering-دندروگرام-Dendrogram-روش تجمیعی-Agglomerative-روش تقسیمی-Divisive-معیار فاصله-Distance Metric-روش پیوند-Linkage Method-Euclidean Distance-Single Linkage-Complete Linkage-Average Linkage-Ward’s Method-Unsupervised Learning