خوشه‌بندی سلسله مراتبی یکی از روش‌های قدرتمند و پرکاربرد در داده‌کاوی است که به منظور گروه‌بندی اشیاء مشابه در مجموعه‌های داده استفاده می‌شود. برخلاف خوشه‌بندی پارتیشن‌بندی (مانند K-Means) که تعداد خوشه‌ها را از ابتدا تعیین می‌کند، خوشه‌بندی سلسله مراتبی ساختاری درختی از خوشه‌ها را تولید می‌کند که به آن دندروگرام (Dendrogram) می‌گویند. این روش به کاربران اجازه می‌دهد تا با قطع کردن دندروگرام در سطوح مختلف، تعداد خوشه‌های مناسب را بر اساس ساختار طبیعی داده‌ها انتخاب کنند. نرم‌افزار وکا (Weka)، به عنوان یک ابزار جامع و متن‌باز برای یادگیری ماشین، ابزارهای لازم برای پیاده‌سازی و تحلیل خوشه‌بندی سلسله مراتبی را به سادگی فراهم می‌کند و امکان کشف الگوها و ساختارهای پنهان در داده‌ها را برای کاربران فراهم می‌آورد.

مفهوم خوشه‌بندی سلسله مراتبی

خوشه‌بندی سلسله مراتبی به دو دسته اصلی تقسیم می‌شود:

۱. خوشه‌بندی تجمعی (Agglomerative): این رویکرد “پایین به بالا” است. ابتدا هر نقطه داده به عنوان یک خوشه مجزا در نظر گرفته می‌شود. سپس در هر مرحله، نزدیک‌ترین جفت خوشه‌ها با هم ادغام می‌شوند تا در نهایت همه نقاط داده در یک خوشه بزرگ قرار گیرند.

۲. خوشه‌بندی تقسیمی (Divisive): این رویکرد “بالا به پایین” است. در ابتدا، همه نقاط داده در یک خوشه بزرگ قرار دارند. سپس در هر مرحله، بزرگترین خوشه به دو خوشه کوچکتر تقسیم می‌شود تا زمانی که هر نقطه داده در یک خوشه مجزا قرار گیرد.

نتیجه نهایی خوشه‌بندی سلسله مراتبی به صورت یک دندروگرام نمایش داده می‌شود. دندروگرام یک نمودار درختی است که سلسله مراتب خوشه‌ها را نشان می‌دهد و ارتفاع ادغام یا تقسیم‌ها، میزان شباهت یا تفاوت بین خوشه‌ها را نشان می‌دهد. معیارهای پیوند (Linkage Criteria) مانند Single Linkage (نزدیک‌ترین همسایه)، Complete Linkage (دورترین همسایه) و Average Linkage (میانگین فاصله) برای تعیین نزدیکی بین خوشه‌ها استفاده می‌شوند.

چرا وکا (Weka) برای خوشه‌بندی؟

Weka (Waikato Environment for Knowledge Analysis) یک پلتفرم جامع برای پیش‌پردازش داده‌ها، خوشه‌بندی، طبقه‌بندی، رگرسیون، انتخاب ویژگی و تجسم است. این نرم‌افزار به دلیل رابط کاربری گرافیکی (GUI) بصری و غنی خود، یکی از محبوب‌ترین ابزارها در بین محققان، تحلیلگران داده و دانشجویان است. وکا الگوریتم‌های خوشه‌بندی متعددی از جمله خوشه‌بندی سلسله مراتبی را ارائه می‌دهد که به کاربران اجازه می‌دهد به سادگی داده‌های خود را بارگذاری کرده، الگوریتم مورد نظر را انتخاب و پارامترهای آن را تنظیم کنند و نتایج را به صورت گرافیکی و متنی تحلیل نمایند. سازگاری با فرمت ARFF و امکان پیش‌پردازش داده‌ها از دیگر مزایای وکا برای خوشه‌بندی است.

مراحل اجرای خوشه‌بندی سلسله مراتبی در وکا

برای اجرای خوشه‌بندی سلسله مراتبی در نرم‌افزار وکا، مراحل زیر باید طی شود:

  1. آماده‌سازی داده‌ها: ابتدا باید مجموعه داده خود را در قالب فرمت ARFF (Attribute-Relation File Format) آماده کنید. این فرمت شامل یک بخش هدر برای تعریف ویژگی‌ها و نوع آن‌ها، و یک بخش داده‌ای برای مقادیر واقعی است. اطمینان حاصل کنید که داده‌ها تمیز و کامل باشند.
  2. بارگذاری داده در وکا: نرم‌افزار Weka Explorer را باز کرده و از تب “Preprocess”، بر روی دکمه “Open file…” کلیک کنید و فایل ARFF آماده شده خود را بارگذاری نمایید.
  3. انتخاب الگوریتم خوشه‌بندی: به تب “Cluster” بروید. بر روی دکمه “Choose” کلیک کنید و از لیست الگوریتم‌های موجود، weka.clusterers.HierarchicalClusterer را انتخاب نمایید.
  4. پیکربندی گزینه‌های الگوریتم: بر روی نام HierarchicalClusterer کلیک کنید تا پنجره تنظیمات آن باز شود. در این پنجره می‌توانید پارامترهای مهمی را تنظیم کنید:
  • linkType: نوع پیوند بین خوشه‌ها را تعیین می‌کند (مثلاً SINGLE برای Single Linkage، COMPLETE برای Complete Linkage، AVERAGE برای Average Linkage).
  • distanceFunction: تابع فاصله را مشخص می‌کند (مثلاً EuclideanDistance که پیش‌فرض است).
  • numClusters: حداکثر تعداد خوشه‌هایی که می‌خواهید تولید کنید. (این پارامتر اختیاری است و می‌توانید بعداً از روی دندروگرام انتخاب کنید).
  • printNewAttributes: اگر می‌خواهید یک ویژگی جدید شامل ID خوشه به مجموعه داده اصلی اضافه شود، این گزینه را فعال کنید.

پس از تنظیمات، “OK” را بزنید.

  1. اجرای الگوریتم: مطمئن شوید که گزینه “Cluster mode” روی “Use training set” تنظیم شده باشد (اگر می‌خواهید خوشه‌بندی بر روی کل مجموعه داده انجام شود) یا گزینه‌های دیگری مانند “Supplied test set” یا “Classes to clusters evaluation” را بر حسب نیاز خود انتخاب کنید. سپس بر روی دکمه “Start” کلیک کنید تا فرآیند خوشه‌بندی آغاز شود.
  2. تفسیر نتایج: پس از اتمام اجرا، نتایج در پنجره “Clusterer output” نمایش داده می‌شوند. این خروجی شامل اطلاعاتی درباره تعداد خوشه‌ها، اندازه هر خوشه، و جزئیات پارامترهای الگوریتم است. مهمترین بخش، مشاهده دندروگرام است. برای این کار، روی نتیجه در قسمت “Result list” راست کلیک کرده و گزینه “Visualize cluster assignment” را انتخاب کنید. در پنجره باز شده، شما می‌توانید دندروگرام را مشاهده و با حرکت دادن نوار برش، تعداد خوشه‌ها را به صورت بصری انتخاب کنید.

مثال عملی: خوشه‌بندی مجموعه داده Iris

فرض کنید می‌خواهیم مجموعه داده Iris را که شامل اطلاعات گل‌های زنبق با سه گونه مختلف است، خوشه‌بندی سلسله مراتبی کنیم:

  1. بارگذاری داده: فایل iris.arff را در وکا بارگذاری کنید.
  2. انتخاب HierarchicalClusterer: به تب “Cluster” بروید و weka.clusterers.HierarchicalClusterer را انتخاب کنید.
  3. تنظیم پارامترها: بر روی HierarchicalClusterer کلیک کنید. linkType را روی COMPLETE تنظیم کنید و distanceFunction را پیش‌فرض EuclideanDistance بگذارید. numClusters را برای شروع روی ۳ تنظیم کنید.
  4. اجرا و تجسم: دکمه “Start” را بزنید. پس از اتمام، روی نتیجه راست کلیک کرده و “Visualize cluster assignment” را انتخاب کنید. دندروگرام را مشاهده خواهید کرد و می‌توانید ببینید که چگونه سه خوشه اصلی (که معادل گونه‌های گل زنبق هستند) شکل گرفته‌اند.

خوشه‌بندی سلسله مراتبی در وکا ابزاری ارزشمند برای تحلیل داده‌ها و کشف ساختارهای طبیعی در آن‌هاست. با درک صحیح پارامترها و نحوه تفسیر دندروگرام، می‌توانید اطلاعات کاربردی و بینش‌های عمیقی از داده‌های خود به دست آورید.

کلیدواژه ها : خوشه بندی سلسله مراتبی-نرم افزار وکا-داده کاوی-یادگیری ماشین-دندروگرام-خوشه بندی تجمعی-خوشه بندی تقسیمی-Weka-Hierarchical Clustering-Agglomerative Clustering-Divisive Clustering-Dendrogram-Data Mining-Machine Learning-Cluster Analysis