خوشهبندی سلسله مراتبی یکی از روشهای قدرتمند و پرکاربرد در دادهکاوی است که به منظور گروهبندی اشیاء مشابه در مجموعههای داده استفاده میشود. برخلاف خوشهبندی پارتیشنبندی (مانند K-Means) که تعداد خوشهها را از ابتدا تعیین میکند، خوشهبندی سلسله مراتبی ساختاری درختی از خوشهها را تولید میکند که به آن دندروگرام (Dendrogram) میگویند. این روش به کاربران اجازه میدهد تا با قطع کردن دندروگرام در سطوح مختلف، تعداد خوشههای مناسب را بر اساس ساختار طبیعی دادهها انتخاب کنند. نرمافزار وکا (Weka)، به عنوان یک ابزار جامع و متنباز برای یادگیری ماشین، ابزارهای لازم برای پیادهسازی و تحلیل خوشهبندی سلسله مراتبی را به سادگی فراهم میکند و امکان کشف الگوها و ساختارهای پنهان در دادهها را برای کاربران فراهم میآورد.
مفهوم خوشهبندی سلسله مراتبی
خوشهبندی سلسله مراتبی به دو دسته اصلی تقسیم میشود:
۱. خوشهبندی تجمعی (Agglomerative): این رویکرد “پایین به بالا” است. ابتدا هر نقطه داده به عنوان یک خوشه مجزا در نظر گرفته میشود. سپس در هر مرحله، نزدیکترین جفت خوشهها با هم ادغام میشوند تا در نهایت همه نقاط داده در یک خوشه بزرگ قرار گیرند.
۲. خوشهبندی تقسیمی (Divisive): این رویکرد “بالا به پایین” است. در ابتدا، همه نقاط داده در یک خوشه بزرگ قرار دارند. سپس در هر مرحله، بزرگترین خوشه به دو خوشه کوچکتر تقسیم میشود تا زمانی که هر نقطه داده در یک خوشه مجزا قرار گیرد.
نتیجه نهایی خوشهبندی سلسله مراتبی به صورت یک دندروگرام نمایش داده میشود. دندروگرام یک نمودار درختی است که سلسله مراتب خوشهها را نشان میدهد و ارتفاع ادغام یا تقسیمها، میزان شباهت یا تفاوت بین خوشهها را نشان میدهد. معیارهای پیوند (Linkage Criteria) مانند Single Linkage (نزدیکترین همسایه)، Complete Linkage (دورترین همسایه) و Average Linkage (میانگین فاصله) برای تعیین نزدیکی بین خوشهها استفاده میشوند.
چرا وکا (Weka) برای خوشهبندی؟
Weka (Waikato Environment for Knowledge Analysis) یک پلتفرم جامع برای پیشپردازش دادهها، خوشهبندی، طبقهبندی، رگرسیون، انتخاب ویژگی و تجسم است. این نرمافزار به دلیل رابط کاربری گرافیکی (GUI) بصری و غنی خود، یکی از محبوبترین ابزارها در بین محققان، تحلیلگران داده و دانشجویان است. وکا الگوریتمهای خوشهبندی متعددی از جمله خوشهبندی سلسله مراتبی را ارائه میدهد که به کاربران اجازه میدهد به سادگی دادههای خود را بارگذاری کرده، الگوریتم مورد نظر را انتخاب و پارامترهای آن را تنظیم کنند و نتایج را به صورت گرافیکی و متنی تحلیل نمایند. سازگاری با فرمت ARFF و امکان پیشپردازش دادهها از دیگر مزایای وکا برای خوشهبندی است.
مراحل اجرای خوشهبندی سلسله مراتبی در وکا
برای اجرای خوشهبندی سلسله مراتبی در نرمافزار وکا، مراحل زیر باید طی شود:
- آمادهسازی دادهها: ابتدا باید مجموعه داده خود را در قالب فرمت ARFF (Attribute-Relation File Format) آماده کنید. این فرمت شامل یک بخش هدر برای تعریف ویژگیها و نوع آنها، و یک بخش دادهای برای مقادیر واقعی است. اطمینان حاصل کنید که دادهها تمیز و کامل باشند.
- بارگذاری داده در وکا: نرمافزار Weka Explorer را باز کرده و از تب “Preprocess”، بر روی دکمه “Open file…” کلیک کنید و فایل ARFF آماده شده خود را بارگذاری نمایید.
- انتخاب الگوریتم خوشهبندی: به تب “Cluster” بروید. بر روی دکمه “Choose” کلیک کنید و از لیست الگوریتمهای موجود،
weka.clusterers.HierarchicalClustererرا انتخاب نمایید. - پیکربندی گزینههای الگوریتم: بر روی نام
HierarchicalClustererکلیک کنید تا پنجره تنظیمات آن باز شود. در این پنجره میتوانید پارامترهای مهمی را تنظیم کنید:
- linkType: نوع پیوند بین خوشهها را تعیین میکند (مثلاً
SINGLEبرای Single Linkage،COMPLETEبرای Complete Linkage،AVERAGEبرای Average Linkage). - distanceFunction: تابع فاصله را مشخص میکند (مثلاً
EuclideanDistanceکه پیشفرض است). - numClusters: حداکثر تعداد خوشههایی که میخواهید تولید کنید. (این پارامتر اختیاری است و میتوانید بعداً از روی دندروگرام انتخاب کنید).
- printNewAttributes: اگر میخواهید یک ویژگی جدید شامل ID خوشه به مجموعه داده اصلی اضافه شود، این گزینه را فعال کنید.
پس از تنظیمات، “OK” را بزنید.
- اجرای الگوریتم: مطمئن شوید که گزینه “Cluster mode” روی “Use training set” تنظیم شده باشد (اگر میخواهید خوشهبندی بر روی کل مجموعه داده انجام شود) یا گزینههای دیگری مانند “Supplied test set” یا “Classes to clusters evaluation” را بر حسب نیاز خود انتخاب کنید. سپس بر روی دکمه “Start” کلیک کنید تا فرآیند خوشهبندی آغاز شود.
- تفسیر نتایج: پس از اتمام اجرا، نتایج در پنجره “Clusterer output” نمایش داده میشوند. این خروجی شامل اطلاعاتی درباره تعداد خوشهها، اندازه هر خوشه، و جزئیات پارامترهای الگوریتم است. مهمترین بخش، مشاهده دندروگرام است. برای این کار، روی نتیجه در قسمت “Result list” راست کلیک کرده و گزینه “Visualize cluster assignment” را انتخاب کنید. در پنجره باز شده، شما میتوانید دندروگرام را مشاهده و با حرکت دادن نوار برش، تعداد خوشهها را به صورت بصری انتخاب کنید.
مثال عملی: خوشهبندی مجموعه داده Iris
فرض کنید میخواهیم مجموعه داده Iris را که شامل اطلاعات گلهای زنبق با سه گونه مختلف است، خوشهبندی سلسله مراتبی کنیم:
- بارگذاری داده: فایل
iris.arffرا در وکا بارگذاری کنید. - انتخاب HierarchicalClusterer: به تب “Cluster” بروید و
weka.clusterers.HierarchicalClustererرا انتخاب کنید. - تنظیم پارامترها: بر روی
HierarchicalClustererکلیک کنید.linkTypeرا رویCOMPLETEتنظیم کنید وdistanceFunctionرا پیشفرضEuclideanDistanceبگذارید.numClustersرا برای شروع روی ۳ تنظیم کنید. - اجرا و تجسم: دکمه “Start” را بزنید. پس از اتمام، روی نتیجه راست کلیک کرده و “Visualize cluster assignment” را انتخاب کنید. دندروگرام را مشاهده خواهید کرد و میتوانید ببینید که چگونه سه خوشه اصلی (که معادل گونههای گل زنبق هستند) شکل گرفتهاند.
خوشهبندی سلسله مراتبی در وکا ابزاری ارزشمند برای تحلیل دادهها و کشف ساختارهای طبیعی در آنهاست. با درک صحیح پارامترها و نحوه تفسیر دندروگرام، میتوانید اطلاعات کاربردی و بینشهای عمیقی از دادههای خود به دست آورید.
کلیدواژه ها : خوشه بندی سلسله مراتبی-نرم افزار وکا-داده کاوی-یادگیری ماشین-دندروگرام-خوشه بندی تجمعی-خوشه بندی تقسیمی-Weka-Hierarchical Clustering-Agglomerative Clustering-Divisive Clustering-Dendrogram-Data Mining-Machine Learning-Cluster Analysis