الگوریتم K میانگین (K-Means) یکی از معروف‌ترین و پراستفاده‌ترین روش‌های خوشه‌بندی بدون نظارت در داده‌کاوی است. این الگوریتم با هدف گروه‌بندی داده‌ها بر اساس شباهت و کمینه‌سازی فاصله نمونه‌ها از مرکز هر خوشه، در حوزه‌هایی مانند تحلیل بازار، بخش‌بندی مشتریان و تحلیل الگوهای داده‌ای کاربرد گسترده‌ای دارد.

۱. ایده اصلی الگوریتم K-Means

الگوریتم K میانگین تلاش می‌کند داده‌ها را به K خوشه مجزا تقسیم کند؛ به‌طوری که:

  • نقاط داده درون هر خوشه بیشترین شباهت را به یکدیگر داشته باشند.
  • فاصله بین خوشه‌ها بیشینه شود.

۲. مراحل عملکرد الگوریتم K میانگین

الگوریتم K-Means به‌صورت تکرارشونده اجرا می‌شود و شامل مراحل زیر است:

  1. انتخاب مقدار K

    تعداد خوشه‌ها به‌صورت دستی و قبل از اجرا تعیین می‌شود.

  2. مقداردهی اولیه مراکز خوشه‌ها

    مراکز اولیه به‌صورت تصادفی انتخاب می‌شوند.

  3. اختصاص نقاط به خوشه‌ها

    هر داده به نزدیک‌ترین مرکز خوشه (بر اساس فاصله اقلیدسی) نسبت داده می‌شود.

  4. به‌روزرسانی مراکز خوشه‌ها

    مرکز هر خوشه از میانگین داده‌های درون آن محاسبه می‌شود.

  5. بررسی شرط توقف

    الگوریتم تا زمانی ادامه می‌یابد که:

    • مراکز خوشه‌ها دیگر تغییر نکنند، یا
    • تعداد تکرارها به حد مشخصی برسد.

۳. نحوه اجرای K میانگین در نرم‌افزار وکا

در نرم‌افزار Weka، الگوریتم K-Means با نام SimpleKMeans قابل اجراست.

مراحل اجرا:

  1. ورود به Weka Explorer
  2. بارگذاری داده‌ها در تب Preprocess
  3. رفتن به تب Cluster
  4. انتخاب مسیر:Choose → SimpleKMeans
  5. تنظیم پارامترهای اصلی:
    • numClusters: تعداد خوشه‌ها (K)
    • seed: عدد تصادفی برای مقداردهی اولیه
    • distanceFunction: معمولاً فاصله اقلیدسی
  6. کلیک روی دکمه Start

۴. تفسیر خروجی K-Means در وکا

پس از اجرای الگوریتم، خروجی‌های زیر نمایش داده می‌شوند:

  • Centroids: مقادیر مرکز هر خوشه
  • Clustered Instances: تعداد و درصد داده‌ها در هر خوشه
  • WCSS: میزان فشردگی خوشه‌ها
  • Assignment of Instances: تخصیص هر نمونه به خوشه مربوطه

۵. مزایا و محدودیت‌های K-Means

مزایا:

  • سادگی و سرعت بالا
  • مناسب برای داده‌های بزرگ
  • پیاده‌سازی آسان در وکا

محدودیت‌ها:

  • نیاز به تعیین K از قبل
  • حساسیت به مقداردهی اولیه
  • عملکرد ضعیف در خوشه‌های غیرکروی یا داده‌های نویزی

جمع‌بندی

الگوریتم K میانگین روشی ساده اما مؤثر برای خوشه‌بندی داده‌ها است که در نرم‌افزار وکا به‌راحتی با استفاده از SimpleKMeans اجرا می‌شود. انتخاب صحیح تعداد خوشه‌ها و پیش‌پردازش داده‌ها، نقش مهمی در کیفیت نتایج این الگوریتم دارد.

کلیدواژه ها : توضیح K میانگین-K Means Clustering-الگوریتم خوشه‌بندی K میانگین-Weka SimpleKMeans-خوشه‌بندی بدون نظارت-Unsupervised Learning-مراکز خوشه Centroid-Within Cluster Sum of Squared Errors-WCSS-Data Mining-Clustering Algorithm