الگوریتم K-نزدیک‌ترین همسایه (K-NN) در نرم‌افزار Weka با نام IBk (Instance-Based K) در ماژول طبقه‌بندی (Classify) قابل پیاده‌سازی است. این الگوریتم یک طبقه‌بند تنبل و مبتنی بر نمونه است که برای ارزیابی نمونه‌های جدید، به کل مجموعه داده آموزشی نگاه می‌کند.

در ادامه، مراحل دقیق و گام‌به‌گام اجرای الگوریتم K-NN در Weka Explorer توضیح داده شده است:

۱. مراحل آماده‌سازی اولیه داده

قبل از اجرای هر الگوریتم طبقه‌بندی، باید مجموعه داده خود را آماده کنید:

  1. ورود به Weka: نرم‌افزار Weka Explorer را باز کنید.
  2. بارگذاری داده‌ها: به تب Preprocess بروید و داده‌های خود را (ترجیحاً در فرمت ARFF) با کلیک بر روی Open file... بارگذاری کنید.
  3. انتخاب ویژگی هدف (Class): در سمت راست، در بخش Class، مطمئن شوید که ویژگی (ستون) که می‌خواهید مدل آن را پیش‌بینی کند، به‌درستی انتخاب شده باشد.

۲. پیاده‌سازی الگوریتم IBk (K-NN)

پس از آماده‌سازی داده‌ها، به بخش اجرای مدل می‌رسیم:

گام ۱: انتخاب ماژول طبقه‌بندی

  • به تب Classify بروید.

گام ۲: انتخاب الگوریتم IBk

  • روی دکمه Choose کلیک کنید.
  • از لیست الگوریتم‌های موجود الگوریتم K-NN را برای اجرا انتخاب کنید.

گام ۳: تنظیم پارامترهای اصلی (مقدار K)

  • روی نام الگوریتم (IBk) که در نوار بالا نمایش داده شده است، کلیک کنید تا پنجره تنظیمات پارامترها باز شود.
  • پارامترهای کلیدی که باید تنظیم شوند:
  • KNN (مقدار K): این مهم‌ترین پارامتر است که تعداد همسایگان را مشخص می‌کند. یک عدد صحیح دلخواه و معمولاً فرد (مانند ۳ یا ۵) را وارد کنید.
  • distanceFuction: معیار فاصله را انتخاب کنید. در اکثر موارد، weka.core.EuclideanDistance (فاصله اقلیدسی) مناسب است.
  • crossValidate: اگر می‌خواهید Weka بهترین مقدار K را به‌طور خودکار پیدا کند، این گزینه را True بگذارید. در غیر این صورت، برای اجرای سریع و ساده، آن را False بگذارید تا از مقدار KNN شما استفاده شود.
  • روی OK کلیک کنید تا تنظیمات ذخیره شود.

گام ۴: تعیین نحوه ارزیابی مدل (Test Options)

در این بخش، تعیین می‌کنید که الگوریتم با چه روشی ارزیابی شود:

  • Cross-validation (اعتبارسنجی متقاطع): این روش استاندارد برای ارزیابی عملکرد کلی مدل است. تعداد Fold را روی ۱۰ یا بیشتر قرار دهید.
  • Percentage split (تقسیم درصدی): برای تقسیم داده‌ها به مجموعه آموزش (Train) و تست (Test) استفاده می‌شود (مثلاً ۶۶٪ آموزش، ۳۴٪ تست).
  • Supplied test set: اگر یک مجموعه تست جداگانه دارید.

گام ۵: شروع اجرا

  • روی دکمه Start کلیک کنید.
  • Weka الگوریتم IBk را بر اساس تنظیمات شما اجرا می‌کند و نتایج در پنجره Classifier Output نمایش داده می‌شوند.

۳. تحلیل خروجی K-NN در Weka

خروجی Weka شامل اطلاعات حیاتی برای سنجش عملکرد مدل K-NN است:

  1. Evaluation on Training Set (اگر استفاده شده باشد): اگر کراس-ولیدیشن را انتخاب کرده باشید، نتایج در این قسمت نمایش داده می‌شوند.
  2. Summary:
  • Correctly Classified Instances: تعداد و درصد نمونه‌هایی که به‌درستی طبقه‌بندی شده‌اند (دقت یا Accuracy).
  • Incorrectly Classified Instances: تعداد و درصد نمونه‌هایی که به‌اشتباه طبقه‌بندی شده‌اند.
  1. Confusion Matrix: ماتریس درهم‌ریختگی عملکرد مدل را برای هر کلاس به‌تفکیک نمایش می‌دهد.
  2. Detailed Accuracy by Class: معیارهای آماری مهم مانند Precision، Recall (حساسیت) و F-Measure را برای هر یک از کلاس‌ها ارائه می‌کند.

کلیدواژه ها : اجرای الگوریتم K-نزدیکترین-همسایه-K-NN Weka-پیاده‌سازی IBk-طبقه‌بندی در Weka-تنظیم پارامتر K-Weka Explorer-یادگیری نظارت‌شده-Classification Weka