الگوریتم ماشین بردار پشتیبان (SVM) که در Weka تحت عنوان SMO (Sequential Minimal Optimization) پیاده‌سازی شده، یکی از اصلی‌ترین ابزارهای طبقه‌بندی است. اجرای موفق این الگوریتم شامل چند مرحله ساختاریافته در محیط Weka Explorer است که از آماده‌سازی داده تا تحلیل نتایج را در بر می‌گیرد.

آماده‌سازی اولیه داده‌ها در Weka Explorer

قبل از اجرای هر مدل یادگیری نظارت شده، داده‌ها باید در قالبی که Weka آن را درک کند، آماده شوند.

  1. بارگذاری داده‌ها: مجموعه داده‌های طبقه‌بندی باید در فرمت ARFF (Attribute-Relation File Format) باشند. در تب “Preprocess” نرم‌افزار Weka، فایل مورد نظر را بارگذاری کنید.
  2. تعیین صفت کلاس (Class Attribute): اطمینان حاصل کنید که ستونی که قرار است توسط SVM پیش‌بینی شود، به عنوان صفت کلاس (Class Attribute) در پایین تب Preprocess انتخاب شده باشد. Weka از این ستون برای آموزش مدل استفاده می‌کند.

انتخاب و پیکربندی الگوریتم SMO

پس از آماده‌سازی داده‌ها، به تب “Classify” بروید و الگوریتم SMO را انتخاب کنید.

  1. مکان‌یابی الگوریتم:
  • روی دکمه “Choose” کلیک کنید و مسیر زیر را دنبال نمایید: weka -> classifiers -> functions -> SMO.
  1. تنظیم پارامترهای کلیدی (Tuning): با کلیک بر روی نام SMO، پنجره پیکربندی باز می‌شود. دو پارامتر حیاتی برای SVM وجود دارد:
  • Kernel (هسته): مهم‌ترین تصمیم در اجرای SVM، انتخاب هسته‌ای است که داده‌ها را به فضای ابعاد بالاتر نگاشت کند. برای مسائل خطی، هسته PolyKernel (درجه ۱) کافی است. برای مسائل پیچیده و غیرخطی، RBFKernel (Radial Basis Function Kernel) پرکاربردترین انتخاب است.
  • C (Cost Parameter): پارامتر جریمه، میزان خطای قابل قبول در داده‌های آموزشی را مشخص می‌کند. در تنظیمات پیش‌فرض Weka، مقدار C معمولاً ۱.۰ است. برای داده‌هایی که نویز کمتری دارند و به تفکیک دقیق‌تر نیاز است، می‌توان C را افزایش داد؛ اما افزایش بیش از حد ریسک بیش‌برازش را به همراه دارد.

تنظیم روش‌های ارزیابی و اجرای مدل

در بخش “Test options”، نحوه ارزیابی عملکرد مدل بر روی داده‌های آزمایشی تعیین می‌شود.

  1. انتخاب ارزیابی متقابل (Cross-validation): روش استاندارد برای ارزیابی عملکرد تعمیم‌پذیری مدل، استفاده از K-Fold Cross-validation است (معمولاً ۱۰-Fold). در این روش، داده‌ها به K قسمت تقسیم می‌شوند و مدل K بار آموزش داده شده و مورد آزمایش قرار می‌گیرد تا عملکرد مستقل از مجموعه داده آموزشی سنجیده شود.
  2. شروع فرآیند: پس از تنظیم پارامترها و روش ارزیابی، روی دکمه “Start” کلیک کنید. Weka بهینه‌سازی ترتیبی حداقل (SMO) را برای یافتن بردار پشتیبان‌ها و ابرصفحه بهینه آغاز می‌کند.

تحلیل و تفسیر نتایج خروجی SVM

پس از اتمام اجرا، نتایج در قسمت “Classifier output” نمایش داده می‌شوند.

  1. خلاصه مدل: Weka تعداد بردار پشتیبان‌های استخراج شده (Support Vectors) و نوع هسته و پارامتر C استفاده شده را گزارش می‌دهد. تعداد بردارهای پشتیبان نشان‌دهنده پیچیدگی مرز تصمیم است.
  2. دقت کلی (Accuracy):
  • معیار Correctly Classified Instances، درصد کل نمونه‌هایی را نشان می‌دهد که توسط مدل به درستی طبقه‌بندی شده‌اند.
  1. ماتریس درهم‌ریختگی (Confusion Matrix): این ماتریس جزئیات عملکرد مدل را به تفکیک هر کلاس نشان می‌دهد. مشاهده این ماتریس به درک این موضوع کمک می‌کند که مدل در طبقه‌بندی کدام کلاس‌ها عملکرد ضعیف‌تری داشته و اشتباهات آن از نوع False Positive یا False Negative بوده‌اند.
  2. معیارهای تفصیلی: معیارهای Precision (دقت)، Recall (فراخوان) و F-Measure برای هر کلاس به طور مجزا گزارش می‌شوند و ابزاری ضروری برای ارزیابی مدل در شرایط عدم تعادل کلاس‌ها (Class Imbalance) فراهم می‌کنند.

اجرای موفق SVM در Weka نیازمند درک مناسبی از تأثیر پارامترهای C و Kernel است تا تعادل مناسبی بین دقت آموزشی و تعمیم‌پذیری مدل برقرار شود.

کلیدواژه ها : اجرای-الگوریتم-ماشین-بردار-پشتیبان-SVM-Support-Vector-Machine-Weka-SMO-Sequential-Minimal-Optimization-Weka-Explorer-Classify-Kernel-Trick-RBFKernel-PolyKernel-C-Parameter-Cross-validation-Confusion-Matrix-Precision-Recall-F-Measure-ARFF-Data-Mining-Classification-Hyperplane-Support-Vectors