الگوریتم ماشین بردار پشتیبان (SVM) که در Weka تحت عنوان SMO (Sequential Minimal Optimization) پیادهسازی شده، یکی از اصلیترین ابزارهای طبقهبندی است. اجرای موفق این الگوریتم شامل چند مرحله ساختاریافته در محیط Weka Explorer است که از آمادهسازی داده تا تحلیل نتایج را در بر میگیرد.
آمادهسازی اولیه دادهها در Weka Explorer
قبل از اجرای هر مدل یادگیری نظارت شده، دادهها باید در قالبی که Weka آن را درک کند، آماده شوند.
- بارگذاری دادهها: مجموعه دادههای طبقهبندی باید در فرمت ARFF (Attribute-Relation File Format) باشند. در تب “Preprocess” نرمافزار Weka، فایل مورد نظر را بارگذاری کنید.
- تعیین صفت کلاس (Class Attribute): اطمینان حاصل کنید که ستونی که قرار است توسط SVM پیشبینی شود، به عنوان صفت کلاس (Class Attribute) در پایین تب Preprocess انتخاب شده باشد. Weka از این ستون برای آموزش مدل استفاده میکند.
انتخاب و پیکربندی الگوریتم SMO
پس از آمادهسازی دادهها، به تب “Classify” بروید و الگوریتم SMO را انتخاب کنید.
- مکانیابی الگوریتم:
- روی دکمه “Choose” کلیک کنید و مسیر زیر را دنبال نمایید:
weka->classifiers->functions->SMO.
- تنظیم پارامترهای کلیدی (Tuning): با کلیک بر روی نام
SMO، پنجره پیکربندی باز میشود. دو پارامتر حیاتی برای SVM وجود دارد:
- Kernel (هسته): مهمترین تصمیم در اجرای SVM، انتخاب هستهای است که دادهها را به فضای ابعاد بالاتر نگاشت کند. برای مسائل خطی، هسته PolyKernel (درجه ۱) کافی است. برای مسائل پیچیده و غیرخطی، RBFKernel (Radial Basis Function Kernel) پرکاربردترین انتخاب است.
- C (Cost Parameter): پارامتر جریمه، میزان خطای قابل قبول در دادههای آموزشی را مشخص میکند. در تنظیمات پیشفرض Weka، مقدار C معمولاً ۱.۰ است. برای دادههایی که نویز کمتری دارند و به تفکیک دقیقتر نیاز است، میتوان C را افزایش داد؛ اما افزایش بیش از حد ریسک بیشبرازش را به همراه دارد.
تنظیم روشهای ارزیابی و اجرای مدل
در بخش “Test options”، نحوه ارزیابی عملکرد مدل بر روی دادههای آزمایشی تعیین میشود.
- انتخاب ارزیابی متقابل (Cross-validation): روش استاندارد برای ارزیابی عملکرد تعمیمپذیری مدل، استفاده از K-Fold Cross-validation است (معمولاً ۱۰-Fold). در این روش، دادهها به K قسمت تقسیم میشوند و مدل K بار آموزش داده شده و مورد آزمایش قرار میگیرد تا عملکرد مستقل از مجموعه داده آموزشی سنجیده شود.
- شروع فرآیند: پس از تنظیم پارامترها و روش ارزیابی، روی دکمه “Start” کلیک کنید. Weka بهینهسازی ترتیبی حداقل (SMO) را برای یافتن بردار پشتیبانها و ابرصفحه بهینه آغاز میکند.
تحلیل و تفسیر نتایج خروجی SVM
پس از اتمام اجرا، نتایج در قسمت “Classifier output” نمایش داده میشوند.
- خلاصه مدل: Weka تعداد بردار پشتیبانهای استخراج شده (Support Vectors) و نوع هسته و پارامتر C استفاده شده را گزارش میدهد. تعداد بردارهای پشتیبان نشاندهنده پیچیدگی مرز تصمیم است.
- دقت کلی (Accuracy):
- معیار Correctly Classified Instances، درصد کل نمونههایی را نشان میدهد که توسط مدل به درستی طبقهبندی شدهاند.
- ماتریس درهمریختگی (Confusion Matrix): این ماتریس جزئیات عملکرد مدل را به تفکیک هر کلاس نشان میدهد. مشاهده این ماتریس به درک این موضوع کمک میکند که مدل در طبقهبندی کدام کلاسها عملکرد ضعیفتری داشته و اشتباهات آن از نوع False Positive یا False Negative بودهاند.
- معیارهای تفصیلی: معیارهای Precision (دقت)، Recall (فراخوان) و F-Measure برای هر کلاس به طور مجزا گزارش میشوند و ابزاری ضروری برای ارزیابی مدل در شرایط عدم تعادل کلاسها (Class Imbalance) فراهم میکنند.
اجرای موفق SVM در Weka نیازمند درک مناسبی از تأثیر پارامترهای C و Kernel است تا تعادل مناسبی بین دقت آموزشی و تعمیمپذیری مدل برقرار شود.
کلیدواژه ها : اجرای-الگوریتم-ماشین-بردار-پشتیبان-SVM-Support-Vector-Machine-Weka-SMO-Sequential-Minimal-Optimization-Weka-Explorer-Classify-Kernel-Trick-RBFKernel-PolyKernel-C-Parameter-Cross-validation-Confusion-Matrix-Precision-Recall-F-Measure-ARFF-Data-Mining-Classification-Hyperplane-Support-Vectors