الگوریتم بیز ساده (Naive Bayes) یکی از پرکاربردترین روشهای طبقهبندی نظارتشده در نرمافزار Weka است. این الگوریتم به دلیل سرعت بالا، سادگی و عملکرد مناسب در دادههای متنی و دادههای با ابعاد بالا، انتخابی رایج در پروژههای دادهکاوی محسوب میشود. در این آموزش، مراحل اجرای الگوریتم بیز ساده در نرمافزار وکا بهصورت گامبهگام توضیح داده میشود.
۱. آمادهسازی دادهها در Weka
قبل از اجرای الگوریتم بیز ساده، لازم است دادهها در قالب مناسب به وکا وارد شوند.
- نرمافزار Weka را اجرا کنید.
- وارد محیط Weka Explorer شوید.
- در تب Preprocess، روی گزینه Open file کلیک کرده و فایل داده با فرمت ARFF یا CSV را بارگذاری کنید.
- اطمینان حاصل کنید که:
- دادهها دارای Class Attribute (ویژگی هدف) هستند.
- ویژگی هدف از نوع Nominal (دستهای) باشد.
- دادههای گمشده (در صورت وجود) مدیریت شده باشند.
۲. انتخاب الگوریتم Naive Bayes
پس از بارگذاری دادهها، مراحل زیر را دنبال کنید:
- وارد تب Classify شوید.
- روی دکمه Choose کلیک کنید.
- مسیر زیر را انتخاب کنید:
bayes → NaiveBayes
در این مرحله، الگوریتم بیز ساده بهعنوان طبقهبندیکننده انتخاب میشود.
۳. تنظیم روش ارزیابی (Test Options)
وکا چند روش رایج برای ارزیابی مدل ارائه میدهد:
- Use training set: آموزش و تست روی کل دادهها (پیشنهاد نمیشود).
- Supplied test set: استفاده از فایل تست جداگانه.
- Cross-validation (رایجترین):
- معمولاً مقدار 10-fold cross validation انتخاب میشود.
- Percentage split: تقسیم دادهها به آموزش و تست (مثلاً 70٪ آموزش، 30٪ تست).
برای تحلیل دقیقتر، گزینه Cross-validation توصیه میشود.
۴. اجرای الگوریتم بیز ساده
- پس از انتخاب Naive Bayes و تنظیم Test Options، روی دکمه Start کلیک کنید.
- وکا فرایند آموزش و ارزیابی مدل را اجرا میکند.
- نتایج در بخش Classifier output نمایش داده میشوند.
۵. تفسیر خروجیهای Naive Bayes در Weka
پس از اجرا، خروجیهای زیر قابل مشاهده هستند:
۵.۱. Accuracy (درصد دقت)
نشان میدهد چند درصد از نمونهها بهدرستی طبقهبندی شدهاند.
۵.۲. Confusion Matrix
ماتریسی که عملکرد مدل را برای هر کلاس نشان میدهد:
- نمونههای درست طبقهبندیشده
- خطاهای طبقهبندی بین کلاسها
۵.۳. Precision، Recall و F-Measure
این معیارها برای هر کلاس گزارش میشوند و مخصوصاً در دادههای نامتوازن اهمیت بالایی دارند.
۵.۴. Distribution for Class
در این بخش، احتمال تعلق هر نمونه به کلاسهای مختلف بر اساس قضیه بیز نمایش داده میشود.
۶. مدیریت ویژگیهای پیوسته در Naive Bayes
در وکا، الگوریتم بیز ساده برای ویژگیهای عددی بهصورت پیشفرض فرض میکند دادهها از توزیع نرمال گوسی (Gaussian) پیروی میکنند.
در صورت نیاز، میتوان از نسخههای پیشرفتهتر مانند NaiveBayesKernel برای تخمین غیرپارامتری توزیع استفاده کرد.
کلیدواژه ها : اجرای الگوریتم بیز ساده در وکا-Naive Bayes Weka Tutorial-طبقهبندی دادهها در وکا-Weka Explorer Classify-Naive Bayes Classifier-ARFF Data Classification-Cross Validation in Weka-Confusion Matrix Analysis-Precision Recall F-Measure-Probabilistic Classification-Data Mining with Weka