الگوریتم بیز ساده (Naive Bayes) یکی از پرکاربردترین روش‌های طبقه‌بندی نظارت‌شده در نرم‌افزار Weka است. این الگوریتم به دلیل سرعت بالا، سادگی و عملکرد مناسب در داده‌های متنی و داده‌های با ابعاد بالا، انتخابی رایج در پروژه‌های داده‌کاوی محسوب می‌شود. در این آموزش، مراحل اجرای الگوریتم بیز ساده در نرم‌افزار وکا به‌صورت گام‌به‌گام توضیح داده می‌شود.

۱. آماده‌سازی داده‌ها در Weka

قبل از اجرای الگوریتم بیز ساده، لازم است داده‌ها در قالب مناسب به وکا وارد شوند.

  1. نرم‌افزار Weka را اجرا کنید.
  2. وارد محیط Weka Explorer شوید.
  3. در تب Preprocess، روی گزینه Open file کلیک کرده و فایل داده با فرمت ARFF یا CSV را بارگذاری کنید.
  4. اطمینان حاصل کنید که:
    • داده‌ها دارای Class Attribute (ویژگی هدف) هستند.
    • ویژگی هدف از نوع Nominal (دسته‌ای) باشد.
    • داده‌های گمشده (در صورت وجود) مدیریت شده باشند.

۲. انتخاب الگوریتم Naive Bayes

پس از بارگذاری داده‌ها، مراحل زیر را دنبال کنید:

  1. وارد تب Classify شوید.
  2. روی دکمه Choose کلیک کنید.
  3. مسیر زیر را انتخاب کنید:bayes → NaiveBayes

در این مرحله، الگوریتم بیز ساده به‌عنوان طبقه‌بندی‌کننده انتخاب می‌شود.

۳. تنظیم روش ارزیابی (Test Options)

وکا چند روش رایج برای ارزیابی مدل ارائه می‌دهد:

  • Use training set: آموزش و تست روی کل داده‌ها (پیشنهاد نمی‌شود).
  • Supplied test set: استفاده از فایل تست جداگانه.
  • Cross-validation (رایج‌ترین):
    • معمولاً مقدار 10-fold cross validation انتخاب می‌شود.
  • Percentage split: تقسیم داده‌ها به آموزش و تست (مثلاً 70٪ آموزش، 30٪ تست).

برای تحلیل دقیق‌تر، گزینه Cross-validation توصیه می‌شود.

۴. اجرای الگوریتم بیز ساده

  1. پس از انتخاب Naive Bayes و تنظیم Test Options، روی دکمه Start کلیک کنید.
  2. وکا فرایند آموزش و ارزیابی مدل را اجرا می‌کند.
  3. نتایج در بخش Classifier output نمایش داده می‌شوند.

۵. تفسیر خروجی‌های Naive Bayes در Weka

پس از اجرا، خروجی‌های زیر قابل مشاهده هستند:

۵.۱. Accuracy (درصد دقت)

نشان می‌دهد چند درصد از نمونه‌ها به‌درستی طبقه‌بندی شده‌اند.

۵.۲. Confusion Matrix

ماتریسی که عملکرد مدل را برای هر کلاس نشان می‌دهد:

  • نمونه‌های درست طبقه‌بندی‌شده
  • خطاهای طبقه‌بندی بین کلاس‌ها

۵.۳. Precision، Recall و F-Measure

این معیارها برای هر کلاس گزارش می‌شوند و مخصوصاً در داده‌های نامتوازن اهمیت بالایی دارند.

۵.۴. Distribution for Class

در این بخش، احتمال تعلق هر نمونه به کلاس‌های مختلف بر اساس قضیه بیز نمایش داده می‌شود.

۶. مدیریت ویژگی‌های پیوسته در Naive Bayes

در وکا، الگوریتم بیز ساده برای ویژگی‌های عددی به‌صورت پیش‌فرض فرض می‌کند داده‌ها از توزیع نرمال گوسی (Gaussian) پیروی می‌کنند.

در صورت نیاز، می‌توان از نسخه‌های پیشرفته‌تر مانند NaiveBayesKernel برای تخمین غیرپارامتری توزیع استفاده کرد.

کلیدواژه ها : اجرای الگوریتم بیز ساده در وکا-Naive Bayes Weka Tutorial-طبقه‌بندی داده‌ها در وکا-Weka Explorer Classify-Naive Bayes Classifier-ARFF Data Classification-Cross Validation in Weka-Confusion Matrix Analysis-Precision Recall F-Measure-Probabilistic Classification-Data Mining with Weka