0% found this document useful (0 votes)

63 views5 pages

Naïve Bayes Classifier Implementation

The document discusses implementing a Naive Bayesian classifier on a sample training dataset to classify movie reviews as positive or negative sentiment. It preprocesses the text data, builds CountVectorizer and tokenization, trains ComplementNB, MultinomialNB and BernoulliNB models and evaluates their accuracy on held-out test data, finding the ComplementNB and MultinomialNB models achieve the highest accuracy around 86%.

Uploaded by

gowrishankar nayana

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

63 views5 pages

Naïve Bayes Classifier Implementation

Uploaded by

gowrishankar nayana

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

WEEK-10

AIM: Program to implement the naïve Bayesian classifier for a sample training data set
stored as a . CSV file. Compute the accuracy of the classifier, considering a few test data sets.
DESCRIPTION: The Naïve Bayes algorithm is a supervised learning algorithm, which is
based on the Bayes theorem and used for solving classification problems. It is mainly used in
text classification that includes a high-dimensional training dataset. Naïve Bayes Classifier is
one of the simple and most effective Classification algorithms which helps in building the
fast machine learning models that can make quick [Link] is a probabilistic classifier,
which means it predicts on the basis of the probability of an [Link] popular examples of
Naïve Bayes Algorithm are spam filtration, Sentimental analysis, and classifying articles.
Naïve: It is called Naïve because it assumes that the occurrence of a certain feature is
independent of the occurrence of other features.
Bayes: It is called Bayes because it depends on the principle of Bayes' Theorem.

Program:
import pandas as pd
import [Link] as plt
import [Link] as px
from wordcloud import WordCloud
import nltk
import re
import string
from [Link] import stopwords
[Link]('punkt')
[Link]('stopwords')
from [Link] import word_tokenize
from [Link] import WordNetLemmatizer
stop_words = [Link]()

df=pd.read_csv('/content/IMDB [Link]')
[Link]()

21131A4436 1
[Link]()

fig,(ax1,ax2)=[Link](1,2,figsize=(12,8))
[Link](df[df['sentiment']=='positive']['review'].[Link]())
ax1.set_title( 'Positive Reviews')
[Link](df[df['sentiment']=='negative']['review'].[Link]())
ax2.set_title( 'Negative Reviews')

[Link](columns={'review':'text'}, inplace = True)

def cleaning(text):
# converting to lowercase, removing URL links, special characters, punctuations...
text = [Link]() # converting to lowercase
text = [Link]('https?://\S+|www\.\S+', '', text) # removing URL links
text = [Link](r"\b\d+\b", "", text) # removing number
text = [Link]('<.*?>+', '', text) # removing special characters,
text = [Link]('[%s]' % [Link]([Link]), '', text) # punctuations
text = [Link]('\n', '', text)
text = [Link]('[’“”…]', '', text)

#removing emoji:
emoji_pattern = [Link]("["
u"\U0001F600-\U0001F64F" # emoticons
u"\U0001F300-\U0001F5FF" # symbols & pictographs
u"\U0001F680-\U0001F6FF" # transport & map symbols
u"\U0001F1E0-\U0001F1FF" # flags (iOS)
21131A4436 2
u"\U00002702-\U000027B0"
u"\U000024C2-\U0001F251"
"]+", flags=[Link])
text = emoji_pattern.sub(r'', text)
return text

dt = df['text'].apply(cleaning)
dt = [Link](dt)
dt['sentiment']=df['sentiment']
dt
dt['no_sw'] = dt['text'].apply(lambda x: ' '.join([word for word in [Link]() if word not in
(stop_words)]))

FREQWORDS = set([w for (w, wc) in cnt.most_common(10)])

def remove_freqwords(text):
"""custom function to remove the frequent words"""
return " ".join([word for word in str(text).split() if word not in FREQWORDS])
dt["wo_stopfreq"] = dt["no_sw"].apply(lambda text: remove_freqwords(text))
[Link]()

[Link]('wordnet')
wordnet_lem = WordNetLemmatizer()
dt['wo_stopfreq_lem'] = dt['wo_stopfreq'].apply(wordnet_lem.lemmatize)
dt
# create the cleaned data for the train-test split:
nb=[Link](columns=['text','no_sw', 'wo_stopfreq'])
[Link]=['sentiment','review']
[Link] = [0 if each == "negative" else 1 for each in [Link]]
nb

tokenized_review=nb['review'].apply(lambda x: [Link]())
tokenized_review.head(5)
0 [reviewers, mentioned, watching, oz, episode, ...
1 [wonderful, production, filming, technique, un...

21131A4436 3
2 [wonderful, spend, hot, summer, weekend, sitti...
3 [basically, family, boy, jake, thinks, zombie,...
4 [petter, matteis, love, money, visually, stunn...
Name: review, dtype: object

from sklearn.feature_extraction.text import CountVectorizer

from [Link] import RegexpTokenizer
token = RegexpTokenizer(r'[a-zA-Z0-9]+')
cv = CountVectorizer(stop_words='english',ngram_range = (1,1),tokenizer = [Link])
text_counts = cv.fit_transform(nb['review'])

from sklearn.model_selection import train_test_split

X=text_counts
y=nb['sentiment']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20,random_state=30)

from sklearn.naive_bayes import ComplementNB

from [Link] import classification_report, confusion_matrix
CNB = ComplementNB()
[Link](X_train, y_train)
from sklearn import metrics
predicted = [Link](X_test)
accuracy_score = metrics.accuracy_score(predicted, y_test)
print('ComplementNB model accuracy is',str('{:04.2f}'.format(accuracy_score*100))+'%')
print('------------------------------------------------')
print('Confusion Matrix:')
print([Link](confusion_matrix(y_test, predicted)))
print('------------------------------------------------')
print('Classification Report:')
print(classification_report(y_test, predicted))

ComplementNB model accuracy is 86.22%

------------------------------------------------
Confusion Matrix:
0 1
0 4327 650
1 728 4295
------------------------------------------------
Classification Report:
precision recall f1-score support
0 0.86 0.87 0.86 4977
1 0.87 0.86 0.86 5023
accuracy 0.86 10000
macro avg 0.86 0.86 0.86 10000
weighted avg 0.86 0.86 0.86 10000

from sklearn.naive_bayes import MultinomialNB

MNB = MultinomialNB()
[Link](X_train, y_train)
predicted = [Link](X_test)
accuracy_score = metrics.accuracy_score(predicted, y_test)
21131A4436 4
print('MultinominalNB model accuracy is',str('{:04.2f}'.format(accuracy_score*100))+'%')
print('------------------------------------------------')
print('Confusion Matrix:')
print([Link](confusion_matrix(y_test, predicted)))
print('------------------------------------------------')
print('Classification Report:')
print(classification_report(y_test, predicted))

MultinominalNB model accuracy is 86.21%

------------------------------------------------
Confusion Matrix:
0 1
0 4327 650
1 729 4294
------------------------------------------------
Classification Report:
precision recall f1-score support
0 0.86 0.87 0.86 4977
1 0.87 0.85 0.86 5023
accuracy 0.86 10000
macro avg 0.86 0.86 0.86 10000
weighted avg 0.86 0.86 0.86 10000

from sklearn.naive_bayes import BernoulliNB

BNB = BernoulliNB()
[Link](X_train, y_train)
predicted = [Link](X_test)
accuracy_score_bnb = metrics.accuracy_score(predicted,y_test)
print('BernoulliNB model accuracy = ' + str('{:4.2f}'.format(accuracy_score_bnb*100))+'%')
print('------------------------------------------------')
print('Confusion Matrix:')
print([Link](confusion_matrix(y_test, predicted)))
print('------------------------------------------------')
print('Classification Report:')
print(classification_report(y_test, predicted))

BernoulliNB model accuracy = 83.75%

------------------------------------------------
Confusion Matrix:
0 1
0 4403 574
1 1051 3972
------------------------------------------------
Classification Report:
precision recall f1-score support
0 0.81 0.88 0.84 4977
1 0.87 0.79 0.83 5023
accuracy 0.84 10000
macro avg 0.84 0.84 0.84 10000
weighted avg 0.84 0.84 0.84 10000

21131A4436 5

Python CA 4
No ratings yet
Python CA 4
9 pages
Tweet Sentiment Analysis with ML
No ratings yet
Tweet Sentiment Analysis with ML
4 pages
Naive Bayes Text Classification Lab
100% (2)
Naive Bayes Text Classification Lab
33 pages
Naïve Bayes Classifier Metrics Analysis
No ratings yet
Naïve Bayes Classifier Metrics Analysis
3 pages
Amazon Kindle Book Reviews Dataset
No ratings yet
Amazon Kindle Book Reviews Dataset
5 pages
Naive Bayes Text Classification Analysis
No ratings yet
Naive Bayes Text Classification Analysis
3 pages
Text Classification with Naive Bayes
No ratings yet
Text Classification with Naive Bayes
2 pages
FINDS Algorithm Implementation in Python
No ratings yet
FINDS Algorithm Implementation in Python
22 pages
MultiOutputClassifier for Text Classification
No ratings yet
MultiOutputClassifier for Text Classification
26 pages
Email Spam Classification System
No ratings yet
Email Spam Classification System
22 pages
Supervised Learning with Scikit-Learn
No ratings yet
Supervised Learning with Scikit-Learn
67 pages
Hate Speech Detection with ML Models
No ratings yet
Hate Speech Detection with ML Models
31 pages
Build Neural Network with Backpropagation
No ratings yet
Build Neural Network with Backpropagation
7 pages
Build Regression, Decision Trees, SVMs
No ratings yet
Build Regression, Decision Trees, SVMs
19 pages
Naïve Bayes Classifier Implementation
No ratings yet
Naïve Bayes Classifier Implementation
8 pages
Sasi Motors Spam Detection Algorithm
No ratings yet
Sasi Motors Spam Detection Algorithm
24 pages
Student Performance ML Analysis Notebook
No ratings yet
Student Performance ML Analysis Notebook
7 pages
Product Review Sentiment Analysis
No ratings yet
Product Review Sentiment Analysis
2 pages
Hands-On Data Preprocessing in Python
No ratings yet
Hands-On Data Preprocessing in Python
9 pages
Calculating Accuracy in Data Mining
No ratings yet
Calculating Accuracy in Data Mining
38 pages
S3 Data Processing and Classification
No ratings yet
S3 Data Processing and Classification
25 pages
Random Forest and SVM Classifiers Analysis
No ratings yet
Random Forest and SVM Classifiers Analysis
5 pages
AI Project: Toxic Comment Classification
No ratings yet
AI Project: Toxic Comment Classification
11 pages
Naive Bayes Classifier Metrics in Python
No ratings yet
Naive Bayes Classifier Metrics in Python
3 pages
Sentiment Analysis with Python Code
No ratings yet
Sentiment Analysis with Python Code
3 pages
Naive Bayes Classification Guide
No ratings yet
Naive Bayes Classification Guide
9 pages
Naïve Bayes Algorithm Overview
No ratings yet
Naïve Bayes Algorithm Overview
10 pages
Twitter Hate Speech Analysis Model
No ratings yet
Twitter Hate Speech Analysis Model
8 pages
Machine Learning Algorithms in Python
No ratings yet
Machine Learning Algorithms in Python
10 pages
Python Foundations for Generative AI
No ratings yet
Python Foundations for Generative AI
67 pages
Build and Test Neural Networks
No ratings yet
Build and Test Neural Networks
17 pages
LSTM Model for Spam Detection Analysis
No ratings yet
LSTM Model for Spam Detection Analysis
8 pages
Python Machine Learning Techniques Overview
No ratings yet
Python Machine Learning Techniques Overview
13 pages
ANN Classification Implementation Guide
No ratings yet
ANN Classification Implementation Guide
9 pages
Naïve Bayes Classification on Iris Dataset
No ratings yet
Naïve Bayes Classification on Iris Dataset
5 pages
Naive Bayes on Amazon Reviews Analysis
No ratings yet
Naive Bayes on Amazon Reviews Analysis
6 pages
Custom NER Model Performance Metrics
No ratings yet
Custom NER Model Performance Metrics
8 pages
Naive Bayes & SVM Classifiers in Python
No ratings yet
Naive Bayes & SVM Classifiers in Python
4 pages
Naïve Bayes Classifier with CSV Data
No ratings yet
Naïve Bayes Classifier with CSV Data
2 pages
Data Analysis and Machine Learning Techniques
No ratings yet
Data Analysis and Machine Learning Techniques
8 pages
Spam Detection with Naive Bayes Model
No ratings yet
Spam Detection with Naive Bayes Model
2 pages
AD3461 Machine Learning Lab Manual
No ratings yet
AD3461 Machine Learning Lab Manual
26 pages
Machine Learning Lab 146 Certificate
No ratings yet
Machine Learning Lab 146 Certificate
50 pages
Personalized Cancer Diagnosis Analysis
No ratings yet
Personalized Cancer Diagnosis Analysis
100 pages
Data Preprocessing and Model Evaluation Techniques
No ratings yet
Data Preprocessing and Model Evaluation Techniques
12 pages
Decision Tree
No ratings yet
Decision Tree
9 pages
Mercedes-Benz Sustainable Manufacturing
0% (1)
Mercedes-Benz Sustainable Manufacturing
16 pages
Naïve Bayes & KNN Text Classification Guide
No ratings yet
Naïve Bayes & KNN Text Classification Guide
40 pages
Python Metrics and Classifiers Guide
No ratings yet
Python Metrics and Classifiers Guide
7 pages
Sentiment Analysis with Naive Bayes
No ratings yet
Sentiment Analysis with Naive Bayes
47 pages
Sentiment Analysis with Python Code
No ratings yet
Sentiment Analysis with Python Code
7 pages
Machine Learning Classification Report
No ratings yet
Machine Learning Classification Report
8 pages
Naive Bayes Text Classification Code
No ratings yet
Naive Bayes Text Classification Code
2 pages
Classifier Comparison in Scikit-Learn
No ratings yet
Classifier Comparison in Scikit-Learn
10 pages
Naïve Bayes and K-NN Implementation
No ratings yet
Naïve Bayes and K-NN Implementation
10 pages
Few-Shot Learning for Text Classification
No ratings yet
Few-Shot Learning for Text Classification
16 pages
Structural Stability and Buckling Analysis
No ratings yet
Structural Stability and Buckling Analysis
2 pages
MCA Course Structure Overview
No ratings yet
MCA Course Structure Overview
132 pages
M.Tech Power Electronics Regulations
No ratings yet
M.Tech Power Electronics Regulations
56 pages
Tanushree Meena - Full Test I
No ratings yet
Tanushree Meena - Full Test I
50 pages
Causes of the American Revolution
No ratings yet
Causes of the American Revolution
6 pages
Gmail Account Creation and Management Guide
No ratings yet
Gmail Account Creation and Management Guide
1 page
Wind and Earthquake Resistant Design
No ratings yet
Wind and Earthquake Resistant Design
3 pages
Military Computer Forensics Technology
No ratings yet
Military Computer Forensics Technology
10 pages
AIR 9 History Optional Copy 5
No ratings yet
AIR 9 History Optional Copy 5
42 pages
Cyber Forensic Services Overview
No ratings yet
Cyber Forensic Services Overview
6 pages
Computer Forensics: Data Recovery Essentials
No ratings yet
Computer Forensics: Data Recovery Essentials
15 pages
CaseStudies Gunjita
No ratings yet
CaseStudies Gunjita
6 pages
Understanding Computer Forensics
No ratings yet
Understanding Computer Forensics
7 pages
Multiway Tries
No ratings yet
Multiway Tries
12 pages
Digital Evidence Preservation Guidelines
No ratings yet
Digital Evidence Preservation Guidelines
9 pages
Split Textbook Lines into Arrays
No ratings yet
Split Textbook Lines into Arrays
5 pages
Loading Data in Snowflake Guide
No ratings yet
Loading Data in Snowflake Guide
27 pages
Snowflake Database Objects Overview
No ratings yet
Snowflake Database Objects Overview
39 pages
Binomial Heap
No ratings yet
Binomial Heap
7 pages
B.Tech V Sem Internal Marks
No ratings yet
B.Tech V Sem Internal Marks
4 pages
Lokesh Duddukuri Certificate Details
No ratings yet
Lokesh Duddukuri Certificate Details
1 page
CSE 2022 IAS Cadre Allocation List
No ratings yet
CSE 2022 IAS Cadre Allocation List
6 pages
PySpark Array Manipulation and CSV Export
No ratings yet
PySpark Array Manipulation and CSV Export
13 pages
Advanced Data Structures Course Guide
No ratings yet
Advanced Data Structures Course Guide
3 pages
SOMP Ethics Notes for UPSC Mains 2023
No ratings yet
SOMP Ethics Notes for UPSC Mains 2023
6 pages
ఆంధ్రుల ఆదిమనవుల చరిత్ర
No ratings yet
ఆంధ్రుల ఆదిమనవుల చరిత్ర
32 pages
Agriculture Notes for UPSC GS3
No ratings yet
Agriculture Notes for UPSC GS3
68 pages
Student Teaching Experience Journal
No ratings yet
Student Teaching Experience Journal
40 pages
Media Evolution Lesson Plan for Grade 12
No ratings yet
Media Evolution Lesson Plan for Grade 12
8 pages
TLE 8 Lesson Plan: Food Processing Skills
No ratings yet
TLE 8 Lesson Plan: Food Processing Skills
3 pages
Curriculum Design Approaches Explained
No ratings yet
Curriculum Design Approaches Explained
29 pages
Techniques for Separating Mixtures
No ratings yet
Techniques for Separating Mixtures
17 pages
Mock Interview for Preschool Admission
No ratings yet
Mock Interview for Preschool Admission
2 pages
Mousumi Mishra: E-Commerce Expert
No ratings yet
Mousumi Mishra: E-Commerce Expert
2 pages
Science 9 Lesson Plan: Constellations
No ratings yet
Science 9 Lesson Plan: Constellations
5 pages
Phil-IRI School Summary Report
No ratings yet
Phil-IRI School Summary Report
4 pages
Enhanced Fuzzy Control Adaptation Method
No ratings yet
Enhanced Fuzzy Control Adaptation Method
6 pages
Academic Anxiety in Physics Students
No ratings yet
Academic Anxiety in Physics Students
5 pages
Understanding Presidential Duties
No ratings yet
Understanding Presidential Duties
3 pages
Positive Classroom Atmosphere Impact on Grade 10
No ratings yet
Positive Classroom Atmosphere Impact on Grade 10
8 pages
7th Grade English Lesson Plan
No ratings yet
7th Grade English Lesson Plan
4 pages
Introduction to Artificial Neural Networks
No ratings yet
Introduction to Artificial Neural Networks
15 pages
Multiplying and Dividing Radicals Lesson
No ratings yet
Multiplying and Dividing Radicals Lesson
4 pages
Science 8: Newton's Laws Lesson Plan
No ratings yet
Science 8: Newton's Laws Lesson Plan
7 pages
Educational Psychology Exam Guide
No ratings yet
Educational Psychology Exam Guide
2 pages
Baliuag Nursing Students' Study Habits Insights
No ratings yet
Baliuag Nursing Students' Study Habits Insights
2 pages
Body Parts Lesson Plan for Grade 5
No ratings yet
Body Parts Lesson Plan for Grade 5
2 pages
Population in My Region: Lesson Plan
No ratings yet
Population in My Region: Lesson Plan
5 pages
Self-Learning Modules Distribution Report
No ratings yet
Self-Learning Modules Distribution Report
12 pages
Training Students in Prompt Engineering
No ratings yet
Training Students in Prompt Engineering
4 pages
Final Exam: School Governance & Participation
No ratings yet
Final Exam: School Governance & Participation
13 pages
Research Consent and Peer Collaboration Survey
No ratings yet
Research Consent and Peer Collaboration Survey
1 page
Impact of Technology on Education
No ratings yet
Impact of Technology on Education
3 pages
Student Work Protocol for Educators
No ratings yet
Student Work Protocol for Educators
4 pages
Understanding Authentic Assessment Techniques
No ratings yet
Understanding Authentic Assessment Techniques
15 pages
5th Grade Family Tree Lesson Plan
No ratings yet
5th Grade Family Tree Lesson Plan
2 pages
FYP1 Supervision Guidelines for Students
No ratings yet
FYP1 Supervision Guidelines for Students
32 pages

Naïve Bayes Classifier Implementation

Uploaded by

Naïve Bayes Classifier Implementation

Uploaded by

WEEK-10

[Link](columns={'review':'text'}, inplace = True)

FREQWORDS = set([w for (w, wc) in cnt.most_common(10)])

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.model_selection import train_test_split

from sklearn.naive_bayes import ComplementNB

ComplementNB model accuracy is 86.22%

from sklearn.naive_bayes import MultinomialNB

MultinominalNB model accuracy is 86.21%

from sklearn.naive_bayes import BernoulliNB

BernoulliNB model accuracy = 83.75%

You might also like