0% found this document useful (0 votes)

33 views9 pages

Python CA 4

This document summarizes a student's Python project on SMS spam detection. The student loads and cleans a SMS text dataset, applies natural language processing techniques like tokenization and stemming, then builds and compares various classification models including Naive Bayes, Logistic Regression, Random Forest and XGBoost. The best performing models are then ensemble using voting and stacking classifiers to further improve accuracy and precision of spam detection. The models are saved using pickle for future use.

Uploaded by

subham patra

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

33 views9 pages

Python CA 4

Uploaded by

subham patra

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Python CA 4

Name : Subham Patra

REG NO : 12215814

# SMS SPAM DETECTION

import numpy as np

import pandas as pd

import warnings

[Link]('ignore')

df = pd.read_csv('[Link]',encoding='latin1')

[Link](5)

[Link]

## Data Cleaning

[Link]()

# drop last 3 columns

[Link](columns=['Unnamed: 2','Unnamed: 3','Unnamed: 4'],inplace=True)

# rename columns

[Link](columns={'v1':'target','v2':'text'},inplace=True)

[Link]()

# change target into binary

from [Link] import LabelEncoder as LE

encoder=LE()

df['target']=encoder.fit_transform(df['target'])

[Link]()

# null values

[Link]().sum()
#check duplicates

[Link]().sum()

#drop duplicates

df=df.drop_duplicates(keep='first')

[Link]().sum()

[Link]

# EDA

df['target'].value_counts()

import [Link] as plt

[Link](df['target'].value_counts(),labels=['ham','spam'],autopct="%0.2f")

[Link]()

#making new columns(no. of chars,words and sentences) for better analyzing

import nltk

!pip install nltk

[Link]('punkt')

df['num_chars']=df['text'].apply(len)

[Link](3)

#num of words

df['num_words']=df['text'].apply(lambda x:len(nltk.word_tokenize(x)))

df['num_sentences']=df['text'].apply(lambda x:len(nltk.sent_tokenize(x)))

[Link]()

df[['num_chars','num_words','num_sentences']].describe()

#hams

df[df['target']==0][['num_chars','num_words','num_sentences']].describe()

#spams

df[df['target']==1][['num_chars','num_words','num_sentences']].describe()

import seaborn as sns

[Link](df[df['target']==0]['num_chars'])

[Link](df[df['target']==1]['num_chars'],color='red')

[Link](df[df['target']==0]['num_words'])
[Link](df[df['target']==1]['num_words'],color='red')

[Link](df,hue='target')

[Link]([Link](),annot=True)

# Data Preprocessing

### Lower case

### Tokenization

### Removing special characters

### Removing stop words and punctuation

### Stemming

import nltk

from [Link] import stopwords

[Link]('stopwords')

stopwords=[Link]('english')

import string

puncs=[Link]

from [Link] import PorterStemmer

ps=PorterStemmer()

def transform_text(text):

text=[Link]()

text=nltk.word_tokenize(text)

y=[]

for i in text:

if [Link]():

[Link](i)

text=y[:]

[Link]()

for i in text:
if i not in stopwords+list(puncs):

[Link](i)

text=y[:]

[Link]()

for i in text:

[Link]([Link](i))

return " ".join(y)

df['transformed_text']=df['text'].apply(transform_text)

[Link](5)

# !pip install wordcloud

from wordcloud import WordCloud

wc=WordCloud(width=500,height=500,min_font_size=10,background_color='white')

spam_wc=[Link](df[df['target']==1]['transformed_text'].[Link](sep=" "))

# [Link](figsize=(15,6))

[Link](spam_wc)

ham_wc=[Link](df[df['target']==0]['transformed_text'].[Link](sep=" "))

# [Link](figsize=(15,6))

[Link](ham_wc)

spam_words=[]

for msg in df[df['target']==1]['transformed_text'].tolist():

for word in [Link]():

spam_words.append(word)

len(spam_words)

from collections import Counter

[Link]([Link](Counter(spam_words).most_common(30))[0],[Link](Counter(spam_w
ords).most_common(30))[1])

[Link](rotation='vertical')

[Link]()
ham_words=[]

for msg in df[df['target']==0]['transformed_text'].tolist():

for word in [Link]():

ham_words.append(word)

len(ham_words)

from collections import Counter

[Link]([Link](Counter(ham_words).most_common(30))[0],[Link](Counter(ham_wor
ds).most_common(30))[1])

[Link](rotation='vertical')

[Link]()

# MODEL BUILDING->naive bayes start

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

cv = CountVectorizer()

tfidf = TfidfVectorizer(max_features=3000)

X = tfidf.fit_transform(df['transformed_text']).toarray()

[Link]

y = df['target'].values

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=2)

from sklearn.naive_bayes import GaussianNB,MultinomialNB,BernoulliNB

from [Link] import accuracy_score,confusion_matrix,precision_score

gnb = GaussianNB()

mnb = MultinomialNB()

bnb = BernoulliNB()

[Link](X_train,y_train)
y_pred1 = [Link](X_test)

print(accuracy_score(y_test,y_pred1))

print(confusion_matrix(y_test,y_pred1))

print(precision_score(y_test,y_pred1))

[Link](X_train,y_train)

y_pred2 = [Link](X_test)

print(accuracy_score(y_test,y_pred2))

print(confusion_matrix(y_test,y_pred2))

print(precision_score(y_test,y_pred2))

[Link](X_train,y_train)

y_pred3 = [Link](X_test)

print(accuracy_score(y_test,y_pred3))

print(confusion_matrix(y_test,y_pred3))

print(precision_score(y_test,y_pred3))

from sklearn.linear_model import LogisticRegression

from [Link] import SVC

from sklearn.naive_bayes import MultinomialNB

from [Link] import DecisionTreeClassifier

from [Link] import KNeighborsClassifier

from [Link] import RandomForestClassifier

from [Link] import AdaBoostClassifier

from [Link] import BaggingClassifier

from [Link] import ExtraTreesClassifier

from [Link] import GradientBoostingClassifier

!pip install xgboost

from xgboost import XGBClassifier

svc = SVC(kernel='sigmoid', gamma=1.0)

knc = KNeighborsClassifier()

mnb = MultinomialNB()

dtc = DecisionTreeClassifier(max_depth=5)
lrc = LogisticRegression(solver='liblinear', penalty='l1')

rfc = RandomForestClassifier(n_estimators=50, random_state=2)

abc = AdaBoostClassifier(n_estimators=50, random_state=2)

bc = BaggingClassifier(n_estimators=50, random_state=2)

etc = ExtraTreesClassifier(n_estimators=50, random_state=2)

gbdt = GradientBoostingClassifier(n_estimators=50,random_state=2)

xgb = XGBClassifier(n_estimators=50,random_state=2)

def train_classifier(clf,X_train,y_train,X_test,y_test):

[Link](X_train,y_train)

y_pred = [Link](X_test)

accuracy = accuracy_score(y_test,y_pred)

precision = precision_score(y_test,y_pred)

return accuracy,precision

train_classifier(svc,X_train,y_train,X_test,y_test)

clfs = {

'SVC' : svc,

'KN' : knc,

'NB': mnb,

'DT': dtc,

'LR': lrc,

'RF': rfc,

'AdaBoost': abc,

'BgC': bc,

'ETC': etc,

'GBDT':gbdt,

'xgb':xgb

# accuracy_scores = []

# precision_scores = []
# for name,clf in [Link]():

# current_accuracy,current_precision = train_classifier(clf, X_train,y_train,X_test,y_test)

# print("For ",name)

# print("Accuracy - ",current_accuracy)

# print("Precision - ",current_precision)

# accuracy_scores.append(current_accuracy)

# precision_scores.append(current_precision)

# performance_df =
[Link]({'Algorithm':[Link](),'Accuracy':accuracy_scores,'Precision':precision_scores}).sort_
values('Precision',ascending=False)

# performance_df

# performance_df1 = [Link](performance_df, id_vars = "Algorithm")

# performance_df1

# [Link](x = 'Algorithm', y='value', hue = 'variable',data=performance_df1, kind='bar',height=5)

# [Link](0.5,1.0)

# [Link](rotation='vertical')

# [Link]()

# model improve

# 1. Change the max_features parameter of TfIdf

temp_df =
[Link]({'Algorithm':[Link](),'Accuracy_max_ft_3000':accuracy_scores,'Precision_max_ft_3
000':precision_scores}).sort_values('Precision_max_ft_3000',ascending=False)

temp_df =
[Link]({'Algorithm':[Link](),'Accuracy_scaling':accuracy_scores,'Precision_scaling':precisio
n_scores}).sort_values('Precision_scaling',ascending=False)

new_df = performance_df.merge(temp_df,on='Algorithm')

new_df_scaled = new_df.merge(temp_df,on='Algorithm')
temp_df =
[Link]({'Algorithm':[Link](),'Accuracy_num_chars':accuracy_scores,'Precision_num_chars':
precision_scores}).sort_values('Precision_num_chars',ascending=False)

# new_df_scaled.merge(temp_df,on='Algorithm')

# Voting Classifier

svc = SVC(kernel='sigmoid', gamma=1.0,probability=True)

mnb = MultinomialNB()

etc = ExtraTreesClassifier(n_estimators=50, random_state=2)

from [Link] import VotingClassifier

voting = VotingClassifier(estimators=[('svm', svc), ('nb', mnb), ('et', etc)],voting='soft')

[Link](X_train,y_train)

y_pred = [Link](X_test)

print("Accuracy",accuracy_score(y_test,y_pred))

print("Precision",precision_score(y_test,y_pred))

# Applying stacking

estimators=[('svm', svc), ('nb', mnb), ('et', etc)]

final_estimator=RandomForestClassifier()

# from [Link] import StackingClassifier

# clf = StackingClassifier(estimators=estimators, final_estimator=final_estimator)

# [Link](X_train,y_train)

# y_pred = [Link](X_test)

# print("Accuracy",accuracy_score(y_test,y_pred))

# print("Precision",precision_score(y_test,y_pred))

import pickle

[Link](tfidf,open('[Link]','wb'))

[Link](mnb,open('[Link]','wb'))

Spam Detection with NLP Techniques
No ratings yet
Spam Detection with NLP Techniques
6 pages
Email Spam Classification System
No ratings yet
Email Spam Classification System
22 pages
Spam Detection with KNN and TF-IDF
No ratings yet
Spam Detection with KNN and TF-IDF
3 pages
Naïve Bayes Classifier Implementation
No ratings yet
Naïve Bayes Classifier Implementation
5 pages
Flask App for Text Classification and Analysis
No ratings yet
Flask App for Text Classification and Analysis
6 pages
Machine Learning Code Breakdown Guide
No ratings yet
Machine Learning Code Breakdown Guide
33 pages
MultiOutputClassifier for Text Classification
No ratings yet
MultiOutputClassifier for Text Classification
26 pages
Python Graphing Techniques Overview
No ratings yet
Python Graphing Techniques Overview
48 pages
Python Foundations for Generative AI
No ratings yet
Python Foundations for Generative AI
67 pages
S3 Data Processing and Classification
No ratings yet
S3 Data Processing and Classification
25 pages
LSTM Model for Spam Detection Analysis
No ratings yet
LSTM Model for Spam Detection Analysis
8 pages
Intelligent Cyber Security Lab Exercises
No ratings yet
Intelligent Cyber Security Lab Exercises
49 pages
Sentiment Analysis with Python Code
No ratings yet
Sentiment Analysis with Python Code
7 pages
Spam Detection with Python and NLP
No ratings yet
Spam Detection with Python and NLP
3 pages
Build Regression, Decision Trees, SVMs
No ratings yet
Build Regression, Decision Trees, SVMs
19 pages
Random Forest and SVM Classifiers Analysis
No ratings yet
Random Forest and SVM Classifiers Analysis
5 pages
PySpark Text Classification Pipeline
No ratings yet
PySpark Text Classification Pipeline
11 pages
Email Spam Detection with SVM
No ratings yet
Email Spam Detection with SVM
4 pages
SMS Spam Filter Implementation Guide
No ratings yet
SMS Spam Filter Implementation Guide
27 pages
AI Project: Toxic Comment Classification
No ratings yet
AI Project: Toxic Comment Classification
11 pages
Django Cyber Threat Prediction App
No ratings yet
Django Cyber Threat Prediction App
9 pages
Logistic Regression on Amazon Reviews
No ratings yet
Logistic Regression on Amazon Reviews
11 pages
AI Spam Classifier Using ELM & SVM
No ratings yet
AI Spam Classifier Using ELM & SVM
11 pages
Naive Bayes SMS Classifier Implementation
No ratings yet
Naive Bayes SMS Classifier Implementation
6 pages
Top News Categories Analysis and Model
No ratings yet
Top News Categories Analysis and Model
4 pages
Naïve Bayes Classifier Implementation
No ratings yet
Naïve Bayes Classifier Implementation
8 pages
Build and Test Neural Networks
No ratings yet
Build and Test Neural Networks
17 pages
Sample
No ratings yet
Sample
6 pages
FIND-S and ID3 Algorithm Implementations
No ratings yet
FIND-S and ID3 Algorithm Implementations
9 pages
TensorFlow Spam Detection in Python
No ratings yet
TensorFlow Spam Detection in Python
13 pages
Hands-On Data Preprocessing in Python
No ratings yet
Hands-On Data Preprocessing in Python
9 pages
Hate Speech Detection with ML Models
No ratings yet
Hate Speech Detection with ML Models
31 pages
Email Spam Classifier with Random Forest
No ratings yet
Email Spam Classifier with Random Forest
4 pages
Document Retrieval Techniques Overview
No ratings yet
Document Retrieval Techniques Overview
43 pages
Machine Learning Algorithms Implementation
No ratings yet
Machine Learning Algorithms Implementation
8 pages
Machine Learning Algorithms Overview
No ratings yet
Machine Learning Algorithms Overview
12 pages
Machine Learning Lab Manual 2021-22
No ratings yet
Machine Learning Lab Manual 2021-22
23 pages
Sentimental Value Analysis in Python
No ratings yet
Sentimental Value Analysis in Python
11 pages
Naive Bayes on 20 Newsgroups Data
No ratings yet
Naive Bayes on 20 Newsgroups Data
4 pages
Python Machine Learning Programs Overview
No ratings yet
Python Machine Learning Programs Overview
12 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
9 pages
Machine Learning Program Examples
No ratings yet
Machine Learning Program Examples
64 pages
Text Classification with LSTM Model
No ratings yet
Text Classification with LSTM Model
4 pages
Data Analysis and Machine Learning Techniques
No ratings yet
Data Analysis and Machine Learning Techniques
8 pages
Python NumPy and Pandas Basics Guide
No ratings yet
Python NumPy and Pandas Basics Guide
24 pages
Data Classification and Clustering Analysis
No ratings yet
Data Classification and Clustering Analysis
6 pages
Neural Network Implementation Guide
No ratings yet
Neural Network Implementation Guide
7 pages
Spam Detection with Naive Bayes Model
No ratings yet
Spam Detection with Naive Bayes Model
2 pages
Email Spam Detection with ML Techniques
No ratings yet
Email Spam Detection with ML Techniques
17 pages
TensorFlow Datasets and Model Training
No ratings yet
TensorFlow Datasets and Model Training
6 pages
SVM and Naive Bayes Classifier F1 Scores
No ratings yet
SVM and Naive Bayes Classifier F1 Scores
5 pages
Mercedes-Benz Sustainable Manufacturing
0% (1)
Mercedes-Benz Sustainable Manufacturing
16 pages
Email Spam Classification with KNN & SVM
No ratings yet
Email Spam Classification with KNN & SVM
2 pages
List Operations and Regression Techniques
No ratings yet
List Operations and Regression Techniques
3 pages
Mercari Price Suggestion Model
No ratings yet
Mercari Price Suggestion Model
41 pages
NLP Sentiment Analysis with Python
No ratings yet
NLP Sentiment Analysis with Python
5 pages
Sarcasm Detection with Deep Learning Models
No ratings yet
Sarcasm Detection with Deep Learning Models
9 pages
Paper 02
No ratings yet
Paper 02
17 pages
Impact of Online Gaming on Student Performance
No ratings yet
Impact of Online Gaming on Student Performance
15 pages
DFU Mode Guide for iPhone & iDevices
No ratings yet
DFU Mode Guide for iPhone & iDevices
4 pages
Java Chessboard and Grading Algorithms
No ratings yet
Java Chessboard and Grading Algorithms
93 pages
A General Lower Bound For The Linear Complexity of The Product of Shift Register Sequences 1st Edition by Goettfert Niederreiter ISBN Ebook PDF
100% (3)
A General Lower Bound For The Linear Complexity of The Product of Shift Register Sequences 1st Edition by Goettfert Niederreiter ISBN Ebook PDF
41 pages
Pruebas para Títulos de Técnico 2023-2024
No ratings yet
Pruebas para Títulos de Técnico 2023-2024
7 pages
UWI Student Registration Guide
No ratings yet
UWI Student Registration Guide
16 pages
Levels of Measurement in Research
No ratings yet
Levels of Measurement in Research
22 pages
SCR Power Control Techniques
No ratings yet
SCR Power Control Techniques
40 pages
Sampling Techniques in Business Statistics
No ratings yet
Sampling Techniques in Business Statistics
10 pages
Using SEL Control Equations To Provide A Trip Coil Monitor Alarm in SEL-351, SEL-451, and SEL-751 Relays
No ratings yet
Using SEL Control Equations To Provide A Trip Coil Monitor Alarm in SEL-351, SEL-451, and SEL-751 Relays
4 pages
Munster Secador Cava HCD Electric Manual
No ratings yet
Munster Secador Cava HCD Electric Manual
80 pages
Ripple Effect in Class Stability Metrics
No ratings yet
Ripple Effect in Class Stability Metrics
12 pages
JVF-4000 Elevator Controller Manual
No ratings yet
JVF-4000 Elevator Controller Manual
196 pages
SQL Range Types and Queries Overview
No ratings yet
SQL Range Types and Queries Overview
15 pages
Cham Paper Group: Enabling Transparency, Efficiency, and Production Flexibility With SAP® Solutions
No ratings yet
Cham Paper Group: Enabling Transparency, Efficiency, and Production Flexibility With SAP® Solutions
8 pages
G-TEL 505 Payphone User Manual
No ratings yet
G-TEL 505 Payphone User Manual
3 pages
Covert Communication Methods for Spies
No ratings yet
Covert Communication Methods for Spies
17 pages
Qdoc - Tips - Download As PDF Discipulado 1 Mestre Cpad
No ratings yet
Qdoc - Tips - Download As PDF Discipulado 1 Mestre Cpad
70 pages
Developer License Agreement 30mar17 - Final v2
No ratings yet
Developer License Agreement 30mar17 - Final v2
18 pages
M.Tech Thesis Topics for Computer Science
No ratings yet
M.Tech Thesis Topics for Computer Science
3 pages
Module and Channel Diagnostics RALRM
No ratings yet
Module and Channel Diagnostics RALRM
20 pages
Adversarial Search in AI Games
No ratings yet
Adversarial Search in AI Games
49 pages
Hotel Electrical Systems Design Standards
No ratings yet
Hotel Electrical Systems Design Standards
27 pages
Geyser Beading Pattern Guide
100% (2)
Geyser Beading Pattern Guide
11 pages
Probability and Graph Theory Assignment
No ratings yet
Probability and Graph Theory Assignment
7 pages
Data Analysis Lab Manual for MBA
No ratings yet
Data Analysis Lab Manual for MBA
25 pages
ECG Circuit Schematic Diagram
No ratings yet
ECG Circuit Schematic Diagram
3 pages
Agile Transformation at IBM DB2 Conference
No ratings yet
Agile Transformation at IBM DB2 Conference
22 pages
8086 Addressing Modes Explained
No ratings yet
8086 Addressing Modes Explained
39 pages

Python CA 4

Uploaded by

Python CA 4

Uploaded by

Python CA 4

Name : Subham Patra

# SMS SPAM DETECTION

# drop last 3 columns

[Link](columns=['Unnamed: 2','Unnamed: 3','Unnamed: 4'],inplace=True)

# change target into binary

from [Link] import LabelEncoder as LE

import [Link] as plt

#making new columns(no. of chars,words and sentences) for better analyzing

!pip install nltk

import seaborn as sns

### Lower case

### Removing special characters

### Removing stop words and punctuation

from [Link] import stopwords

from [Link] import PorterStemmer

return " ".join(y)

# !pip install wordcloud

from wordcloud import WordCloud

for msg in df[df['target']==1]['transformed_text'].tolist():

for word in [Link]():

from collections import Counter

for msg in df[df['target']==0]['transformed_text'].tolist():

for word in [Link]():

from collections import Counter

# MODEL BUILDING->naive bayes start

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

from sklearn.model_selection import train_test_split

from sklearn.naive_bayes import GaussianNB,MultinomialNB,BernoulliNB

from [Link] import accuracy_score,confusion_matrix,precision_score

from sklearn.linear_model import LogisticRegression

from [Link] import SVC

from sklearn.naive_bayes import MultinomialNB

from [Link] import DecisionTreeClassifier

from [Link] import KNeighborsClassifier

from [Link] import RandomForestClassifier

from [Link] import AdaBoostClassifier

from [Link] import BaggingClassifier

from [Link] import ExtraTreesClassifier

from [Link] import GradientBoostingClassifier

!pip install xgboost

from xgboost import XGBClassifier

svc = SVC(kernel='sigmoid', gamma=1.0)

rfc = RandomForestClassifier(n_estimators=50, random_state=2)

abc = AdaBoostClassifier(n_estimators=50, random_state=2)

etc = ExtraTreesClassifier(n_estimators=50, random_state=2)

# current_accuracy,current_precision = train_classifier(clf, X_train,y_train,X_test,y_test)

# performance_df1 = [Link](performance_df, id_vars = "Algorithm")

# [Link](x = 'Algorithm', y='value', hue = 'variable',data=performance_df1, kind='bar',height=5)

# 1. Change the max_features parameter of TfIdf

svc = SVC(kernel='sigmoid', gamma=1.0,probability=True)

etc = ExtraTreesClassifier(n_estimators=50, random_state=2)

from [Link] import VotingClassifier

voting = VotingClassifier(estimators=[('svm', svc), ('nb', mnb), ('et', etc)],voting='soft')

estimators=[('svm', svc), ('nb', mnb), ('et', etc)]

# from [Link] import StackingClassifier

# clf = StackingClassifier(estimators=estimators, final_estimator=final_estimator)

You might also like