0% found this document useful (0 votes)

26 views11 pages

Data Mining Classification Techniques

Uploaded by

chandananyc1

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

26 views11 pages

Data Mining Classification Techniques

Uploaded by

chandananyc1

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Classification in Data Mining – Introduction

1. Introduction to Data Mining

Data Mining is the process of discovering hidden, previously unknown, and useful patterns
from large volumes of data stored in databases, data warehouses, or other information
repositories. It combines techniques from statistics, machine learning, artificial intelligence,
and database systems to transform raw data into meaningful knowledge.

Among the various data mining tasks such as association rule mining, clustering, regression,
outlier analysis, and classification, classification is one of the most important and widely used
techniques.

2. What is Classification?
Classification is a supervised learning technique in data mining that is used to predict
categorical class labels for new data instances based on past observations.

In classification:

 The data objects belong to predefined classes

 A model (classifier) is built using training data
 The model is then used to classify unseen or test data

Definition

Classification is the process of finding a model that describes and distinguishes data classes or
concepts, for the purpose of being able to use the model to predict the class of objects whose
class label is unknown.

3. Role of Classification in Data Warehousing

Data warehouses store integrated, historical, and summarized data from multiple sources.
Classification techniques are applied on warehouse data to:

 Support decision making

 Enable predictive analysis
 Discover trends and future outcomes

Example:
 Classifying customers as high-value, medium-value, or low-value
 Classifying loan applicants as safe or risky

4. Supervised Learning Nature of Classification

Classification is called supervised learning because:

 The class labels are known in advance

 The learning algorithm is trained using labeled data

Example:

Age Income Student Class

22 Low Yes Buy
45 High No Not Buy

Here, Class is the target attribute.

5. Steps Involved in Classification

1. Data Collection

Data is collected from databases, data warehouses, or external sources.

2. Data Preprocessing

Includes:

 Data cleaning
 Handling missing values
 Data transformation
 Data normalization

3. Training Phase

 A portion of data is used to build the classification model

 Known as training dataset

4. Testing Phase
 The model is tested using unseen data
 Known as test dataset

5. Model Evaluation

Performance is evaluated using:

 Accuracy
 Precision
 Recall
 Confusion matrix

6. Classification Techniques
1. Decision Tree Classification

 Uses tree-like structures

 Easy to understand and interpret
 Example: ID3, C4.5, CART

2. Bayesian Classification

 Based on Bayes’ Theorem

 Assumes independence between attributes
 Example: Naïve Bayes Classifier

3. Rule-Based Classification

 Uses IF-THEN rules

 Simple and interpretable

4. k-Nearest Neighbor (k-NN)

 Classifies based on the nearest data points

 Distance-based approach

5. Artificial Neural Networks

 Inspired by the human brain

 Suitable for complex patterns
 Requires large datasets

6. Support Vector Machines (SVM)

 Finds optimal separating hyperplane
 Effective for high-dimensional data

7. Classification vs Clustering
Classification Clustering
Supervised learning Unsupervised learning
Predefined class labels No predefined labels
Predictive Descriptive
Requires training data No training data

8. Applications of Classification
1. Business

 Customer segmentation
 Credit risk analysis
 Market basket analysis

2. Banking and Finance

 Loan approval
 Fraud detection
 Credit scoring

3. Healthcare

 Disease diagnosis
 Patient risk classification
 Medical image analysis

4. Education

 Student performance prediction

 Dropout analysis

5. E-Commerce

 Product recommendation
 User behavior prediction
9. Advantages of Classification
 Helps in decision making
 Automates prediction tasks
 Improves business strategies
 Handles large datasets efficiently

10. Limitations of Classification

 Requires labeled data
 Model accuracy depends on data quality
 Overfitting may occur
 Some algorithms are complex and time-consuming

11. Importance of Classification in Data Mining

Classification plays a crucial role in:

 Predictive analytics
 Knowledge discovery
 Business intelligence
 Strategic planning

It helps organizations anticipate future trends, reduce risks, and maximize profits.
Statistical-Based Algorithms for
Classification in Data Mining
1. Introduction
Statistical-based classification algorithms use principles of statistics and probability
theory to assign class labels. These algorithms assume that data follows certain probabilistic
distributions and use statistical inference to make decisions.

They are widely used because:

 They provide mathematical foundation

 They handle uncertainty and noise
 They give probabilistic outputs
 They work well with large datasets

2. Characteristics of Statistical Classification Algorithms

Statistical-based classifiers generally have the following characteristics:

1. Use probability models

2. Assume data distribution (Gaussian, Bernoulli, Multinomial, etc.)
3. Estimate parameters from training data
4. Predict class with maximum probability
5. Based on Bayes’ theorem or statistical decision theory

3. Types of Statistical-Based Classification Algorithms

The major statistical-based algorithms used for classification in Data Mining are:

1. Bayesian Classification
2. Naïve Bayes Classifier
3. Bayesian Belief Networks
4. Logistic Regression
5. Linear Discriminant Analysis (LDA)
6. Quadratic Discriminant Analysis (QDA)
7. k-Nearest Neighbor (k-NN) (partly statistical)
4. Bayesian Classification
4.1 Concept

Bayesian classification is based on Bayes’ Theorem, which calculates the posterior probability
of a class given a data sample.

Bayes’ Theorem:

[
P(C_i | X) = \frac{P(X | C_i) \cdot P(C_i)}{P(X)}
]

Where:

 (P(C_i | X)) → Posterior probability of class (C_i)

 (P(X | C_i)) → Likelihood
 (P(C_i)) → Prior probability
 (P(X)) → Evidence

Classification Rule:

Assign sample X to the class with maximum posterior probability.

4.2 Advantages

 Strong mathematical foundation

 Works well with missing data
 Handles uncertainty effectively

4.3 Disadvantages

 Requires estimation of probability distributions

 Computationally expensive for complex data

5. Naïve Bayes Classifier

5.1 Introduction
Naïve Bayes is the most popular statistical classifier in data mining. It is called naïve because
it assumes conditional independence between attributes.

Independence Assumption:

[
P(X | C) = \prod_{i=1}^{n} P(x_i | C)
]

5.2 Algorithm Steps

1. Calculate prior probability (P(C)) for each class

2. Calculate likelihood (P(x_i | C)) for each attribute
3. Compute posterior probability using Bayes’ theorem
4. Assign class with highest probability

5.3 Types of Naïve Bayes

1. Gaussian Naïve Bayes – for continuous data

2. Multinomial Naïve Bayes – for text classification
3. Bernoulli Naïve Bayes – for binary features

5.4 Advantages

 Simple and fast

 Requires small training data
 Performs well in text mining (spam detection)

5.5 Disadvantages

 Independence assumption is unrealistic

 Less accurate when attributes are correlated

6. Bayesian Belief Networks (BBN)

6.1 Definition
A Bayesian Belief Network is a directed acyclic graph (DAG) that represents probabilistic
relationships among variables.

 Nodes → Random variables

 Edges → Conditional dependencies

6.2 Features

 Represents joint probability distribution

 Removes naïve independence assumption
 Uses conditional probability tables (CPT)

6.3 Advantages

 Handles complex dependencies

 Useful in medical diagnosis and expert systems

6.4 Disadvantages

 Structure learning is complex

 High computational cost

7. Logistic Regression
7.1 Introduction

Logistic regression is a statistical classification technique used for binary classification.

It models the probability of a class using the logistic (sigmoid) function.

Sigmoid Function:

[
P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X_1 + \dots + \beta_nX_n)}}
]

7.2 Characteristics
 Outputs probability between 0 and 1
 Decision boundary is linear
 No distribution assumption for predictors

7.3 Advantages

 Easy to interpret
 Efficient for large datasets

7.4 Disadvantages

 Cannot model complex non-linear relationships

8. Linear Discriminant Analysis (LDA)

8.1 Introduction

LDA is a statistical method used to find a linear combination of features that best separates
classes.

Assumptions:

 Data follows Gaussian distribution

 Equal covariance matrices for all classes

8.2 Advantages

 Works well when assumptions hold

 Reduces dimensionality

8.3 Disadvantages

 Sensitive to outliers
 Poor performance when assumptions fail

9. Quadratic Discriminant Analysis (QDA)

 Extension of LDA
 Allows different covariance matrices
 Produces quadratic decision boundaries

10. k-Nearest Neighbor (k-NN) as Statistical Classifier

 Uses distance-based probability
 Class is assigned based on majority of nearest neighbors
 Non-parametric and instance-based

11. Comparison of Statistical Classification Algorithms

Algorithm Distribution Assumption Speed Accuracy
Naïve Bayes Strong Very Fast Moderate
Bayesian Network Moderate Slow High
Logistic Regression None Fast High
LDA Gaussian Fast High
QDA Gaussian Medium High

12. Applications
 Spam filtering
 Medical diagnosis
 Credit scoring
 Fraud detection
 Text classification
 Customer segmentation

Classification Techniques in Data Mining
No ratings yet
Classification Techniques in Data Mining
32 pages
Classification Basics in Data Mining
No ratings yet
Classification Basics in Data Mining
20 pages
Data Mining Classification Techniques
No ratings yet
Data Mining Classification Techniques
50 pages
UNIT 2 DM NOTES
No ratings yet
UNIT 2 DM NOTES
33 pages
Understanding Classification in Data Mining
No ratings yet
Understanding Classification in Data Mining
7 pages
Understanding Data Classification Techniques
No ratings yet
Understanding Data Classification Techniques
90 pages
Understanding Data Mining Processes
No ratings yet
Understanding Data Mining Processes
24 pages
Understanding Data Classification Processes
No ratings yet
Understanding Data Classification Processes
15 pages
Classification Techniques in Machine Learning
No ratings yet
Classification Techniques in Machine Learning
110 pages
Data Classification Techniques Explained
No ratings yet
Data Classification Techniques Explained
57 pages
Data Mining Classification Techniques
No ratings yet
Data Mining Classification Techniques
85 pages
Data Classification in Warehousing
No ratings yet
Data Classification in Warehousing
8 pages
Classification Techniques in Data Mining
No ratings yet
Classification Techniques in Data Mining
13 pages
Classification and Prediction in Data Mining
No ratings yet
Classification and Prediction in Data Mining
9 pages
Classification and Prediction Techniques
No ratings yet
Classification and Prediction Techniques
26 pages
Classification vs Prediction in Data Analytics
No ratings yet
Classification vs Prediction in Data Analytics
55 pages
Data Mining Techniques Overview
No ratings yet
Data Mining Techniques Overview
47 pages
Data Classification Techniques Overview
No ratings yet
Data Classification Techniques Overview
51 pages
Gini Index and Decision Trees in ML
No ratings yet
Gini Index and Decision Trees in ML
78 pages
Classification and Clustering in ML
No ratings yet
Classification and Clustering in ML
16 pages
Big Data Analytics: Classification & Models
No ratings yet
Big Data Analytics: Classification & Models
27 pages
Classification Techniques in Machine Learning
No ratings yet
Classification Techniques in Machine Learning
9 pages
Data Mining: Classification & Prediction
No ratings yet
Data Mining: Classification & Prediction
43 pages
Data Mining: Predictive & Descriptive Models
No ratings yet
Data Mining: Predictive & Descriptive Models
55 pages
Classification Techniques Overview
No ratings yet
Classification Techniques Overview
42 pages
Data Mining: Classification & Prediction Techniques
No ratings yet
Data Mining: Classification & Prediction Techniques
18 pages
Data Mining Classification Overview
No ratings yet
Data Mining Classification Overview
14 pages
Classification Techniques in Data Mining
No ratings yet
Classification Techniques in Data Mining
47 pages
Data Classification Techniques Overview
No ratings yet
Data Classification Techniques Overview
14 pages
Machine Learning Overview and Techniques
No ratings yet
Machine Learning Overview and Techniques
32 pages
Classification and Prediction Challenges
No ratings yet
Classification and Prediction Challenges
39 pages
Classification and Prediction Overview
No ratings yet
Classification and Prediction Overview
20 pages
Data Mining Classification Techniques
No ratings yet
Data Mining Classification Techniques
19 pages
Data Mining Classification Techniques
No ratings yet
Data Mining Classification Techniques
28 pages
Classification and Prediction in Data Mining
No ratings yet
Classification and Prediction in Data Mining
8 pages
Data Mining and Predictive Modeling
No ratings yet
Data Mining and Predictive Modeling
71 pages
Association Rule Learning and Algorithms
No ratings yet
Association Rule Learning and Algorithms
14 pages
Understanding Data Classification Methods
No ratings yet
Understanding Data Classification Methods
23 pages
Data Mining: Predictive & Descriptive Models
No ratings yet
Data Mining: Predictive & Descriptive Models
62 pages
Data Mining-Unit-3
No ratings yet
Data Mining-Unit-3
16 pages
Data Mining: Classification & Prediction Techniques
No ratings yet
Data Mining: Classification & Prediction Techniques
21 pages
Data Mining Unit III Classification Prediction Techniques
No ratings yet
Data Mining Unit III Classification Prediction Techniques
22 pages
Understanding Classification Algorithms in Machine Learning
No ratings yet
Understanding Classification Algorithms in Machine Learning
25 pages
Classification and Regression in Data Mining
No ratings yet
Classification and Regression in Data Mining
25 pages
Classification and Prediction in Data Mining
No ratings yet
Classification and Prediction in Data Mining
30 pages
Machine Learning-Classification
No ratings yet
Machine Learning-Classification
52 pages
Understanding Classification in Machine Learning
No ratings yet
Understanding Classification in Machine Learning
61 pages
Introduction to Bayesian Classification
No ratings yet
Introduction to Bayesian Classification
19 pages
Data Mining Classification Techniques
No ratings yet
Data Mining Classification Techniques
34 pages
Data Mining: Classification & Prediction Techniques
No ratings yet
Data Mining: Classification & Prediction Techniques
91 pages
Understanding Classification in DWDM
No ratings yet
Understanding Classification in DWDM
23 pages
Data Mining: Classification Techniques
No ratings yet
Data Mining: Classification Techniques
22 pages
Classification Algorithms Overview
No ratings yet
Classification Algorithms Overview
23 pages
Classification and Prediction in Data Mining
No ratings yet
Classification and Prediction in Data Mining
71 pages
Data Mining Classification Techniques
No ratings yet
Data Mining Classification Techniques
61 pages
Classification vs Clustering Explained
No ratings yet
Classification vs Clustering Explained
162 pages
DM 5th - Docs
No ratings yet
DM 5th - Docs
15 pages
BugBuster: AI for Automated Debugging
No ratings yet
BugBuster: AI for Automated Debugging
6 pages
Cybersecurity Strategies for CAVs
No ratings yet
Cybersecurity Strategies for CAVs
43 pages
Learning To Compress Prompts With Gist Tokens: Jesse Mu, Xiang Lisa Li, Noah Goodman
No ratings yet
Learning To Compress Prompts With Gist Tokens: Jesse Mu, Xiang Lisa Li, Noah Goodman
26 pages
Camera-Based Tracking System Thesis
No ratings yet
Camera-Based Tracking System Thesis
55 pages
MLP for MNIST Digit Classification
No ratings yet
MLP for MNIST Digit Classification
48 pages
Machine Learning Challenges and Solutions
No ratings yet
Machine Learning Challenges and Solutions
2 pages
Research Design Essentials in Data Analysis
No ratings yet
Research Design Essentials in Data Analysis
6 pages
AIML Lab Course Overview 2023
No ratings yet
AIML Lab Course Overview 2023
42 pages
Irjet V9i1124
No ratings yet
Irjet V9i1124
5 pages
Introduction to Machine Learning Course
No ratings yet
Introduction to Machine Learning Course
6 pages
Sentiment Analysis: Techniques and Trends
No ratings yet
Sentiment Analysis: Techniques and Trends
4 pages
AI Fundamentals for Beginners Course
No ratings yet
AI Fundamentals for Beginners Course
2 pages
Deep Learning for Food Calorie Measurement
No ratings yet
Deep Learning for Food Calorie Measurement
7 pages
DESIGN AND IMPLEMEMTATION OF AN ONLINE
No ratings yet
DESIGN AND IMPLEMEMTATION OF AN ONLINE
13 pages
Quantum Mechanics and Bayesian Machines
No ratings yet
Quantum Mechanics and Bayesian Machines
194 pages
UNIT 1 DIGITAL NOTES GENAI
No ratings yet
UNIT 1 DIGITAL NOTES GENAI
61 pages
AI Task Scheduling in Fog Computing
No ratings yet
AI Task Scheduling in Fog Computing
9 pages
Clustering Problems: Case Studies Guide
No ratings yet
Clustering Problems: Case Studies Guide
4 pages
Free Vibration Analysis of MNRR Composites
No ratings yet
Free Vibration Analysis of MNRR Composites
22 pages
Deep Learning MCQs on CNNs and RNNs
100% (1)
Deep Learning MCQs on CNNs and RNNs
6 pages
Deep Learning for Drug Discovery Screening
No ratings yet
Deep Learning for Drug Discovery Screening
20 pages
Machine Learning Concepts Explained
No ratings yet
Machine Learning Concepts Explained
7 pages
Analyzing Phishing Evasion Techniques
No ratings yet
Analyzing Phishing Evasion Techniques
14 pages
Survey on Sentiment Analysis Challenges
No ratings yet
Survey on Sentiment Analysis Challenges
6 pages
Understanding Artificial Intelligence Basics
No ratings yet
Understanding Artificial Intelligence Basics
13 pages
Deploying ML Models with Flask
No ratings yet
Deploying ML Models with Flask
10 pages
Energies 16 04025
No ratings yet
Energies 16 04025
31 pages
Comparing FastText and Word2Vec in Sentiment Analysis
No ratings yet
Comparing FastText and Word2Vec in Sentiment Analysis
5 pages
AI Applications in Precision Medicine
No ratings yet
AI Applications in Precision Medicine
57 pages
Understanding Random Forest Algorithms
No ratings yet
Understanding Random Forest Algorithms
13 pages

Data Mining Classification Techniques

Uploaded by

Data Mining Classification Techniques

Uploaded by

Classification in Data Mining – Introduction

1. Introduction to Data Mining

 The data objects belong to predefined classes

3. Role of Classification in Data Warehousing

 Support decision making

4. Supervised Learning Nature of Classification

 The class labels are known in advance

Age Income Student Class

Here, Class is the target attribute.

5. Steps Involved in Classification

Data is collected from databases, data warehouses, or external sources.

 A portion of data is used to build the classification model

Performance is evaluated using:

 Uses tree-like structures

 Based on Bayes’ Theorem

 Uses IF-THEN rules

4. k-Nearest Neighbor (k-NN)

 Classifies based on the nearest data points

5. Artificial Neural Networks

 Inspired by the human brain

6. Support Vector Machines (SVM)

2. Banking and Finance

 Student performance prediction

10. Limitations of Classification

11. Importance of Classification in Data Mining

They are widely used because:

 They provide mathematical foundation

2. Characteristics of Statistical Classification Algorithms

1. Use probability models

3. Types of Statistical-Based Classification Algorithms

 (P(C_i | X)) → Posterior probability of class (C_i)

Assign sample X to the class with maximum posterior probability.

 Strong mathematical foundation

 Requires estimation of probability distributions

5. Naïve Bayes Classifier

5.2 Algorithm Steps

1. Calculate prior probability (P(C)) for each class

5.3 Types of Naïve Bayes

1. Gaussian Naïve Bayes – for continuous data

 Simple and fast

 Independence assumption is unrealistic

6. Bayesian Belief Networks (BBN)

 Nodes → Random variables

 Represents joint probability distribution

 Handles complex dependencies

 Structure learning is complex

Logistic regression is a statistical classification technique used for binary classification.

It models the probability of a class using the logistic (sigmoid) function.

 Cannot model complex non-linear relationships

8. Linear Discriminant Analysis (LDA)

 Data follows Gaussian distribution

 Works well when assumptions hold

9. Quadratic Discriminant Analysis (QDA)

10. k-Nearest Neighbor (k-NN) as Statistical Classifier

11. Comparison of Statistical Classification Algorithms

You might also like