Statistical vs. Machine Learning Insights

This document outlines an assignment on data mining consisting of 5 parts: 1. Analyze and compare student exam results from 2020 and 2021 using statistical analysis and plots. 2. Download a dry bean dataset and report on attribute types, compute summaries for continuous attributes, means, standard deviations, and generate plots. 3. Download and explore the Weka data mining tool using the Iris dataset, reporting basic statistics and scatter plot matrix. 4. Compute dissimilarity matrices using Euclidean and Manhattan distances for 4 points in 3D space and plot the relationship between the measures. 5. Compute a dissimilarity matrix for sample data with different attribute types, and suggest the most similar friend to "Ali"

Uploaded by

Suleman Butt

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

81 views1 page

Statistical vs. Machine Learning Insights

Uploaded by

Suleman Butt

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Data Mining Assignment 1: Data Understanding

Submission: Submit the assignment hardcopy in the second Data Mining class of the week (23 or 24 Nov. 2023).

1. (20 points)
Apply your basic data mining knowledge to compare students’ performance in the midterm exam results of a
course for two years, i.e., 2020 and 2021 (result_20_21.xls). You should provide your comments and comparison
by using the statistical description of the data (e.g., mean, median, mode, variance, 5-number summary, etc.)
and plots (boxplot, histogram, etc.). (2 to 3 pages report required)

2. (20 points)
Download the DryBean dataset from UCI Machine Learning Repository. Read the datasets’ descriptions and report
the following (use any language or tool of your choice to solve this problem):

a. The types of the attributes (continuous [interval, ratio], categorical [nominal, ordinal]). Also identify which
attribute(s) are input attribute(s) and which are class attribute(s) (if any).
b. Compute the five-number summary for any two continuous attributes. Compute the mode for categorical
attributes.
c. Compute the mean and standard deviation for the two continuous attributes.
d. Generate the quantile (percentile) plots for two attributes in each dataset.
e. Generate the histogram or distribution plot for each of the two attributes selected in (b).
f. Generate the scatter plots for the two attributes selected in (d).
3. (10 points)

Download and install Weka, a data mining tool, on your systems. Explore the tool and the datasets provided
with the installation. Submit a report containing basic statistics and plots (e.g., scatter plot matrix) for the Iris
dataset using Weka tool. (2 to 3 pages report required)

The following links can be useful.

[Link]

4. (30 points) Handwritten solution is required.

a. Given these four points in a 3-D space, compute and show the dissimilarity matrix. Use
Euclidian distance as the dissimilarity measure. A(4,5,5), B(5,3,3), C(1,1,0), D(4,4,1)
b. Repeat part (a) using Manhattan distance as dissimilarity measure.
c. Draw a scatter plot for the distances obtained in parts (a) and (b) to identify the relationship
between the two dissimilarity measures.
5. (20 points) Handwritten solution is required.
Name Fever Cough Height Weight Profession City
Ali N Y 65 80 Student Lahore
Bilal Y Y 55 65 Student Karachi
Khan N N 70 75 Teacher Lahore
Ahmed Y N 60 55 Doctor Islamabad
Given the data above, compute the dissimilarity matrix. Fever and Cough are asymmetric binary, Height and
weight are numeric, Profession and City are nominal attributes. Who should be suggested as a friend to Ali
based on your computed dissimilarity matrix?

Data Mining Exam Review Guide
100% (1)
Data Mining Exam Review Guide
6 pages
Data Engineering Interview Prep Guide
No ratings yet
Data Engineering Interview Prep Guide
7 pages
Data Mining Course Overview
100% (1)
Data Mining Course Overview
40 pages
Correlation and Regression Analysis Guide
No ratings yet
Correlation and Regression Analysis Guide
47 pages
Data Mining Techniques Overview
100% (1)
Data Mining Techniques Overview
11 pages
Generative Models in Deep Learning
No ratings yet
Generative Models in Deep Learning
21 pages
Mining Frequent Patterns and Associations
No ratings yet
Mining Frequent Patterns and Associations
20 pages
Feature Scaling Techniques in ML
No ratings yet
Feature Scaling Techniques in ML
27 pages
Proximity Measures for Mixed Attributes
No ratings yet
Proximity Measures for Mixed Attributes
34 pages
Big Data Analytics Exam Insights
No ratings yet
Big Data Analytics Exam Insights
4 pages
EDA and Data Science Process Overview
No ratings yet
EDA and Data Science Process Overview
11 pages
Statistical Descriptions in Data Mining
No ratings yet
Statistical Descriptions in Data Mining
5 pages
Business Intelligence Unit Test Paper
No ratings yet
Business Intelligence Unit Test Paper
2 pages
Apriori Algorithm and Association Rules
No ratings yet
Apriori Algorithm and Association Rules
32 pages
Information Extraction and Retrieval Syllabus
No ratings yet
Information Extraction and Retrieval Syllabus
9 pages
Model Selection in Data Mining
No ratings yet
Model Selection in Data Mining
27 pages
Solutions To Chapter 1 An Introduction To Data Mining: Discovering Knowledge in Data 2 Edition
No ratings yet
Solutions To Chapter 1 An Introduction To Data Mining: Discovering Knowledge in Data 2 Edition
15 pages
OOP Practical Exercises for C++
No ratings yet
OOP Practical Exercises for C++
5 pages
Data Mining Fundamentals Explained
No ratings yet
Data Mining Fundamentals Explained
29 pages
Survey of Data Mining Techniques
No ratings yet
Survey of Data Mining Techniques
4 pages
39-Q Learning Numerical
No ratings yet
39-Q Learning Numerical
13 pages
KTU Machine Learning Exam Questions
No ratings yet
KTU Machine Learning Exam Questions
3 pages
Data Mining and BI Syllabus GTU
No ratings yet
Data Mining and BI Syllabus GTU
4 pages
Business Intelligence and Data Warehousing
No ratings yet
Business Intelligence and Data Warehousing
60 pages
Introduction to Data Science Course Outline
No ratings yet
Introduction to Data Science Course Outline
4 pages
Probability and Statistics Overview
No ratings yet
Probability and Statistics Overview
10 pages
Perceptron Trick in Logistic Regression
No ratings yet
Perceptron Trick in Logistic Regression
44 pages
Machine Learning Techniques Exam 2024
No ratings yet
Machine Learning Techniques Exam 2024
2 pages
Data Categorization in Data Analytics
No ratings yet
Data Categorization in Data Analytics
41 pages
VTU 3rd & 4th Sem CSE Syllabus
0% (1)
VTU 3rd & 4th Sem CSE Syllabus
31 pages
Software Engineering Midterm Solutions
No ratings yet
Software Engineering Midterm Solutions
5 pages
Unsupervised Learning: Clustering Methods
No ratings yet
Unsupervised Learning: Clustering Methods
11 pages
Data Mining: Intro & Advanced Topics
No ratings yet
Data Mining: Intro & Advanced Topics
368 pages
CS725: Machine Learning Foundations
100% (1)
CS725: Machine Learning Foundations
119 pages
Data Warehousing and Mining Overview
No ratings yet
Data Warehousing and Mining Overview
142 pages
SQL Lab Programs Overview
No ratings yet
SQL Lab Programs Overview
11 pages
AI Data Science Assessment Answer Key
100% (1)
AI Data Science Assessment Answer Key
17 pages
K-Nearest Neighbors: Instructions
No ratings yet
K-Nearest Neighbors: Instructions
4 pages
MS Office Programs and Assignments Guide
No ratings yet
MS Office Programs and Assignments Guide
7 pages
Database Design and SQL Normalization Guide
No ratings yet
Database Design and SQL Normalization Guide
5 pages
Stochastic Processes in Time Series Analysis
No ratings yet
Stochastic Processes in Time Series Analysis
15 pages
Credit Risk Assessment Lab Manual
No ratings yet
Credit Risk Assessment Lab Manual
34 pages
Data Warehousing & Mining Syllabus 2025
No ratings yet
Data Warehousing & Mining Syllabus 2025
5 pages
Data Science Course Overview and Syllabus
No ratings yet
Data Science Course Overview and Syllabus
25 pages
Data Mining Workbook Exercises
No ratings yet
Data Mining Workbook Exercises
18 pages
Data Warehousing Syllabus for AI&DS
No ratings yet
Data Warehousing Syllabus for AI&DS
10 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
23 pages
Data Mining Course Overview and Topics
No ratings yet
Data Mining Course Overview and Topics
27 pages
Linear Classifiers and Decision Boundaries
No ratings yet
Linear Classifiers and Decision Boundaries
13 pages
Programming for Problem Solving Course
100% (1)
Programming for Problem Solving Course
177 pages
Nonlinear Classifiers and Perceptrons
No ratings yet
Nonlinear Classifiers and Perceptrons
15 pages
Least Squares Methods in Linear Classifiers
No ratings yet
Least Squares Methods in Linear Classifiers
8 pages
Apriori Algorithm Example Problems
No ratings yet
Apriori Algorithm Example Problems
8 pages
SVHN Dataset for Multi-Digit Recognition
No ratings yet
SVHN Dataset for Multi-Digit Recognition
2 pages
Classification and Prediction in Data Mining
No ratings yet
Classification and Prediction in Data Mining
20 pages
Data Engineering Lab Programs Overview
No ratings yet
Data Engineering Lab Programs Overview
2 pages
Dissimilarity Measures for Data Analysis
No ratings yet
Dissimilarity Measures for Data Analysis
4 pages
Data Mining and Warehousing Assignment
No ratings yet
Data Mining and Warehousing Assignment
4 pages
Data Mining Practice Questions Unit 1
No ratings yet
Data Mining Practice Questions Unit 1
3 pages
Dissimilarity Matrices for Dataset Analysis
No ratings yet
Dissimilarity Matrices for Dataset Analysis
13 pages
HT644 VHF Marine Radio Programming Guide
No ratings yet
HT644 VHF Marine Radio Programming Guide
6 pages
Electrical Installation Design Guide
No ratings yet
Electrical Installation Design Guide
7 pages
DPA Pumps Parts List and References
No ratings yet
DPA Pumps Parts List and References
31 pages
IoT-Optimized Smart Waste Management
No ratings yet
IoT-Optimized Smart Waste Management
6 pages
Oracle Payables MCQs Overview
No ratings yet
Oracle Payables MCQs Overview
3 pages
June 2024 Invoice for Epic Ltd Services
No ratings yet
June 2024 Invoice for Epic Ltd Services
3 pages
Bayesian Neural Networks Explained
No ratings yet
Bayesian Neural Networks Explained
47 pages
Game Center Application Startup Log
No ratings yet
Game Center Application Startup Log
19 pages
Casio AQ-S800W Operation Guide
No ratings yet
Casio AQ-S800W Operation Guide
3 pages
Identity V2 Client Initialization Log
No ratings yet
Identity V2 Client Initialization Log
370 pages
Exam Management System Requirements Analysis
No ratings yet
Exam Management System Requirements Analysis
4 pages
Airtel Fiber Bill Summary for Hiren Chhaya
No ratings yet
Airtel Fiber Bill Summary for Hiren Chhaya
4 pages
Simphony EMC Configuration Guide
No ratings yet
Simphony EMC Configuration Guide
22 pages
Real-Time Embedded Systems Programming
100% (1)
Real-Time Embedded Systems Programming
40 pages
SP60/SPC60 Mixer Parts Catalog
No ratings yet
SP60/SPC60 Mixer Parts Catalog
23 pages
Search Engine Optimization and Marketing A Recipe For Success in Digital Marketing 1st Edition by Subhankar Das ISBN 036755478X 9780367554781 Ebook Simplified Edition
100% (3)
Search Engine Optimization and Marketing A Recipe For Success in Digital Marketing 1st Edition by Subhankar Das ISBN 036755478X 9780367554781 Ebook Simplified Edition
60 pages
Class 11 Computer Science Syllabus
No ratings yet
Class 11 Computer Science Syllabus
2 pages
Java Classes Interaction Example
No ratings yet
Java Classes Interaction Example
1 page
TQM as a Tool for Land Claim Service Improvement
No ratings yet
TQM as a Tool for Land Claim Service Improvement
189 pages
Rohit Jadhav: ETL Specialist Profile
No ratings yet
Rohit Jadhav: ETL Specialist Profile
1 page
Regulation and Statistics in Drug Development
No ratings yet
Regulation and Statistics in Drug Development
21 pages
Storage Tank Design and Insulation Insights
No ratings yet
Storage Tank Design and Insulation Insights
4 pages
C Programming Basics: Variables & Keywords
No ratings yet
C Programming Basics: Variables & Keywords
9 pages
VPN Unlimited Redeem Code Guide
No ratings yet
VPN Unlimited Redeem Code Guide
23 pages
Talk English The Secret To Speak English Like A Native in 6 Months For Busy People, Learn Spoken English From The Success (PDFDrive)
No ratings yet
Talk English The Secret To Speak English Like A Native in 6 Months For Busy People, Learn Spoken English From The Success (PDFDrive)
60 pages
Energy Forms and Conversions Worksheet
No ratings yet
Energy Forms and Conversions Worksheet
4 pages
MT8121XE3 HMI Specifications Guide
No ratings yet
MT8121XE3 HMI Specifications Guide
2 pages
Teenagers' Media Consumption Trends
No ratings yet
Teenagers' Media Consumption Trends
3 pages
Travel Photography Tips & Tutorials
100% (1)
Travel Photography Tips & Tutorials
132 pages
Hidden Developmental State in U.S. Economy
No ratings yet
Hidden Developmental State in U.S. Economy
38 pages

Statistical vs. Machine Learning Insights

Uploaded by

Statistical vs. Machine Learning Insights

Uploaded by

Data Mining Assignment 1: Data Understanding

The following links can be useful.

4. (30 points) Handwritten solution is required.

You might also like