0% found this document useful (0 votes)

355 views2 pages

PG Diploma in Data Science Curriculum

The document outlines the curriculum for a Post Graduate Diploma in Data Science program over 4 semesters. The first two semesters cover the basics of statistics, data structures, algorithms, R and Python programming, data warehousing, mining and big data. Semester 3 includes courses on NoSQL databases, data visualization, machine learning with R and Python. Semester 4 covers emerging trends like deep learning, AI, business intelligence and a capstone project. Students are required to complete submissions and a final project to demonstrate their learning.

Uploaded by

yash borkar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

355 views2 pages

PG Diploma in Data Science Curriculum

Uploaded by

yash borkar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

POST GRADUATE DIPLOMA IN DATA SCIENCE (PGDDS)

PROGRAMME CURRICULUM

Semester - I Semester II

Basics of Statistics Big data with Data Warehousing and Data Mining
1. Basics of Statistics 1. Fundamentals of Data Warehouse
2. Data Collection and Measurement 2. Architecture of Data Warehouse
3. Data Presentation 3. Dimensional Modelling
4. Data Processing and Analysis 4. ETL and OLAP
5. Measures of Central Tendency (Mean, 5. Introduction to Data Mining
Median and Mode) 6. Data Mining Techniques
6. Measures of Dispersion 7. Applications of Data Mining
7. Correlation
8. Introduction to Big Data
Introduction to Data Science 9. Hadoop Ecosystem
1. Basics of Data 10. Querying big data with Hive
2. Basics of Data Science
3. Big Data, Datafication & its impact on Data Advanced Statistics
Science 1. Sampling and Sampling Technique
4. Data Science Pipeline, EDA & Data 2. Probability
Preparation 3. Normal Distribution
5. Data Scientist Toolbox, Applications & Case 4. Linear Regression
Studies 5. Multiple Linear Regression
6. Random Variables
Data Structures and Algorithms
1. Programming Fundamentals
Python Programming
2. Control Flow
1. Introduction to Python
3. Arrays and Pointers
2. Variables, expressions and statements
4. Functions
6. Stacks and Queues 3. Control Structures, Data structures- Arrays
7. Linked Lists and Linked lists, Queues
8. Trees 4. Functions
9. Searching Algorithms 5. Conditionals, recursion and iteration
10. Sorting Algorithms 6. Strings
11. Graphs
7. Lists and Tuples
Introduction to R Programming 8. Dictionaries
1. Introduction to R 9. Object Oriented Programming
2. Data Types and Data Structures 11. Files and Error Handling
3. Loops and Functions in R 12. Testing, Debugging and Profiling
4. Mathematics in R 13. Handling data with Python
5. Graphs 14. Python Graphical User Interface
6. String Manipulation and Input/output Development
7. Object Oriented Programming – I Submission I
8. Object Oriented Programming – II In Semester II students are required to submit a
9. Debugging and Condition Handling submission as per guidelines given by SCDL.
10. Introduction to Parallel Computing in R

1|Page
POST GRADUATE DIPLOMA IN DATA SCIENCE (PGDDS)
PROGRAMME CURRICULUM

Semester III
Ethical and Legal Issues in Data Science
NoSQL Databases 1. What are Ethics?
1. Introduction to NoSQL
2. Some Ethical concern of Data Science
2. Basics of NoSQL
3. History, Concept of Informed Consent
3. Replication and Sharding
4. Data Ownership
4. Key-Value Databases
5. Privacy, Anonymity, Data Validity
5. Document Databases
6. Algorithmic Fairness
6. Column-Oriented Databases
7. Societal Consequences
7. Graph Databases
8. Code of Ethics
8. Advanced NoSQL

Data Visualisation Semester IV

1. Introduction to Data Visualisation Emerging Trends in Data Science
2. Visualisation of Numerical Data 1. Big Data
3. Visualisation of Non-numerical Data 2. Apache Spark and Scala
4. Common Visualisation Idioms 3. Deep Learning
5. Visualisation of Spatial Data, Networks and 4. Artificial Intelligence
5. Business Intelligence
Trees
6. Natural language processing
6. Data Reduction
7. Data Analytics
7. Introduction to Tableau 8. Web Analytics
8. Data Visualisation with SPSS 9. Case Study

Machine Learning with R and Python Submission II

1. Basics of Machine Learning In Semester IV students are required to submit a
2. Supervised Machine Learning submission as per guidelines given by SCDL.
3. Unsupervised Learning
Project
4. Regression Algorithms Student should choose a technical or Techno-
5. Clustering Models business topic of his/her interest and is required
6. R Markdown, Knitr, Rpubs to develop the Project based on the provided
7. ggplot2 guidelines.
8. Computation with Python – NumPy, SciPy
9. Pandas
10. Aggregating and Analysing Data with dplyr
11. Data Visualisation in Python – Matplotlib
12. Introduction to scikit-learn
13. Web Scraping in Python – Beautiful Soup
14. Introduction to (Py) Spark

2|Page

Common questions

Deep learning is distinguished from traditional machine learning by its capability to automatically learn representations from raw data through layered neural networks. Unlike traditional machine learning, which often requires manual feature extraction, deep learning models, such as convolutional neural networks (CNNs), can learn from raw data like images and text without extensive preprocessing. This ability makes deep learning particularly useful in data science for tasks requiring high-dimensional data processing, such as image recognition and natural language processing, where traditional methods might falter .

SQL query integration with big data tools like Hive facilitates advanced analytics by providing a familiar, powerful querying language that can handle complex queries across large datasets stored in a distributed system. Hive translates SQL-like queries into MapReduce jobs executed across Hadoop clusters, enabling efficient processing of big data. This integration allows data scientists to leverage their existing SQL skills to perform complex analytics tasks, such as statistical analysis and data transformations, without handling the intricacies of distributed computing .

Python facilitates data handling and manipulation through its comprehensive libraries such as Pandas and NumPy. Pandas provides data structures like DataFrames that are designed for quick data manipulation tasks, allowing easy data cleanup and transformation, which are essential steps in data analysis. NumPy provides powerful multi-dimensional array objects and a suite of functions for performing operations like statistical calculations and linear algebra. These libraries together make Python a powerful tool for data analysis by enabling efficient handling of complex data structures .

The societal consequences of data science practices include privacy invasions, algorithmic bias, and the erosion of anonymity, leading to unequal societal impacts. These can be mitigated by implementing robust ethical guidelines and regulations that prioritize privacy, transparency, and fairness. Data scientists must engage in responsible data governance, inclusive algorithm design, and maintain transparency in model decision-making processes to ensure societal benefits are distributed fairly without exacerbating existing inequalities .

Algorithmic fairness is critically important in data science due to its impact on societal values and the equitable distribution of benefits and risks of data-driven decisions. As data science increasingly affects areas like healthcare, finance, and criminal justice, ensuring algorithms do not inadvertently perpetuate bias or discrimination is essential. Ethical concerns arise when biased data or flawed model objectives lead to unfair outcomes, which can exacerbate existing social inequalities. Addressing algorithmic fairness involves designing and deploying models that are transparent, inclusive, and continuously assessed for biased behavior .

Measures of central tendency, which include mean, median, and mode, are central to data processing and analysis as they provide a summary statistic that represents the center point of a dataset. In data science, these measures are utilized to derive insights about the data's distribution and the typical case within a data set. Utilizing these alongside data processing techniques allows data scientists to understand patterns and outliers, making these measures fundamental in exploratory data analysis (EDA).

Data visualization techniques enhance decision-making in business intelligence by transforming complex data sets into clear, visual formats such as graphs, charts, and maps. This simplification allows decision-makers to easily discern patterns, trends, and outliers, which are crucial for strategic planning and operational efficiency. By using tools like Tableau or SPSS for visual representation, businesses can quickly interpret data-driven insights and make informed decisions to gain competitive advantages .

The Hadoop ecosystem plays a crucial role in managing big data by providing a scalable and flexible framework for storing and processing vast amounts of data across distributed systems. Its distributed file system enables high throughput access to application data, while its ecosystem components, such as MapReduce and HDFS, support data mining techniques by allowing the processing of large datasets efficiently. For example, querying big data with Hive integrates seamlessly with these processes by providing a SQL-like interface to handle data mining tasks .

The data science pipeline integrates exploratory data analysis (EDA) by positioning it as a preliminary step that informs the subsequent phases of modeling and evaluation. EDA is critical in a data science pipeline because it involves initial data processing and transformation, which helps in understanding data patterns and formulating hypotheses that guide model building. This integration is significant as it ensures models are built on a solid understanding of data, reducing the risk of biased or inaccurate models .

The advantages of using object-oriented programming (OOP) in R for data science include modularity, reusability, and scalability of code. OOP allows data scientists to organize code into objects that encapsulate data and associated operations, facilitating easier maintenance and modification. This approach also supports code reusability across different data analysis tasks, improving efficiency and reducing redundancy. Furthermore, OOP in R enhances scalability by allowing data scientists to build complex data structures tailored for specific tasks, promoting efficient data handling and analysis .

PG Diploma in Data Science Curriculum
No ratings yet
PG Diploma in Data Science Curriculum
3 pages
Data Science & Statistics Diploma Curriculum
No ratings yet
Data Science & Statistics Diploma Curriculum
3 pages
Data Science and Machine Learning Overview
No ratings yet
Data Science and Machine Learning Overview
21 pages
Mathematical Foundations for Data Science
No ratings yet
Mathematical Foundations for Data Science
15 pages
Data Science Immersive Course Syllabus
No ratings yet
Data Science Immersive Course Syllabus
4 pages
Data Science Immersive Course Overview
No ratings yet
Data Science Immersive Course Overview
4 pages
Distributed Databases and Data Science
No ratings yet
Distributed Databases and Data Science
6 pages
MSc Data Science Course Overview
No ratings yet
MSc Data Science Course Overview
10 pages
Data Science & Machine Learning Course
No ratings yet
Data Science & Machine Learning Course
34 pages
Comprehensive Data Science Course Overview
No ratings yet
Comprehensive Data Science Course Overview
2 pages
Data Science Course Syllabus Overview
No ratings yet
Data Science Course Syllabus Overview
9 pages
Foundation of Data Science Syllabus
No ratings yet
Foundation of Data Science Syllabus
8 pages
Data Science Syllabus for Sem 4
No ratings yet
Data Science Syllabus for Sem 4
27 pages
MCA II Year Course Structure Overview
No ratings yet
MCA II Year Course Structure Overview
9 pages
Data Science Minor Degree Courses
No ratings yet
Data Science Minor Degree Courses
12 pages
Data Analytics Curriculum Overview
No ratings yet
Data Analytics Curriculum Overview
18 pages
OCS353 Data Science Fundamentals Syllabus
No ratings yet
OCS353 Data Science Fundamentals Syllabus
2 pages
Data Science and R Programming Overview
No ratings yet
Data Science and R Programming Overview
19 pages
OCS353 Data Science Fundamentals Syllabus
100% (4)
OCS353 Data Science Fundamentals Syllabus
121 pages
PG Diploma in Data Analytics Syllabus
No ratings yet
PG Diploma in Data Analytics Syllabus
15 pages
Data Science & ML Program Outline
No ratings yet
Data Science & ML Program Outline
19 pages
Foundations of Data Science Syllabus
No ratings yet
Foundations of Data Science Syllabus
3 pages
Data Science and Visualization Course
No ratings yet
Data Science and Visualization Course
3 pages
Python for Data Science Course Overview
No ratings yet
Python for Data Science Course Overview
19 pages
B.Tech Data Science Course Structure 2025-26
No ratings yet
B.Tech Data Science Course Structure 2025-26
39 pages
Data Analytics and Machine Learning Course
No ratings yet
Data Analytics and Machine Learning Course
4 pages
NDS Data Practitioner Degree Curriculum
No ratings yet
NDS Data Practitioner Degree Curriculum
10 pages
Python for Data Science Syllabus GTU
No ratings yet
Python for Data Science Syllabus GTU
4 pages
Data Science & ML Training Program
No ratings yet
Data Science & ML Training Program
25 pages
M. Tech in Data Science Program Overview
No ratings yet
M. Tech in Data Science Program Overview
24 pages
Data Science Course Overview
No ratings yet
Data Science Course Overview
37 pages
M.Tech in Data Science Syllabus Overview
No ratings yet
M.Tech in Data Science Syllabus Overview
12 pages
Data Science with Python Course BCS404
No ratings yet
Data Science with Python Course BCS404
3 pages
Cloudsek Community Course Offerings
No ratings yet
Cloudsek Community Course Offerings
95 pages
Data Science and Visualization Course
No ratings yet
Data Science and Visualization Course
3 pages
Data Science Course Curriculum Overview
No ratings yet
Data Science Course Curriculum Overview
4 pages
Relational Database Management Course
No ratings yet
Relational Database Management Course
10 pages
Data Science Micro Diploma Curriculum
No ratings yet
Data Science Micro Diploma Curriculum
7 pages
PGP in Data Science Overview
0% (1)
PGP in Data Science Overview
10 pages
Data Science with Python Course Overview
No ratings yet
Data Science with Python Course Overview
116 pages
ACDS & AI Diploma Course Overview
No ratings yet
ACDS & AI Diploma Course Overview
19 pages
Data Science Course Schedule 2023
No ratings yet
Data Science Course Schedule 2023
1 page
Comprehensive Guide to Data Science
No ratings yet
Comprehensive Guide to Data Science
2 pages
Data Science Course Overview and Labs
No ratings yet
Data Science Course Overview and Labs
4 pages
Data Visualization with Python 3
No ratings yet
Data Visualization with Python 3
3 pages
Data Science Executive PG Curriculum
No ratings yet
Data Science Executive PG Curriculum
12 pages
Data Science Course Syllabus 2022-2024
No ratings yet
Data Science Course Syllabus 2022-2024
9 pages
IIT Madras Data Science Course Overview
No ratings yet
IIT Madras Data Science Course Overview
20 pages
M.Tech Data Science Curriculum Overview
No ratings yet
M.Tech Data Science Curriculum Overview
16 pages
Data Science Course Overview: Python
No ratings yet
Data Science Course Overview: Python
172 pages
Program Calendar PGDDS March
No ratings yet
Program Calendar PGDDS March
2 pages
Postgraduate Data Science & AI Program
No ratings yet
Postgraduate Data Science & AI Program
30 pages
Specilization in Data Science
No ratings yet
Specilization in Data Science
8 pages
CSE 355 Data Science Lab Manual
No ratings yet
CSE 355 Data Science Lab Manual
20 pages
Data Science Roadmap: Key Resources
No ratings yet
Data Science Roadmap: Key Resources
7 pages
Data Science Training Overview
No ratings yet
Data Science Training Overview
10 pages
Data Science Course Overview 2022-2026
No ratings yet
Data Science Course Overview 2022-2026
89 pages
SQL Bits 2025 Data Analytics Agenda
No ratings yet
SQL Bits 2025 Data Analytics Agenda
1 page
Express.js Overview and Features
No ratings yet
Express.js Overview and Features
12 pages
Advanced Operating System Concepts Explained
No ratings yet
Advanced Operating System Concepts Explained
1 page
PPL Question Bank: Compiler & Memory Concepts
No ratings yet
PPL Question Bank: Compiler & Memory Concepts
2 pages
MongoDB Schema Design for Movie Database
No ratings yet
MongoDB Schema Design for Movie Database
5 pages
Shankaracharya - Jivan Charitra
No ratings yet
Shankaracharya - Jivan Charitra
181 pages
Overview of Database Management Systems
No ratings yet
Overview of Database Management Systems
10 pages
Database Management Systems Overview
No ratings yet
Database Management Systems Overview
74 pages
PhonePe SDE 2 Interview Insights
No ratings yet
PhonePe SDE 2 Interview Insights
12 pages
Introduction to NoSQL Systems
No ratings yet
Introduction to NoSQL Systems
52 pages
Beginner's Guide to Database Management
No ratings yet
Beginner's Guide to Database Management
4 pages
Cloud Solutions for Cymbal Superstore
No ratings yet
Cloud Solutions for Cymbal Superstore
50 pages
Advanced SQL Techniques and Concepts
No ratings yet
Advanced SQL Techniques and Concepts
7 pages
Associate Software Engineer Role in Bengaluru
No ratings yet
Associate Software Engineer Role in Bengaluru
1 page
Overview of Distributed Database Systems
No ratings yet
Overview of Distributed Database Systems
26 pages
Python Programming Essentials
No ratings yet
Python Programming Essentials
36 pages
Test Bank Modern Database Management 13th Edition Textbook and Resources
100% (4)
Test Bank Modern Database Management 13th Edition Textbook and Resources
240 pages
Evolution of Database Models
No ratings yet
Evolution of Database Models
5 pages
Internship Report at Inncircles Technologies
No ratings yet
Internship Report at Inncircles Technologies
48 pages
Data Analytics Overview and Lifecycle
No ratings yet
Data Analytics Overview and Lifecycle
8 pages
Introduction to Data Engineering Overview
No ratings yet
Introduction to Data Engineering Overview
28 pages
KnightMotives Automotive Case Study Overview
No ratings yet
KnightMotives Automotive Case Study Overview
41 pages
Foundations of Data Science Course Details
No ratings yet
Foundations of Data Science Course Details
54 pages
WWW Oracle Com Database What Is Database
No ratings yet
WWW Oracle Com Database What Is Database
3 pages
Scalable SQL: How Do Large-Scale Sites and Applications Remain SQL-based?
No ratings yet
Scalable SQL: How Do Large-Scale Sites and Applications Remain SQL-based?
8 pages
Visual Guide to NoSQL Systems
No ratings yet
Visual Guide to NoSQL Systems
10 pages
Udacity Data Architect Nanodegree Program
No ratings yet
Udacity Data Architect Nanodegree Program
12 pages
Master Data Architect Course: SQL & NoSQL
No ratings yet
Master Data Architect Course: SQL & NoSQL
13 pages
Key Population Terms Explained
No ratings yet
Key Population Terms Explained
7 pages
SQL Database Interview Q&A Guide
No ratings yet
SQL Database Interview Q&A Guide
42 pages
Full Stack Developer Profile: Saurav Singh
No ratings yet
Full Stack Developer Profile: Saurav Singh
1 page
Trainee Associate - Technology Role
No ratings yet
Trainee Associate - Technology Role
2 pages
Comprehensive IT Stack Training Program
100% (1)
Comprehensive IT Stack Training Program
20 pages
Design of An Energy Supply and Demand Forecasting
No ratings yet
Design of An Energy Supply and Demand Forecasting
11 pages
Levels of Virtualization and Benefits
No ratings yet
Levels of Virtualization and Benefits
13 pages
Data Science & AI Master Program Overview
No ratings yet
Data Science & AI Master Program Overview
52 pages

PG Diploma in Data Science Curriculum

Uploaded by

PG Diploma in Data Science Curriculum

Uploaded by

POST GRADUATE DIPLOMA IN DATA SCIENCE (PGDDS)

Data Visualisation Semester IV

Machine Learning with R and Python Submission II

Common questions

Explain how deep learning is distinguished from traditional machine learning approaches, particularly in terms of its application in data science.

In what ways does SQL query integration with big data tools like Hive facilitate advanced analytics?

In what ways does Python facilitate handling and manipulating data structures for data analysis?

What are the potential societal consequences of data science practices, and how can these be mitigated?

Discuss the significance of algorithmic fairness in the context of ethical concerns within data science.

How do the measures of central tendency complement data processing and analysis in the context of data science?

How do data visualisation techniques enhance decision-making processes in business intelligence?

What role does the Hadoop ecosystem play in managing big data, and how is it integrated with data mining techniques?

How does the data science pipeline integrate exploratory data analysis (EDA), and why is this integration significant?

What are the advantages of using object-oriented programming (OOP) in R for data science tasks?

You might also like