0% found this document useful (0 votes)

11 views10 pages

Week 3 Report

The Week 3 Report outlines a comprehensive framework for designing and implementing data integrity metrics essential for reliable business analytics. It identifies common data integrity challenges, proposes specific metrics for accuracy, completeness, consistency, timeliness, uniqueness, validity, and integrity constraint adherence, and emphasizes the integration of these metrics into business analytics platforms. The report also discusses the importance of ongoing monitoring, stakeholder engagement, and the strategic value of maintaining high data quality to support informed decision-making.

Uploaded by

Shreya Gupta

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views10 pages

Week 3 Report

Uploaded by

Shreya Gupta

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

Week 3 Report: Data Integrity Metrics Design

and Implementation Plan

1. Introduction
Data integrity is a foundational component in business analytics, serving as the bedrock for
generating reliable, actionable insights. It ensures that information remains accurate,
consistent, timely, and complete across the entire data lifecycle, from initial creation and
collection to transformation, storage, and analysis. The reliability of business decisions
heavily depends on the integrity of the underlying data. Any compromise in data integrity can
lead to flawed analytics, misguided strategies, and ultimately, financial and reputational
losses for organizations.
In today’s digital economy, organizations collect data from numerous sources, including
customer interactions, transactional systems, and third-party APIs. With this increasing
volume and variety, maintaining data integrity has become both more challenging and more
critical. To address this, organizations must implement robust mechanisms to continuously
measure and monitor key aspects of data quality.
This document proposes a comprehensive set of data integrity metrics tailored for business
analytics applications. It includes clear definitions, measurement techniques, and pseudocode
implementations using Python. The framework presented aligns with industry best practices
and incorporates foundational concepts learned from the Business Analytics with Python
course. By operationalizing these metrics, businesses can not only detect, and correct data
issues more efficiently but also embed data integrity as a core component of their analytics
strategy.

2. Methodology for Metric Selection

2.1 Review of Common Data Integrity Challenges:
Data integrity issues manifest in various forms across different datasets and systems. Key
challenges include:
• Data Duplication: Repeated or redundant entries in databases inflate counts and
mislead analytics. Duplicate customer records, for instance, may result in incorrect
targeting and waste marketing budgets.
• Missing or Incomplete Records: Blank or null fields reduce dataset completeness and
compromise the accuracy of insights. Missing customer addresses or transaction dates
can obstruct segmentation and trend analysis.
• Inconsistencies Across Systems: When data for the same entity differs across
integrated platforms, it becomes unreliable. For example, customer profiles in CRM
may not match those in billing systems, leading to broken processes.
• Outdated Information: Information that is no longer current (e.g., inactive users
marked as active) misguides planning and forecasting. Regular data refresh is often
neglected, making historical data misleading.
• Invalid Entries: Entries violating predefined schema constraints (e.g., alphabetic
characters in age fields, invalid dates) break validation logic and hinder automation
pipelines.

2.2 Best Practices Considered:

In designing the metric framework, several best practices have been incorporated:
• Adoption of SMART principles to ensure that each metric is Specific, Measurable,
Achievable, Relevant, and Time-bound, making them actionable and scalable.
• Alignment with global data quality frameworks such as ISO 8000 and DAMA-
DMBOK, ensuring the metrics meet industry standards.
• Emphasis on automation compatibility, enabling seamless integration of these metrics
into data pipelines using Python libraries and frameworks like pandas, NumPy, Great
Expectations, and SQL.

2.3 Criteria for Metric Selection:

To ensure the relevance and effectiveness of the selected metrics, the following criteria were
used:
• Business Relevance: Each metric must address a critical aspect of data that directly
impacts business outcomes.
• Ease of Computation: The metric should be computable with common tools,
preferably using automated scripts or existing ETL workflows.
• Actionability: Metrics must provide actionable insight, guiding users toward
remediation steps or quality improvement interventions.
• Scalability: The metric should perform reliably on large datasets and support
expansion across multiple departments or data domains.
3. Proposed Data Integrity Metrics and
Measurement Techniques
Metric Name Definition Measurement Technique

Compare dataset values with a trusted

Degree to which data reflects
Accuracy reference dataset using record-wise
the true value.
matching.

Proportion of required fields Count non-null entries per field / total

Completeness
that are non-null. expected entries.

Uniformity of data across Check for conflicting values across

Consistency
records and systems. joined tables or across time.

Time delta between last update

Timeliness How up to date the data is.
timestamp and current date.

Degree to which each record is

Uniqueness Count of duplicate records.
distinct.

Conformance to specified Apply regex/type checks or domain-

Validity
formats, types, or rules. specific business rules.

Measures whether referential

Integrity Constraint Join key fields across tables and
and domain constraints are
Adherence validate referential constraints.
upheld.

4. Pseudocode for Metric Computation

# data_integrity_week3_final.py

import pandas as pd

from datetime import datetime

# Load Cleaned Dataset

df = pd.read_csv("Superstore_cleaned.csv") # Use cleaned dataset from Week 2

reference_data = df.copy()

reference_data['value'] = df['Sales'] # Simulate reference column

print("\nWEEK 3: DATA INTEGRITY METRICS")

# ----- Accuracy -----

accurate = 0
for i, record in df.iterrows():

if record['Sales'] == reference_data.loc[i, 'value']:

accurate += 1

accuracy_score = accurate / len(df)

print(f"Accuracy Score: {accuracy_score:.2f}")

# ----- Completeness -----

completeness = {col: df[col].notnull().sum() / len(df) for col in df.columns}

print("Completeness:")

for col, val in completeness.items():

print(f"{col}: {val:.2f}")

# ----- Consistency (with grouped Order ID) -----

source1_grouped = df.groupby('Order ID').first()

source2_grouped = reference_data.groupby('Order ID').first()

inconsistent = 0

common_ids = source1_grouped.index.intersection(source2_grouped.index)

for idx in common_ids:

sales_val = source1_grouped.loc[idx, 'Sales']

ref_val = source2_grouped.loc[idx, 'value']

if sales_val != ref_val:

inconsistent += 1

consistency_score = 1 - (inconsistent / len(common_ids))

print(f"Consistency Score: {consistency_score:.2f}")

# ----- Timeliness -----

today = datetime.today()

threshold = 30 # days

timely = 0

for _, row in df.iterrows():

if (today - pd.to_datetime(row['Order Date'])).days < threshold:

timely += 1

timeliness_score = timely / len(df)

print(f"Timeliness Score: {timeliness_score:.2f}")

# ----- Uniqueness -----

duplicates = df.duplicated().sum()

uniqueness_score = 1 - (duplicates / len(df))

print(f"Uniqueness Score: {uniqueness_score:.2f}")

# ----- Validity -----

# Simple rules

invalid = 0

rules = {

'Discount': lambda x: isinstance(x, (int, float)) and 0 <= x <= 0.8,

'Profit': lambda x: isinstance(x, (int, float))

for col, rule in rules.items():

invalid += sum(not rule(val) for val in df[col])

validity_score = 1 - (invalid / len(df))

print(f"Validity Score: {validity_score:.2f}")

Output:

5. Integration into Business Analytics Platforms

To ensure that data quality insights effectively drive business decisions, it is crucial to
integrate these processes into existing business analytics platforms. Dashboards play a vital
role by visualizing key performance indicators (KPIs) such as completeness, accuracy, and
consistency, using tools like Power BI, Tableau, or Streamlit, allowing stakeholders to
quickly assess the health of their data and make informed decisions. In parallel, ETL (Extract,
Transform, Load) pipelines should incorporate robust validation checks, whether
implemented through orchestration tools like Apache Airflow or directly embedded in
Pandas-based data processing scripts. This integration ensures that data quality is maintained
throughout the data lifecycle and prevents flawed data from entering analytics systems.
Additionally, organizations should establish alert mechanisms that automatically trigger
threshold-based warnings whenever metric scores fall below predefined Service Level
Agreements (SLAs), enabling proactive intervention to resolve issues before they impact
business processes. Lastly, creating feedback loops is essential, whereby data quality scores
and insights are regularly shared with data stewards, analysts, and business users. This
collaborative approach empowers teams to take corrective actions swiftly, promotes
accountability, and fosters a culture focused on continuous improvement in data quality
management. By embedding these practices into business analytics workflows, organizations
can enhance trust in their data and drive more reliable and strategic decision-making.
• Dashboards: Display KPIs using platforms like Power BI, Tableau, or Streamlit.
• ETL Pipelines: Integrate validation checks in Airflow or Pandas-based scripts.
• Alerts: Trigger threshold-based warnings when metric scores fall below SLAs.
• Feedback Loops: Share data quality scores with data stewards or business users for
action.

6. Business Decision Support

• Enhance Executive Confidence:
o High-quality data metrics increase trust in reports and dashboards, ensuring
executives and stakeholders can confidently rely on analytics for strategic
decisions.
o Greater transparency about data quality fosters a data-driven culture across
leadership teams.
• Highlight Data Issues for Targeted Action:
o Metrics help identify specific data problems by region, product line, or sales
channel.
o This enables localized interventions, allowing businesses to address issues
precisely where they occur and avoid blanket solutions.
• Improve Forecasting Accuracy:
o Clean, consistent data feeds predictive models, leading to more accurate
forecasts and reliable planning.
o Reduces errors in predictions caused by missing values, inconsistencies, or
outliers.
• Optimize Resource Allocation:
o Data quality insights guide where to allocate resources and budget for
maximum impact.
o Helps prioritize remediation efforts on data domains or systems that directly
affect key business processes and outcomes.
• Support Proactive Risk Management:
o By continuously monitoring data quality, organizations can identify potential
risks early and mitigate them before they escalate.
o Prevents costly business disruptions caused by undetected data flaws.
• Drive Strategic Value:
o Embedding data quality into decision-making processes transforms data from
a passive asset into an active driver of business success.
o Supports agility, operational efficiency, and long-term competitive advantage.

7. Risks and Pitfalls

• Overhead and Performance Impact:
o Implementing extensive data quality checks can introduce significant
computational overhead, potentially slowing down ETL pipelines or data
processing jobs.
o High-frequency validation on large datasets may consume excessive
resources, leading to increased infrastructure costs and reduced system
efficiency.
• False Positives in Data Validation:
o Strict or overly rigid data quality rules can mistakenly flag legitimate data as
problematic, causing unnecessary investigations or corrective actions.
o False positives erode trust in data quality monitoring systems and can waste
valuable time and resources for data teams.
• Metric Obsolescence and Misalignment:
o Data quality metrics and validation rules can become outdated if not regularly
reviewed and updated to reflect changing business logic, processes, or
regulatory requirements.
o This misalignment may result in metrics that no longer capture meaningful
issues, causing gaps in monitoring and leaving new types of data issues
undetected.

Mitigation Strategies:
• Leverage Sampling Techniques:
o Instead of running exhaustive checks on the entire dataset, apply data quality
assessments to representative samples.
o Sampling balances accuracy with efficiency, ensuring potential issues are
detected without overburdening processing pipelines.
• Schedule Regular Rule Updates:
o Review and refresh data validation rules and quality metrics at least quarterly
to ensure alignment with evolving business needs and data structures.
o Regular updates help maintain the relevance and effectiveness of monitoring
efforts.
• Engage Domain Experts for Validation:
o Involve subject matter experts from business units, data stewardship teams,
and analytics groups in designing and validating data quality rules.
o Expert input ensures that rules reflect real-world business logic and reduces
the likelihood of false positives or irrelevant checks.
• Implement Tiered Monitoring:
o Prioritize critical data fields and processes for rigorous checks, while applying
lighter validation to lower-risk data areas.
o This tiered approach optimizes resource allocation and minimizes performance
impacts.
• Establish Feedback Loops:
o Create channels for continuous feedback from users and stakeholders on the
usefulness and accuracy of data quality alerts.
o Feedback helps refine metrics and processes, improving overall trust and
effectiveness in monitoring efforts.

8. Conclusion
Data integrity metrics are fundamental for achieving scalable, reliable, and trustworthy
analytics in any modern business environment. High-quality data underpins every aspect of
informed decision-making, from operational efficiency to strategic planning. This report
presents a practical and actionable framework for assessing and monitoring critical data
quality dimensions, including accuracy, completeness, consistency, and timeliness. The
proposed approach is not only measurable but also Python-ready, leveraging powerful tools
and libraries to automate data profiling, anomaly detection, and validation processes.
By integrating these metrics directly into business analytics workflows, organizations can
proactively identify and address data quality issues before they escalate into significant
business risks. This integration supports the production of accurate reports and dashboards,
improves the performance of predictive models, and builds greater confidence among
stakeholders in data-driven insights. Additionally, ongoing monitoring and iterative
improvements help organizations adapt to changing business needs, regulatory requirements,
and technological advancements.
Establishing a solid data quality strategy lays the foundation for long-term data governance,
ensuring that data remains a trusted asset that fuels innovation, drives competitive advantage,
and aligns with organizational goals. Ultimately, investing in data quality is not merely a
technical necessity—it is a strategic imperative that enables businesses to thrive in a data-
centric world.

Data Quality
No ratings yet
Data Quality
6 pages
Report Week 1
No ratings yet
Report Week 1
14 pages
Ass
No ratings yet
Ass
4 pages
A Guide To Improving Data Integrity and Adoption
No ratings yet
A Guide To Improving Data Integrity and Adoption
39 pages
Data Quality - 079 Moumon
No ratings yet
Data Quality - 079 Moumon
8 pages
Question Data Engineering
No ratings yet
Question Data Engineering
32 pages
Assessing Data Quality Dimensions
No ratings yet
Assessing Data Quality Dimensions
9 pages
MIS Data Quality Challenges
No ratings yet
MIS Data Quality Challenges
10 pages
Comprehensive Data Quality Validation in Modern Pipelines
No ratings yet
Comprehensive Data Quality Validation in Modern Pipelines
25 pages
Data Quality Essentials for Analysts
No ratings yet
Data Quality Essentials for Analysts
6 pages
DM Unit 3
No ratings yet
DM Unit 3
15 pages
INS3063 - Final Project Description - Rubik
No ratings yet
INS3063 - Final Project Description - Rubik
6 pages
Lect 6
No ratings yet
Lect 6
36 pages
Data Quality Essentials Guide
100% (1)
Data Quality Essentials Guide
12 pages
EDA Report Week2
No ratings yet
EDA Report Week2
15 pages
Intro. Data Science 3
No ratings yet
Intro. Data Science 3
38 pages
Importance of Data Cleaning
No ratings yet
Importance of Data Cleaning
35 pages
All Questions
No ratings yet
All Questions
7 pages
Chap.3 Data Preprocessing
No ratings yet
Chap.3 Data Preprocessing
6 pages
Predictive Modeling
No ratings yet
Predictive Modeling
27 pages
IDQ Functionality Imp
No ratings yet
IDQ Functionality Imp
7 pages
DW&DM Innovative Assignment I QP
No ratings yet
DW&DM Innovative Assignment I QP
11 pages
The Data Warehouse Quality Audit Session Overview
No ratings yet
The Data Warehouse Quality Audit Session Overview
5 pages
Data Analytics
No ratings yet
Data Analytics
13 pages
Data Quality
No ratings yet
Data Quality
13 pages
Advanced Analytics Complete Notes March 24
No ratings yet
Advanced Analytics Complete Notes March 24
114 pages
Unit 2
No ratings yet
Unit 2
22 pages
Infa WP Dqmetrics Dloshin 6741 Web
No ratings yet
Infa WP Dqmetrics Dloshin 6741 Web
22 pages
Module 7. Data Quality
No ratings yet
Module 7. Data Quality
42 pages
Report Shawari
No ratings yet
Report Shawari
10 pages
KPI Analysis and Insights From Operational Data
No ratings yet
KPI Analysis and Insights From Operational Data
11 pages
C1000-177 STU SGC1000177v2
No ratings yet
C1000-177 STU SGC1000177v2
9 pages
Data Preparation
No ratings yet
Data Preparation
19 pages
Milestone06 Daniel Oluwaluyi 29.08.2024
No ratings yet
Milestone06 Daniel Oluwaluyi 29.08.2024
3 pages
Unit 5 (13 MARKS)
No ratings yet
Unit 5 (13 MARKS)
24 pages
Data Accuracy
No ratings yet
Data Accuracy
2 pages
What's Inside An Analyst's Brain - Part 02
No ratings yet
What's Inside An Analyst's Brain - Part 02
16 pages
How Should Data Preparation Be Done For An Analytics Project
No ratings yet
How Should Data Preparation Be Done For An Analytics Project
30 pages
Atlan Guide Business Case DataOps
100% (1)
Atlan Guide Business Case DataOps
12 pages
DW Mod 5
No ratings yet
DW Mod 5
56 pages
Unit-I Da
No ratings yet
Unit-I Da
42 pages
SQL Interview Questions!!
No ratings yet
SQL Interview Questions!!
15 pages
Hemanth SDP
No ratings yet
Hemanth SDP
13 pages
Document
No ratings yet
Document
29 pages
Name - Data - Driven Decisions For Business
100% (1)
Name - Data - Driven Decisions For Business
23 pages
C1 Week 4 Quiz PDF
100% (1)
C1 Week 4 Quiz PDF
13 pages
Andromeda
No ratings yet
Andromeda
6 pages
Guide Real Talk A Guide To Understanding Data Quality and Data Observability
No ratings yet
Guide Real Talk A Guide To Understanding Data Quality and Data Observability
36 pages
Datapreparation
No ratings yet
Datapreparation
59 pages
Data Quality
No ratings yet
Data Quality
2 pages
Vendor Evaluation Metrics
No ratings yet
Vendor Evaluation Metrics
14 pages
As You Delve Into The World of Data Analytics
No ratings yet
As You Delve Into The World of Data Analytics
10 pages
DataQuality Submit
No ratings yet
DataQuality Submit
11 pages
Data Warehouse
No ratings yet
Data Warehouse
14 pages
Data Warehouse
No ratings yet
Data Warehouse
11 pages
L 4 and 5-Data Cleaning DS-Sa
No ratings yet
L 4 and 5-Data Cleaning DS-Sa
44 pages
Assignment 2 BusinessAnalyticsForManagers
No ratings yet
Assignment 2 BusinessAnalyticsForManagers
10 pages
Text
No ratings yet
Text
3 pages
Data Warehousing and Business Intelligence DS-3003 Assignment # 1
No ratings yet
Data Warehousing and Business Intelligence DS-3003 Assignment # 1
6 pages
Data Mining & Warehousing Notes
No ratings yet
Data Mining & Warehousing Notes
42 pages
Linked Data Vocabularies Guide
No ratings yet
Linked Data Vocabularies Guide
11 pages
Data Science S (2 Files Merged)
No ratings yet
Data Science S (2 Files Merged)
30 pages
Levels of Abstraction in Database Management System
No ratings yet
Levels of Abstraction in Database Management System
22 pages
DBMS P Shits
No ratings yet
DBMS P Shits
41 pages
Lab Assignment 4 - 7
No ratings yet
Lab Assignment 4 - 7
7 pages
Maximo76 Cognos11 Install Guide
No ratings yet
Maximo76 Cognos11 Install Guide
27 pages
Lab 01 AutomobileManagement Using LINQ and WinForms
No ratings yet
Lab 01 AutomobileManagement Using LINQ and WinForms
19 pages
Lab06 ManageUsersByMVC2 JSTL
No ratings yet
Lab06 ManageUsersByMVC2 JSTL
19 pages
Uml Diagrams: Use Case Diagram
No ratings yet
Uml Diagrams: Use Case Diagram
9 pages
Program Data Science Trainee - Gihon ACN
No ratings yet
Program Data Science Trainee - Gihon ACN
2 pages
Database Management Course
No ratings yet
Database Management Course
5 pages
Be Sharp With C# (Chapter 14, Database Access)
100% (2)
Be Sharp With C# (Chapter 14, Database Access)
35 pages
Foundations of Business Intelligence (BI) From Concept To Implementation
No ratings yet
Foundations of Business Intelligence (BI) From Concept To Implementation
75 pages
Client
No ratings yet
Client
1,736 pages
EN WBNR SlideDeck SREVM24013
No ratings yet
EN WBNR SlideDeck SREVM24013
141 pages
11 Laboratory Exercise 1
No ratings yet
11 Laboratory Exercise 1
2 pages
Bda Index
No ratings yet
Bda Index
3 pages
Oracle: Database, Cloud & Apps Leader
No ratings yet
Oracle: Database, Cloud & Apps Leader
3 pages
B-62 Jaydip Pawar DWM EXP2
No ratings yet
B-62 Jaydip Pawar DWM EXP2
8 pages
Database Design Essentials
No ratings yet
Database Design Essentials
20 pages
DDB Cse
No ratings yet
DDB Cse
6 pages
Naming Convention
No ratings yet
Naming Convention
17 pages
Relational Algebra: Operators Expression Trees
No ratings yet
Relational Algebra: Operators Expression Trees
28 pages
General Linear Lists
No ratings yet
General Linear Lists
7 pages
Dweller Naming Systems
No ratings yet
Dweller Naming Systems
1 page
DST Lecture 03 - Multidimensional Data Analysis PDF
No ratings yet
DST Lecture 03 - Multidimensional Data Analysis PDF
20 pages
Project Grading
No ratings yet
Project Grading
3 pages
RDBMS-Day3: - Basic DDL Statements - DML Statements - Aggregate Functions
No ratings yet
RDBMS-Day3: - Basic DDL Statements - DML Statements - Aggregate Functions
61 pages
Tuples Relational Calculus Guide
No ratings yet
Tuples Relational Calculus Guide
14 pages

Week 3 Report

Uploaded by

Week 3 Report

Uploaded by

Week 3 Report: Data Integrity Metrics Design

and Implementation Plan

2. Methodology for Metric Selection

2.2 Best Practices Considered:

2.3 Criteria for Metric Selection:

Compare dataset values with a trusted

Proportion of required fields Count non-null entries per field / total

Uniformity of data across Check for conflicting values across

Time delta between last update

Degree to which each record is

Conformance to specified Apply regex/type checks or domain-

Measures whether referential

4. Pseudocode for Metric Computation

from datetime import datetime

# Load Cleaned Dataset

df = pd.read_csv("Superstore_cleaned.csv") # Use cleaned dataset from Week 2

reference_data['value'] = df['Sales'] # Simulate reference column

print("\nWEEK 3: DATA INTEGRITY METRICS")

# ----- Accuracy -----

if record['Sales'] == reference_data.loc[i, 'value']:

accuracy_score = accurate / len(df)

print(f"Accuracy Score: {accuracy_score:.2f}")

# ----- Completeness -----

completeness = {col: df[col].notnull().sum() / len(df) for col in df.columns}

for col, val in completeness.items():

# ----- Consistency (with grouped Order ID) -----

source1_grouped = df.groupby('Order ID').first()

source2_grouped = reference_data.groupby('Order ID').first()

for idx in common_ids:

sales_val = source1_grouped.loc[idx, 'Sales']

ref_val = source2_grouped.loc[idx, 'value']

consistency_score = 1 - (inconsistent / len(common_ids))

print(f"Consistency Score: {consistency_score:.2f}")

# ----- Timeliness -----

for _, row in df.iterrows():

if (today - pd.to_datetime(row['Order Date'])).days < threshold:

timeliness_score = timely / len(df)

print(f"Timeliness Score: {timeliness_score:.2f}")

uniqueness_score = 1 - (duplicates / len(df))

print(f"Uniqueness Score: {uniqueness_score:.2f}")

# ----- Validity -----

'Discount': lambda x: isinstance(x, (int, float)) and 0 <= x <= 0.8,

'Profit': lambda x: isinstance(x, (int, float))

for col, rule in rules.items():

invalid += sum(not rule(val) for val in df[col])

validity_score = 1 - (invalid / len(df))

print(f"Validity Score: {validity_score:.2f}")

5. Integration into Business Analytics Platforms

6. Business Decision Support

7. Risks and Pitfalls

You might also like