02-28 21:03 门头沟学院数据分析师发布于广东

关注

数据仓库数据质量监控全解析（企业生产系统案例）

一、为什么要重视数据质量监控？

数据仓库汇集多源系统海量数据，经ETL为下游提供支持。但源系统不稳定、ETL异常或人为失误可致数据质量问题。若不及时处理，问题将不断扩大，影响业务决策。

示例：

订单ID重复会使收入统计翻倍。
数据同步失败将导致分析链条缺失关键环节。
电话号码格式混乱等字段值不规范会使下游应用报错。

数据质量是数据仓库的生命线，监控和处理是保障生命线畅通的关键。接下来从多维度剖析监控与优化。

二、数据质量的核心维度

在数据仓库领域，业界从以下维度衡量“高质量数据”：

准确性（Accuracy）：数据应真实反映业务场景，不存在错误或异常值。
完整性（Completeness）：数据要齐全，无记录或字段缺失。
及时性（Timeliness）：数据需按时到达，延迟不应影响业务使用。
唯一性（Uniqueness）：数据不应有重复记录，关键标识应唯一。
规范性（Conformity）：数据要符合预定义格式和标准。
一致性（Consistency）：数据在逻辑上应合理，跨表或跨系统要匹配。

这些维度如同体检指标，每项达标数据才算“健康”。下面针对各维度结合监控方法与代码实例讲解实践。

三、数据质量监控的实战方法

3.1每日同步表数据：行数非0校验

场景与意义：表每日从源系统同步数据，行数为0可能是同步任务失败或源系统无数据，需及时发现。
监控思路目标：确保表每日记录数大于0。方法：编写脚本或用调度工具定时检查表行数。动作：行数为0则触发告警通知相关人员排查。
实践示例

SELECT COUNT(*) AS row_count 
FROM daily_sales 
WHERE dt = '2023-09-11';

Python脚本示例

import psycopg2

def check_table_row_count():
    conn = psycopg2.connect(dbname="warehouse", user="user", password="pass", host="localhost")
    cur = conn.cursor()
    cur.execute("SELECT COUNT(*) FROM daily_sales WHERE dt = '2023-09-11'")
    row_count = cur.fetchone()[0]
    if row_count == 0:
        print("警报！daily_sales表今天没数据！")
        # 这里可以加邮件或Slack通知
    else:
        print(f"今天数据正常，行数：{row_count}")
    cur.close()
    conn.close()

check_table_row_count()

频率：可设为每天凌晨检查前一天数据。

范围：不限于单个表，可批量检查关键表。

异常处理：若源系统当天无数据（如节假日），需额外逻辑区分正常与异常。

3.2业务主键唯一性校验

场景与意义：业务主键标识唯一记录，主键重复会导致计算重复甚至数据体系崩溃。
监控思路目标：确保表主键字段无重复值。方法：用SQL查询分组统计找出重复记录。动作：发现重复记录则记录问题并通知修复。
实践示例（Java代码）

import org.dbunit.database.IDatabaseConnection;
import org.dbunit.dataset.ITable;
import org.testng.Assert;

public class TableCaseIdRepeat {
    public void checkCaseIdRepeat() throws Exception {
        String tbName = "tb_case_details";
        String dt = "2023-09-11";
        
        // 创建数据库连接（生产和测试环境）
        IDatabaseConnection prodConn = getDataBaseConnection("db_prod");
        IDatabaseConnection uatConn = getDataBaseConnection("db_uat");

        // 检查生产环境表
        testTableRowCount(prodConn, tbName, dt);
        // 检查测试环境表
        testTableRowCount(uatConn, tbName, dt);
    }

    private void testTableRowCount(IDatabaseConnection conn, String tbName, String dt) throws Exception {
        String sql = "SELECT case_id, COUNT(id) AS count_num " +
                     "FROM " + tbName + " " +
                     "WHERE dt='" + dt + "' AND del_flag = 0 " +
                     "GROUP BY case_id HAVING count_num >= 2";
        ITable table = conn.createQueryTable("check_repeat", sql);
        int rowCount = table.getRowCount();
        
        if (rowCount > 0) {
            System.out.println("发现重复！重复记录数：" + rowCount);
            Assert.assertTrue(false); // 测试失败，触发告警
        } else {
            System.out.println("主键唯一性校验通过！");
        }
    }
}

代码解读

SQL逻辑：通过GROUP BY case_id和HAVING count_num >= 2找出重复case_id。
环境对比：同时检查生产和UAT环境确保一致。
断言机制：用Assert.assertTrue (false)标记问题，便于集成到自动化测试流程。

优化点

表大时可加LIMIT或分区查询避免性能瓶颈。

3.3每日指标波动率监测

场景与意义：数据每日变化，指标异常波动可能表示数据有问题，监测波动率可早发现“异动”。

监控思路

目标：捕捉关键指标异常波动。
方法：计算指标日环比变化率，设阈值判断异常。
动作：波动超标则记录详情并报警。
实践示例（Java代码）

import org.dbunit.database.IDatabaseConnection;
import org.dbunit.dataset.ITable;

public class TableVolatilityChecker {
    public void testVolatility() throws Exception {
        String dt = "2024-03-20";
        String preDt = "2024-03-19";
        String tbName = "ads_tb_aggre";
        
        IDatabaseConnection conn = getDataBaseConnection();
        ITable table = conn.createQueryTable(tbName, "SELECT * FROM " + tbName + " WHERE dt='" + dt + "'");

        for (String column : getNumericColumns(table)) {
            Object todaySum = getDailyIndexSum(conn, column, tbName, dt);
            Object yesterdaySum = getDailyIndexSum(conn, column, tbName, preDt);
            
            double volatility = Math.abs(((Double)todaySum - (Double)yesterdaySum) / (Double)yesterdaySum);
            if (volatility > 0.5) { // 阈值设为50%
                System.out.println(column + "波动率超标：" + volatility);
            }
        }
        conn.close();
    }

    private Object getDailyIndexSum(IDatabaseConnection conn, String column, String tbName, String dt) throws Exception {
        String sql = "SELECT SUM(" + column + ") FROM " + tbName + " WHERE dt = '" + dt + "'";
        ITable result = conn.createQueryTable(tbName, sql);
        return result.getValue(0, column);
    }
}

代码解析

动态列处理：自动识别数值列逐一计算波动率。波动率公式：用(今天 - 昨天) / 昨天计算变化率取绝对值。阈值灵活：设为50%可根据业务调整。

扩展点

可视化：保存波动率用图表展示趋势。
多指标：除总数外还可监控平均值、中位数等。
异常分类：区分“合理波动”（如促销日）和“异常波动”。

四、数据质量问题的处理与修复

4.1处理流程概述

完整处理流程包括：

问题发现：通过监控系统识别问题。
问题定位：分析问题来源，确定是数据源、ETL流程还是数据仓库本身导致。
问题修复：根据定位结果采取针对性修复措施。
验证与监控：修复后验证数据质量并持续监控防止问题再次发生。

4.2问题定位方法

4.2.1数据溯源

追踪数据从源系统到数据仓库的流动路径找出问题发生点。

实践示例：订单金额异常时，先检查源系统原始数据

SELECT 
    order_id, order_amount
FROM 
    source_order_table
WHERE 
    order_date = '2023-09-11';

然后对比数据仓库数据确定问题源于源系统还是ETL过程。

4.2.2日志分析

分析ETL任务日志查找错误信息或异常提示。

实践示例：查看Apache NiFi日志文件

tail -f /var/log/nifi/nifi-app.log | grep "ERROR"

日志中的错误代码或警告可帮助定位ETL流程中的问题环节。

4.2.3数据比对

将数据仓库数据与源系统或其他参考数据比对，识别不一致之处。

实践示例：

SELECT 
    (SELECT COUNT(*) FROM source_order_table WHERE order_date = '2023-09-11') AS source_count,
    (SELECT COUNT(*) FROM warehouse_order_table WHERE dt = '2023-09-11') AS warehouse_count;

数量不一致可能表明ETL过程存在数据丢失或重复。

4.3问题修复方法

4.3.1数据清洗

源数据错误可能需清洗或与业务团队协作修复。

实践示例：订单金额为负值时，用SQL语句修正

UPDATE 
    warehouse_order_table
SET 
    order_amount = ABS(order_amount)
WHERE 
    dt = '2023-09-11' AND order_amount < 0;

4.3.2 ETL流程优化

ETL流程错误导致问题需调整ETL脚本或配置。

实践示例：JOIN操作错误致数据重复，修正SQL查询

SELECT 
    a.order_id, a.order_amount, b.customer_name
FROM 
    order_table a
LEFT JOIN 
    customer_table b
ON 
    a.customer_id = b.customer_id  -- 确保JOIN条件正确
WHERE 
    a.dt = '2023-09-11';

4.3.3数据重载

某些问题需重新加载数据。

实践示例：某天数据加载失败，重新运行ETL任务

bash etl_script.sh --date 2023-09-11

4.4验证与持续监控

修复后需验证效果并持续监控确保问题不再出现。

实践示例：

SELECT 
    COUNT(*) AS negative_count
FROM 
    warehouse_order_table
WHERE 
    dt = '2023-09-11' AND order_amount < 0;

查询结果为0说明问题已成功修复。

五、数据质量监控的自动化与集成

5.1自动化的价值

自动化监控可提高效率、减少人工干预，确保问题及时发现和处理。

5.2集成到数据管道

将监控任务嵌入数据管道，在数据流动各环节检查。

实践示例：用Apache Airflow定义数据质量监控任务

from airflow import DAG
from airflow.operators.postgres_operator import PostgresOperator
from datetime import datetime

dag = DAG('data_quality_monitor', start_date=datetime(2023, 9, 11), schedule_interval='@daily')

# 定义检查任务
check_order_amount = PostgresOperator(
    task_id='check_order_amount',
    postgres_conn_id='warehouse',
    sql="""
    SELECT COUNT(*) FROM warehouse_order_table 
    WHERE dt = '{{ ds }}' AND order_amount < 0
    """,
    dag=dag
)

该任务每天运行检查订单金额是否异常。

5.3告警机制

及时通知相关人员是关键，可通过邮件或Slack发送告警。

实践示例：在Airflow中添加告警任务

from airflow.operators.email_operator import EmailOperator

alert_task = EmailOperator(
    task_id='send_alert',
    to='data_team@example.com',
    subject='数据质量问题警报',
    html_content='发现订单金额为负值，请及时处理。',
    dag=dag
)

# 设置任务依赖
check_order_amount >> alert_task

若检查发现问题将触发邮件通知。

六、数据质量报告与可视化

6.1报告的作用

数据质量报告帮助团队了解数据质量状况，识别问题并跟踪修复进度。

6.2生成报告

可用BI工具（如Tableau）或脚本生成报告。

实践示例（Python生成HTML报告）

import pandas as pd
import matplotlib.pyplot as plt

# 示例数据
data = {'date': ['2023-09-11', '2023-09-12'], 'negative_orders': [5, 0]}
df = pd.DataFrame(data)

# 生成图表
plt.plot(df['date'], df['negative_orders'])
plt.savefig('negative_orders.png')

# 生成HTML报告
with open('data_quality_report.html', 'w') as f:
    f.write('<h1>数据质量报告</h1>')
    f.write('<img src="negative_orders.png" alt="Negative Orders">')

该脚本生成含图表报告展示数据质量趋势。

大数据从入门到精通-最全面试题文章被收录于专栏

17年+码农经历了很多次面试，多次作为面试官面试别人，多次大数据面试和面试别人，深知哪些面试题是会被经常问到。在多家企业从0到1开发过离线数仓实时数仓等多个大型项目，详细介绍项目架构等企业内部秘不外传的资料，介绍踩过的坑和开发干货，分享多个拿来即用的大数据ETL工具，让小白用户快速入门并精通，指导如何入职后快速上手。计划更新内容100篇以上，包括一些企业内部秘不外宣的干货，欢迎订阅！