🐬数据治理30题

数据治理初级实战题（10题）

1. 什么是数据治理？请用一句话概括其核心目标。

参考答案要点：
数据治理是对数据资产进行全生命周期管理的体系，核心目标是提升数据质量、确保数据安全合规、促进数据可信与高效使用，从而支持业务决策和价值创造。

2. 某公司发现多个部门对“客户”定义不一致（销售部按手机号算，客服部按邮箱算），这属于数据治理哪个领域的问题？应如何解决？

参考答案要点：
属于 主数据管理（MDM） 和 数据标准 问题。
解决方式：

建立统一的“客户”业务定义（如：以身份证+手机号为唯一标识）；
在数据目录中发布该标准；
在ETL或dbt模型中强制对齐逻辑；
指定数据管家（Steward）负责维护。

3. 请列举数据治理中常见的三个角色，并说明其职责。

参考答案要点：

数据所有者（Data Owner）：通常是业务负责人，对数据的准确性、使用合规性负最终责任。
数据管家（Data Steward）：执行日常治理任务，如定义标准、处理质量问题、维护元数据。
数据工程师/分析师：在开发中落实治理策略（如写质量测试、标注敏感字段）。

4. 为什么要在数据开发早期（如建模阶段）就引入数据治理？请举一个具体好处。

参考答案要点：
体现“治理左移”原则。
好处示例：在dbt模型中提前定义“订单金额不能为空”，比上线后才发现问题节省90%修复成本。

5. 你如何判断一张数据表是否“可信”？请列出3个可量化的指标。

参考答案要点：

数据质量规则通过率 ≥ 99%（如非空、唯一性）；
最近7天有更新（ freshness ）；
已在数据目录中注册，并有明确负责人和业务描述。

6. 某报表显示用户数突然下降80%，但业务无变化。从数据治理角度，你会如何排查？

参考答案要点：排查路径：

查该指标的血缘，定位上游表；
检查上游表最近是否有数据质量告警（如空值激增）；
查看变更日志（如dbt模型是否被修改）；
确认权限或过滤逻辑是否误改。

工具支持：DataHub血缘 + Great Expectations告警 + Git变更记录。

7. 什么是元数据？请举两个技术元数据和两个业务元数据的例子。

参考答案要点：
元数据是“关于数据的数据”。

技术元数据：表名、列类型、ETL调度频率、数据存储路径；
业务元数据：“客户ID”代表唯一注册用户、“GMV”=成交总额（含退款前）。

8. 敏感数据（如身份证号）在数仓中应如何保护？请给出两种技术手段。

参考答案要点：

静态脱敏：ETL过程中对原始字段加密或哈希；
动态脱敏：在Snowflake/BigQuery中设置策略，普通用户查询时自动掩码（如显示为110***1990）；
（加分项）配合数据目录打标签，自动识别PII字段。

9. 数据目录（Data Catalog）在数据治理中起什么作用？请用一个使用场景说明。

参考答案要点：
作用：统一发现、理解、信任数据资产的入口。
场景：市场部新人想找“用户活跃天数”指标，通过目录搜索 → 查看定义/负责人/血缘 → 直接申请权限，无需打扰工程师。

10. 请设计一个简单的数据质量监控规则，用于监控“每日订单表”。至少包含两个检查项。

参考答案要点：
使用 dbt 或 Great Expectations 定义：

- 表行数 > 0（防空跑）
- order_id 字段：100% 非空 且 唯一
- order_amount > 0（业务合理性）
- 今日数据最大日期 = 当前日期（freshness）

以下是 10道数据治理中级实战题，聚焦 跨系统协同、策略落地、技术集成、合规风险与度量优化 等进阶场景，适合具备基础治理知识、正在参与或主导治理项目的数据工程师、分析师、数据产品经理或治理专员。

每道题均包含 背景描述 + 核心问题 + 参考答案要点，强调 可操作性 与 系统性思维。

数据治理中级实战题（10题）

1. 【血缘与影响分析】

公司计划下线一个旧CRM系统，但不确定哪些报表或模型依赖其数据。如何利用数据治理工具评估影响范围并安全下线？

参考答案要点：

使用 数据目录（如DataHub/Collibra） 的血缘功能，从源表（如 crm_users）反向追溯所有下游资产（dbt模型、BI报表、API）；
标记受影响资产，通知负责人确认是否可废弃；
对仍在使用的资产，制定 迁移计划（如切换至新MDM系统）；
下线前设置 影子流量或空跑监控，确保无遗漏；
最终在目录中标记源系统为“已归档”。

✅ 关键能力：端到端血缘 + 变更影响分析 + 协作闭环。

2. 【质量规则分层设计】

团队目前对所有表都执行相同的数据质量检查，导致告警疲劳。如何设计分层的质量监控策略？

参考答案要点：

按数据资产等级分层：
- L1（核心指标）：如GMV、用户数 → 实时监控 + 严格阈值 + 自动阻断流水线；
- L2（重要维度）：如地区、产品类目 → 每日校验 + 邮件告警；
- L3（日志/临时表）：仅做基础空跑检查。
按业务SLA定义规则：例如“订单表延迟>1小时”需P0告警，而“用户行为日志”可容忍4小时。
工具实现：在 Great Expectations / Soda 中通过标签（tag）或资产分类动态加载规则。

✅ 关键能力：资产分级 + SLA驱动 + 规则动态化。

3. 【跨平台权限治理】

公司同时使用 Snowflake、BigQuery 和 Databricks，各平台权限独立管理，存在权限混乱和审计困难。如何统一治理？

参考答案要点：

引入 统一身份源（如Okta/Azure AD），通过 SCIM 或 SAML 同步用户组；
在各平台配置 基于角色的访问控制（RBAC），角色定义集中管理（如“财务只读组”）；
使用 数据目录（如Atlan/Purview） 聚合各平台权限元数据，提供统一视图；
敏感表自动打标，触发 Immuta / Privacera 等工具实施动态脱敏；
定期运行 权限审计脚本，识别“过度授权”账户并自动回收。

✅ 关键能力：身份联邦 + 策略中心化 + 自动化审计。

4. 【主数据冲突解决】

销售系统和客服系统对同一客户有不同的手机号，导致用户画像分裂。如何设计主数据融合流程？

参考答案要点：

建立 MDM（主数据管理）流程：
1. 识别：通过客户ID、姓名、证件号等多字段匹配疑似同一实体；
2. 合并规则：优先采用销售系统手机号（因含实名认证），客服系统作为备选；
3. 黄金记录生成：在MDM平台（如Reltio/Informatica）生成唯一 golden_customer_id；
4. 反哺下游：所有分析模型必须使用 golden_customer_id 关联；
5. 持续监控：设置“同一客户多手机号”异常告警。

✅ 关键能力：实体解析 + 信任源策略 + 闭环反馈。

5. 【数据契约（Data Contract）落地】

数据团队常因上游变更导致下游报表崩溃。如何通过“数据契约”机制提升协作稳定性？

参考答案要点：

定义 数据契约模板（YAML格式），包含：

table: fct_orders
owner: data-team@company.com
schema:
  - name: order_id
    type: string
    required: true
  - name: amount
    type: decimal
sla: freshness < 1h, completeness > 99%

在 dbt 项目 中将契约作为模型元数据；
在 CI/CD 流水线 中加入契约校验：若变更破坏下游依赖（如删字段），则构建失败；
契约变更需通过 数据目录发起审批流程，通知下游负责人。

✅ 关键能力：契约即代码 + 变更守门 + 跨团队契约治理。

6. 【GDPR/CCPA合规落地】

公司需支持用户“被遗忘权”（删除个人数据）。如何在数仓和BI层实现自动化合规？

参考答案要点：

识别：用 AWS Macie / Purview 扫描所有表，自动标记含PII字段（如email, phone）；
关联：建立用户ID与所有PII字段的映射关系（如通过 user_id 关联）；
删除流程：
1. 用户提交删除请求 → 触发工作流；
2. 系统自动定位所有含该 user_id 的表；
3. 执行 逻辑删除（标记is_deleted） 或 物理脱敏（覆盖为NULL/hash）；
4. BI层通过视图过滤已删除用户；
审计：记录删除操作日志，满足合规审计要求。

✅ 关键能力：自动发现 + 全链路追踪 + 合规自动化。

7. 【治理指标度量】

管理层问：“数据治理投入是否有回报？” 请设计3个可量化的治理成效指标。

参考答案要点：

数据可信度：核心资产质量规则通过率 ≥ 98%；
治理效率：数据问题平均修复时间（MTTR）从72小时降至8小时；
业务采纳率：使用“已认证”数据资产的BI报表占比 ≥ 85%；
（加分）成本节约：因数据问题导致的业务损失下降XX%（需财务协同估算）。

✅ 关键能力：从技术指标转向业务价值度量。

8. 【元数据自动采集挑战】

公司有200+张表分布在5个数据源，手动维护目录效率低。如何实现元数据自动同步？

参考答案要点：

使用 DataHub / OpenMetadata 的 Source Connector：
- Snowflake → datahub source snowflake
- BigQuery → 内置采集器
- dbt → 通过 manifest.json 推送
配置 定时任务（Airflow DAG） 每日增量同步；
对无法自动采集的业务语义（如“GMV是否含退款”），通过 目录UI批量补充 或 Excel模板导入；
设置 元数据新鲜度告警：若某表7天未更新元数据，通知负责人。

✅ 关键能力：自动化摄取 + 混合补充 + 健康监控。

9. 【数据成本治理】

数仓账单飙升，发现大量无人使用的宽表和冗余ETL任务。如何治理数据成本？

参考答案要点：

识别浪费：
- 通过 查询日志分析（Snowflake QUERY_HISTORY）找出30天未被查询的表；
- 在 数据目录 中标记“低活跃度”资产；
治理动作：
- 对无主表发起“认领或归档”流程；
- 合并重复ETL逻辑（如多个团队各自加工“用户标签”）；
- 设置 自动归档策略：90天未用表移至冷存储；
预防机制：新建表需在目录登记用途，否则30天后自动提醒清理。

✅ 关键能力：成本可观测 + 生命周期管理 + 责任绑定。

10. 【治理文化推动】

业务团队认为“治理是数据团队的事”，不愿配合标注数据或处理问题。如何推动协同？

参考答案要点：

降低参与门槛：在BI工具（如Tableau）中嵌入“一键反馈数据问题”按钮，自动创建工单；
绑定绩效：将“数据资产维护及时率”纳入业务数据负责人的OKR；
展示价值：定期发布“因数据质量提升带来的业务收益”案例（如营销ROI提升）；
设立“数据大使”：在各业务线培养兼职Steward，作为桥梁。

✅ 关键能力：体验驱动 + 激励机制 + 价值显性化。

🔚 总结：中级题核心考察维度

维度	关键词
系统性	端到端、跨平台、全生命周期
可操作性	工具链、流程、自动化
业务对齐	SLA、成本、合规、价值度量
组织协同	角色、文化、变革管理

一、跨国/多区域数据治理高级题（10题）

背景：企业业务覆盖欧盟、美国、中国、东南亚，需同时满足 GDPR、CCPA、PIPL、PDPA 等法规。

【数据本地化冲突】
欧盟要求用户数据不得出境，但公司全球用户画像需聚合分析。如何在合规前提下实现跨区域数据价值挖掘？
✅ 要点：联邦学习/差分隐私；区域化MDM；“数据不出境，模型可共享”；使用 AWS Outposts / Azure Stack。
【跨境传输机制】
中国子公司需将用户行为数据传至新加坡总部。在《个人信息保护法》下，应采用哪些合法跨境传输路径？
✅ 要点：通过国家网信部门安全评估；签署标准合同（SCC）；取得个人单独同意；考虑本地化处理替代传输。
【多法域同意管理】
同一用户在德国注册、在美国使用服务、在中国下单。如何统一管理其数据使用同意状态？
✅ 要点：建立全球Consent Management Platform（如OneTrust）；按IP/注册地动态应用规则；记录同意时间戳与版本。
【监管审计应对】
欧盟DPA突击检查，要求72小时内提供某用户所有数据处理记录。如何快速响应？
✅ 要点：建立“数据主体请求（DSAR）自动化流水线”；元数据打标+血缘追踪；预置审计视图；权限日志集中存储。
【数据主权架构】
如何设计一个支持“数据主权分区”的数仓架构，确保各区域数据物理/逻辑隔离？
✅ 要点：多租户Snowflake部署（按Region）；Databricks Unity Catalog按Catalog隔离；Kubernetes命名空间+网络策略。
【合规策略冲突】
GDPR要求“被遗忘权”，但中国《电子商务法》要求交易记录保存3年。如何处理同一用户删除请求？
✅ 要点：区分“营销数据”与“法定留存数据”；对法定数据做匿名化处理（不可识别个人）；保留删除日志以证合规。
【第三方风险治理】
全球使用20+ SaaS工具（如Salesforce、HubSpot），如何确保其处理个人数据符合各地法规？
✅ 要点：供应商DPIA（数据保护影响评估）；合同嵌入DPA条款；定期扫描其安全认证（ISO 27001, SOC 2）；限制数据导出权限。
【数据分类标准化】
各区域对“敏感个人信息”定义不同（如欧盟含种族，中国含行踪轨迹）。如何统一分类标签体系？
✅ 要点：建立“超集标签”（如PII_Global），再映射到区域子集；在数据目录中配置区域策略引擎；自动打标+人工复核。
【跨境数据泄露响应】
发生全球性数据泄露，需在72小时内向欧盟、7天内向中国网信办报告。如何协调应急流程？
✅ 要点：预设多法域Incident Response Plan；自动化通知模板；指定区域DPO（数据保护官）为接口人；演练季度化。
【治理组织设计】
如何构建一个既能集中管控又能灵活适配区域法规的全球数据治理组织？
✅ 要点：“中心辐射”模式：全球CDO制定基线策略，区域DPO负责本地化落地；设立跨区域治理委员会；共享合规知识库。

二、AI/ML 数据治理高级题（10题）

背景：企业大规模应用AI模型于风控、推荐、客服等场景，需确保模型可信、公平、可审计。

【训练数据偏见检测】
信贷模型对某地区用户拒贷率显著偏高。如何系统性识别并缓解数据偏见？
✅ 要点：使用 AIF360 / Fairlearn 分析特征分布差异；引入对抗去偏（Adversarial Debiasing）；建立“公平性指标”监控看板。
【模型血缘追踪】
如何追踪一个线上推荐模型从原始日志到特征工程再到训练的完整数据链路？
✅ 要点：集成 MLflow / Kubeflow Pipelines 与 DataHub；记录数据版本（DVC）、特征版本、代码commit；可视化端到端血缘。
【模型可解释性合规】
GDPR要求“自动化决策需可解释”。如何在不泄露商业机密前提下满足？
✅ 要点：提供局部解释（如SHAP/LIME）而非模型结构；生成用户友好的决策理由（如“因收入低于阈值”）；限制高风险场景使用黑盒模型。
【特征存储治理】
特征平台（如Feast/Tecton）中特征定义混乱，导致线上线下不一致。如何治理？
✅ 要点：特征注册表（Feature Registry）强制元数据（Owner、SLA、描述）；特征版本控制；线上/线下一致性测试（shadow mode）。
【模型漂移监控】
如何区分是“数据漂移”还是“概念漂移”导致模型性能下降？
✅ 要点：监控输入特征分布（PSI/KL散度） vs 目标变量关系变化；设置双阈值告警；自动触发重训练流水线。
【AI数据生命周期】
训练数据是否应永久保留？如何制定AI数据归档与销毁策略？
✅ 要点：按模型有效期+法规要求设定保留期（如3年）；敏感训练数据脱敏后存储；销毁需验证不可恢复。
【生成式AI治理】
内部使用LLM生成客服回复，如何防止泄露训练数据中的用户隐私？
✅ 要点：训练前数据脱敏；启用LLM输出过滤（如Azure Content Safety）；禁止微调模型使用PII；日志审计所有Prompt。
【模型注册与认证】
如何建立企业级“模型资产目录”，实现模型发现、评估与审批上线？
✅ 要点：在DataHub/Amundsen扩展模型元数据；集成模型卡（Model Card）；上线前需通过公平性、鲁棒性、合规性检查。
【对抗攻击防护】
风控模型可能被恶意输入绕过。如何在治理层面提升模型鲁棒性？
✅ 要点：红蓝对抗演练；输入异常检测（如Isolation Forest）；模型集成+不确定性量化；限制高置信度决策阈值。
【AI伦理委员会】
如何设计一个有效的AI治理委员会，平衡创新与风险？
✅ 要点：跨职能（法务、伦理、技术、业务）；高风险模型强制评审；发布AI使用原则；年度伦理影响评估（EIA）。

三、实时数据治理高级题（10题）

背景：企业采用 Kafka + Flink + 实时数仓（如ClickHouse）构建流式数据管道，用于欺诈检测、IoT监控等。

【流式数据质量】
如何在Kafka流中实时检测“订单金额为负”等异常，而不阻塞吞吐？
✅ 要点：Flink CEP（复杂事件处理）规则引擎；旁路质量Topic；动态采样校验；SLO-based告警（如99.9%合规）。
【实时血缘构建】
如何追踪一条Kafka消息从源头到实时仪表板的完整血缘？
✅ 要点：在消息头注入TraceID；Flink作业输出元数据至OpenLineage/DataHub；BI工具（如Apache Superset）集成血缘插件。
【流式敏感数据保护】
IoT设备上传含位置信息的实时流，如何动态脱敏？
✅ 要点：Flink UDF 实时掩码（如经纬度模糊化）；基于用户角色动态策略（需集成IAM）；原始流加密存储，仅授权服务解密。
【状态一致性治理】
Flink状态后端（RocksDB）中的用户画像数据如何保证与批处理数仓一致？
✅ 要点：Lambda/Kappa架构对齐；定期批流校验Job；状态快照版本管理；使用统一维度服务（Dimension Service）。
【实时数据SLA监控】
如何定义并监控“端到端延迟<5秒”的SLA？
✅ 要点：在消息中嵌入ingest_time；Flink计算process_time - ingest_time；Prometheus采集指标；Grafana告警看板。
【Schema演化治理】
Kafka Topic Schema频繁变更，导致消费者崩溃。如何治理？
✅ 要点：强制使用Schema Registry（如Confluent）；向后兼容策略（禁止删字段）；消费者版本兼容矩阵；变更需审批+通知。
【实时数据成本控制】
高吞吐流作业导致云账单激增。如何优化资源而不牺牲SLA？
✅ 要点：动态扩缩容（K8s HPA）；分优先级Topic（关键流独占资源）；冷热分离（非关键流降采样）；成本标签追踪。
【流式数据审计】
如何满足金融行业对实时交易流的完整审计要求？
✅ 要点：Kafka开启日志压缩+长期保留；所有处理步骤写审计日志；Flink Checkpoint存证；定期哈希校验数据完整性。
【边缘-云协同治理】
工厂边缘设备预处理数据后上传云端，如何统一治理边缘与中心数据？
✅ 要点：边缘设备注册至中央目录；边缘数据打标（如region=shanghai）；边缘治理策略下发（如脱敏规则）；断网续传保障。
【实时治理平台架构】
如何设计一个支持“实时+批处理”统一治理的控制平面？
✅ 要点：统一元数据层（OpenMetadata）；策略引擎支持流/批（如Apache Ranger + StreamNative）；质量/安全规则DSL化；事件驱动治理（Kafka事件触发动作）。

📌 总结：高级题核心能力维度

领域	关键能力
跨国治理	多法域合规映射、数据主权架构、全球协同机制
AI治理	偏见检测、模型可解释性、特征/模型生命周期管理
实时治理	流式质量/血缘/安全、低延迟SLA、边缘-云一体化

数据治理初级实战题（10题）

1. 什么是数据治理？请用一句话概括其核心目标。

2. 某公司发现多个部门对“客户”定义不一致（销售部按手机号算，客服部按邮箱算），这属于数据治理哪个领域的问题？应如何解决？

3. 请列举数据治理中常见的三个角色，并说明其职责。

4. 为什么要在数据开发早期（如建模阶段）就引入数据治理？请举一个具体好处。

5. 你如何判断一张数据表是否“可信”？请列出3个可量化的指标。

6. 某报表显示用户数突然下降80%，但业务无变化。从数据治理角度，你会如何排查？

7. 什么是元数据？请举两个技术元数据和两个业务元数据的例子。

8. 敏感数据（如身份证号）在数仓中应如何保护？请给出两种技术手段。

9. 数据目录（Data Catalog）在数据治理中起什么作用？请用一个使用场景说明。

10. 请设计一个简单的数据质量监控规则，用于监控“每日订单表”。至少包含两个检查项。

数据治理中级实战题（10题）

1. 【血缘与影响分析】

2. 【质量规则分层设计】

3. 【跨平台权限治理】

4. 【主数据冲突解决】

5. 【数据契约（Data Contract）落地】

6. 【GDPR/CCPA合规落地】

7. 【治理指标度量】

8. 【元数据自动采集挑战】

9. 【数据成本治理】

10. 【治理文化推动】

🔚 总结：中级题核心考察维度

一、跨国/多区域数据治理高级题（10题）

二、AI/ML 数据治理高级题（10题）

三、实时数据治理高级题（10题）

📌 总结：高级题核心能力维度

添加新评论