cmyf2020 发布的文章

共找到 99 篇文章
Data field

本地数据治理流水线(dbt + Great Expectations + DataHub + DuckDB)

· Data field · 69 分钟阅读
📦 示例仓库结构dbt-ge-datahub-duckdb-demo/ ├─ README.md ├─ requirements.txt ├─ .env.example ├─ Makefile ├─ scripts/ │ ├─ up.sh │ ├─ down.sh │ ├─ seed_duckdb.py │ └─ run_governance.sh ├─ datahub/ │ └─ datahub...
Data field

🫎Tableau 行业高级实战题 100 题

· Data field · 41 分钟阅读
一、金融行业(共35题)(一)单选题(12题)题目:某银行需向监管报送“大额交易监控报表”,要求数据不可篡改且可审计。Tableau 中最佳实践是? A. 使用实时连接数据库 B. 使用数据提取(Extract)并启用“加密” C. 导出为 PDF 并数字签名 D. 仅允许合规部访问 答案:B 详解:Tableau Extract 支持 AES-256 加密,配合 Server 审计日志可满足不可...
paper

大模型测评基准

· paper · 30 分钟阅读
0) Your evaluation stack 【don’t skip this】Harnesses: Prefer a standard runner so decoding, few-shoting, and caching are consistent:EleutherAI lm-evaluation-harness (CLI; wide task coverage; now with m...
Data development

⏱️python时序处理

· Data development · 36 分钟阅读
🧰 一、核心库概览(按用途分类)类别库名主要用途特点基础处理pandas时间序列索引、重采样、滑动窗口、缺失值处理工业标准,与 NumPy 深度集成专用时序结构xarray多维带标签时序(如气象、遥感)支持 datetime + 空间维度可视化matplotlib + seaborn基础绘图通用但需手动处理时间轴 plotly交互式时序图支持缩放、悬停、动态更新 hvplot / holoview...
Data field

数据仓库提纲与笔记(实战导向)

· Data field · 67 分钟阅读
1. 总览与定位是什么:数据仓库是围绕分析与决策优化的、面向主题的、集成的、相对稳定的历史数据集合。强调“整合、历史性、可复用”。与数据湖的关系:数据湖(DL)偏“尽量存,一切先来”,存放原始明细与多类型数据。成本低、约束少。数据仓库(DW)偏“结构化、可复用、稳定口径”,强调建模与治理。湖仓一体(Lakehouse)在湖上提供仓的能力:ACID表格式(Delta/Iceberg/Hudi)、SQ...