1. 总览与定位是什么:数据仓库是围绕分析与决策优化的、面向主题的、集成的、相对稳定的历史数据集合。强调“整合、历史性、可复用”。与数据湖的关系:数据湖(DL)偏“尽量存,一切先来”,存放原始明细与多类型数据。成本低、约束少。数据仓库(DW)偏“结构化、可复用、稳定口径”,强调建模与治理。湖仓一体(Lakehouse)在湖上提供仓的能力:ACID表格式(Delta/Iceberg/Hudi)、SQ...
“读数据→清洗→分析→建模→可视化→导出”1) 环境与常用包# 最小依赖 pip install numpy pandas matplotlib scipy scikit-learn pyarrow fastparquetimport numpy as np import pandas as pd import matplotlib.pyplot as plt pd.set_option(&quo...
基础概念与张量操作1. PyTorch中的Tensor与NumPy数组的主要区别是什么?# 主要区别: # 1. Tensor可以在GPU上运行,NumPy数组只能在CPU上 # 2. Tensor支持自动求导(autograd) # 3. Tensor有更丰富的API用于深度学习 import torch import numpy as np # 相互转换 numpy_array = np.ar...
默认数据包含列:user_id(用户ID)city(城市)date(日期:YYYY-MM-DD)sales(销量/金额)如果你的字段名不同,只要在函数的参数里改对应列名即可。所有图都用 Matplotlib 且一图一绘(不使用子图),完全符合你之前的要求。1) TopN + 分层时间聚合:每城市每月销量 Top3 的用户 + 小倍数图思路:先把 date → month(按月取起始日时间戳),聚合...
""" 金融波动率建模:GARCH模型实战 使用 Python 的 arch 库进行波动率建模 目标:对股票收益率序列建模,预测未来波动率 """ import numpy as np import pandas as pd import matplotlib.pyplot as plt from datetime import date...