《IWEK: An Interpretable What-If Estimator for Database Knobs》
两个模型,四张图解释。
一,评估模型
算法1:适应性的旋钮排序
简而言之是使用回归模型,从一个旋钮knob候选集中找到最佳旋钮调优。
这里面$R^2$是指一些二阶误差评估方法,比如
算法2:可解释的旋钮评估
通过贝叶斯优化产生数据集的随机森林
学习产生一个二维向量,包含用于评估的参数
最后加一个拉索回归,学习损失。
二,转换模型
左边是评估器,右边是转换器
评估器
输入数据库的日志信息,并获取它的数据指纹
这里考虑两种旋钮:1.资源旋钮(内存/并行性……)2.执行旋钮(SUID/索引……)
为这两种个旋钮设计了两种统计学特征。
然后我们设计了数据指纹:通过组合SUID向量(代表执行)和物理操作符向量(代表物理资源)。在经验库中连接相似的数据指纹
欧氏距离来判断相似性。
获得旋钮调优的排序并计算top-k最佳。
同上
评估器获得最佳的一些旋钮信息传递给转换器。
迁移器
为了解决旋钮中特征过于多样化的问题,我们设计了一个统一且稳定的旋钮转换网络。
核心思想:计算 得到的训练数据有限的新场景O 以获得 K-P数据分布相似性。
旋钮采样
提交采样得到的旋钮调优序列
将得到的序列配置上交给外部
从外部得到序列的表现
将评估器中学习的经验传递到转换器中
综合旋钮采样的结果和表现,计算K-P分布
根据距离排序
权重求和
采样策略:
算法:Latin HyperCube Sampling
采样空间:IV-B 节的迁移排序机制筛选
最终:通过上述策略,在场景 O 中收集高质量样本 S,作为计算 K-P 分布相似性 的基础。
K-P构建:
- 测量样本S在新场景O上的性能,生成K-P数据。
- 使用预训练的历史估计器,预测S性能标签。
- 维度适配:对齐历史经验输入的与新场景S的旋钮集合。
特征计算:通过捕捉K-P点集的分布趋势特征,量化分布之间的相似性。
- 使用样条插值法拟合K-P
- 度量不同K-P点集的方向距离,捕捉趋势变化的一致性
- 最终实现参数调优的迁移。
相似性度量:余弦距离。
旋钮评估迁移算法
上面的步骤拼起来。
TODO:翻译连锁