LOADING

缓存加载中...

4.7

2025/4/7

 

《IWEK: An Interpretable What-If Estimator for Database Knobs》

两个模型,四张图解释。

一,评估模型

算法1:适应性的旋钮排序

简而言之是使用回归模型,从一个旋钮knob候选集中找到最佳旋钮调优

这里面$R^2$是指一些二阶误差评估方法,比如

算法2:可解释的旋钮评估

  1. 通过贝叶斯优化产生数据集的随机森林

  2. 学习产生一个二维向量,包含用于评估的参数

  3. 最后加一个拉索回归,学习损失。

二,转换模型

左边是评估器,右边是转换器

评估器
  1. 输入数据库的日志信息,并获取它的数据指纹
    这里考虑两种旋钮:1.资源旋钮(内存/并行性……)2.执行旋钮(SUID/索引……)
    为这两种个旋钮设计了两种统计学特征。
    然后我们设计了数据指纹:通过组合SUID向量(代表执行)和物理操作符向量(代表物理资源)。

  2. 经验库中连接相似的数据指纹

欧氏距离来判断相似性。

  1. 获得旋钮调优的排序并计算top-k最佳。

  2. 同上

  3. 评估器获得最佳的一些旋钮信息传递给转换器。

迁移器

为了解决旋钮中特征过于多样化的问题,我们设计了一个统一且稳定的旋钮转换网络。
核心思想:计算 得到的训练数据有限的新场景O 以获得 K-P数据分布相似性。

  1. 旋钮采样

  2. 提交采样得到的旋钮调优序列

  3. 将得到的序列配置上交给外部

  4. 从外部得到序列的表现

  5. 将评估器中学习的经验传递到转换器中

  6. 综合旋钮采样的结果和表现,计算K-P分布

  7. 根据距离排序

  8. 权重求和

采样策略:
算法:Latin HyperCube Sampling
采样空间:IV-B 节的迁移排序机制筛选

最终:通过上述策略,在场景 ​​O​​ 中收集高质量样本 ​​S​​,作为计算 ​​K-P 分布相似性​​ 的基础。

K-P构建:

  • 测量样本S在新场景O上的性能,生成K-P数据。
  • 使用预训练的历史估计器,预测S性能标签。
  • 维度适配:对齐历史经验输入的与新场景S的旋钮集合。

特征计算:通过捕捉K-P点集的分布趋势特征,量化分布之间的相似性。

  • 使用样条插值法拟合K-P
  • 度量不同K-P点集的方向距离,捕捉趋势变化的一致性
  • 最终实现参数调优的迁移。

相似性度量:余弦距离。

旋钮评估迁移算法

上面的步骤拼起来。

TODO:翻译连锁