LOADING

缓存加载中...

SIGMOD2026

2025/8/29 论文

 

SIGMOD 2026

这片文章记录sigmod2026的实验心路。为了防止不必要的麻烦,写一写踩坑、心得,细节只有只言片语。

主要研究内容:用大模型进行索引优化。

prepare

首先比较了启发式算法和学习式算法。

根据各种实验+调研,得出几个结论:

  1. 索引性能的优化的效果:启发式>学习式(离线)>学习式(在线)

  2. 推荐索引的选择时间,如果不算训练时间,学习式比启发式快很多。

  3. 上述比较均是在非常复杂的查询场景下,即多表、嵌套、聚合函数等,DB的snapshot也非常大。在简单的SQL上,因为可供选择的索引组合数量很少,优化空间小,启发式方法表现好,学习式方法没什么意义。

  4. 现有学习型方法不能很好的进行查询的嵌入,以及更加meta的信息的提取。现有的encode方法都比较朴素。

综合3.4.,现有学习型方法只在JoinOrderBenchmark(专门用来测试查询优化器的)表现良好,TPCH/TPCDS上有点拉胯。在事务场景(CRUD)下甚至会负优化(维护索引开销大于索引带来的查询优化)。

  1. 现有数据集严重不足,大模型微调产生的提升太小。

我们需要的:尽可能复杂的查询。同时,将多个查询装载为一个workload,对一个workload(一批查询)推荐一组索引。

大规模数据集的收集,和生成workload-index监督数据,是难点。

model

8.29

我们重新设计了开源LLM的架构,并进行微调。

首先我们进行SFT的测试。不得不说llama factory真是个好用的框架。

参数比较复杂,过几天总结记录一下。