LOADING

缓存加载中...

分布式数据挖掘

2025/5/8 论文

 
可视化下级调研:

分布式聚类问题

方法:分片/分级/分密度/网格。

mapreduce篇

  1. 基于Mapreduce的迭代依赖评估系统(k-means,基于采样技术)。
    优化点:提取子集特征,通过子集中心聚类原始数据集。
    三个mapreduce阶段:

  2. 原始数据集采样

  3. mapper中样本聚类,合并到一个reducer中。合并算法:WMC(基于权重合并聚类),DMC(基于分布式合并聚类)。

  4. 通过生成的k个点构造Voronoi图,分割原始的数据集。

  5. 多选k-means
    线性(等权重)的聚类,只保留最佳结果。
    (并非是设计了一个多选的k-means算法,而单纯的在不同的质心组中同时进行多个k-means。)

  6. Map操作计算不同的点和预设质心之间的距离。Reduce操作更新质心。每轮迭代用TWCV(度量各个点到组质心的距离)度量,越低越好。

  7. 裁剪TWCV更低的组。再交换相似的质心。

  8. 最后通过RSDS(超参数调优随机搜索)和ADGP(群体对不相似性平均值)构造新的质心。

  9. MR-DBSCAN :mapreduce版本DBSCAN
    优化点:新的基于代价的分区方法,来考虑点的密度。三阶段,端到端。

  10. 数据分区,依据空间特征。

  11. 本地聚类,独立的进行组分区。

  12. 全局合并,构造归并映射重标签
    合并映射:先找出交叉的分区,再计算全局聚类并且构建一个从本地聚类到全局聚类的映射。
    重标签:通过参考全局ID替换本地聚类ID和识别所有点的类型,调整本地聚类的中间结果。

  13. MR-ABC:mapreduce版本ABC(人工蜂群)
    优化点:最小化欧氏距离(平方)优化大数据聚类过程。更新聚类质心,评估适配性。

  14. 先生成一个初始解决方案。

  15. 更新蜂群质心值。

  16. 通过欧氏距离平方和来计算和评估适配性。(mapreduce加速计算)

  17. 旁观者蜜蜂选择质心值来生成被雇佣蜜蜂的更佳适配性,并更新。
    重复直到轮次达到阈值。

  18. 蚁群优化算法:MBSC(大数据语义聚类),也是基于mapreduce。
    基于语义内容,涉及一个mapreduce工作。

  19. Map阶段,将数据记录分块(chunk)

  20. 设计k-v对,k:路径长度,值:节点集合。遍历过程不丢弃任何节点记录。

  21. 每一步,map都会读取信息素(pheromone)并计算群相似性(swarm similarity),转化为概率值,用来决定选择还是放弃一条记录。实现把相似数据记录分进相同的类。

  22. reduce阶段,靠蚂蚁收集所有数据块的方案,并更新下一轮的信息素值。

  23. 基于mapreduce的频谱(spectral)聚类
    原理:评估稀疏矩阵的特征值。用mapreduce加速矩阵相似性和其他参数的计算过程。

  24. 计算相似矩阵(mapreduce)

  25. 计算k个最小特征向量(Lanczos算法,求解厄米矩阵本征问题)

  26. 并行k-means.分成两步:
    1. map:计算每个点的最近质心。
    2. combiner函数组合相同质心的部分样本。k是质心,v是点列表。
    3. reduce:收集相同质心的点,并通过计算每个根据质心构造的点集的平均值,来更新质心值。迭代直到质心稳定。

  27. 通过聚类,并行结合信息瓶颈(IB)
    原理:用IB理论分层聚类来决定每个Map计算节点的质心。
    多map单reduce。
    数据分片,每个片在一个map中独立使用IB聚类构造低一级质心。
    所有低级质心在reduce任务中聚集起来,构造一个新的数据集。再对新数据集用一次IB聚类。
    (twister)

  28. Bow:结合了并行聚类(Parc)忽略采样(SnI)
    为了减少io和网络开销。

  29. 数据从分布式文件系统分发到map节点,每个节点计算数据元素的kv。

  30. 每个reduce节点处理k相同的数据:归一化,做插入聚类,每个reducer生成一个𝛽-cluster

  31. 算法构造一个pair:k是reduce的描述,v是簇的描述。

  32. 𝛽-cluster合并,互相交叠。

spark篇

  1. Parallel Kernel Kmean

难泵,太多了,急需出成果,后面不记录了。欢迎联系主播交流