查询与代码之间的高相似度是高质量数据集的基础(Sun et al. 2022)。在我们初步评估过程中,我们观察到不同模型计算的相似度得分存在差异。仅依赖单一模型来计算相似度可能会引入偏差,不利于数据集的公正性。为减少这种偏差,我们采用多模型方法来计算查询-代码对的相似度。每个模型根据不同的底层机制和训练数据集将代码和查询嵌入为向量。具体而言,我们使用了三个模型:CodeBERT (Feng et al. 2020)、UniXcoder (Guo et al. 2022) 和 CodeT5+ 110M 嵌入 (Wang et al. 2023)。通过取这三个模型的平均相似度得分,我们促进了查询-代码对质量的更平衡和公正的评估。
这段什么意思?