Skip to content

Latest commit

 

History

History

5.Sentence-Similarity

Sentence pair similarity

1. 数据示例

query1 query2 label
剧烈运动后咯血,是怎么了? 剧烈运动后咯血是什么原因? 1
剧烈运动后咯血,是怎么了? 剧烈运动后为什么会咯血? 1
剧烈运动后咯血,是怎么了? 剧烈运动后咯血,应该怎么处理? 0
剧烈运动后咯血,是怎么了? 剧烈运动后咯血,需要就医吗? 0
剧烈运动后咯血,是怎么了? 剧烈运动后咯血,是否很严重? 0

2. 结果

EPOCH最大为4, 采用mean_pooling;测试集上cosine similarity阈值分别设为0.5, 0.6, 0.7, 0.8, 0.9, 0.95,各个模型所得最高准确率及其对应阈值如下表所示:

模型 对应cosine similarity阈值 Acc
Bert 0.95 0.7747252747252747
Sentence Bert 0.8 0.9020979020979021
COSINEEMBEDDINGLOSS 0.7 0.8966033966033966
CoSENT 0.8 0.8921078921078921
SimCSE 0.5 0.8306693306693307
Margin Softmax 0.8 0.7272727272727273
Bert whitening 0.5 0.7227772227772228