fix typo

bittersweet1999 · Jul 19, 2024 · 1946d41 · 1946d41
1 parent 65c6068
commit 1946d41
Showing 1 changed file with 20 additions and 20 deletions.
diff --git a/configs/datasets/subjective/compassbench/compassbench_checklist.py b/configs/datasets/subjective/compassbench/compassbench_checklist.py
@@ -99,27 +99,27 @@
 
 pair_prompt_cn = """# 指令
 
-您是一位专业评估专家。您的任务是评估两个AI模型生成回复的质量。
-我们将为您提供用户问题及一对AI生成的回应（回应A和回应B）。
-您应当首先仔细阅读用户问题，然后根据以下提供的规则评估回应的质量。
+您是一位专业评估专家。您的任务是评估两个AI模型生成回答的质量。
+我们将为您提供用户问题及一对AI生成的回答（回答A和回答B）。
+您应当首先仔细阅读用户问题，然后根据以下提供的规则评估回答的质量。
 
 # 用户与AI之间的对话
 
-## 用户查询
+## 用户问题
 <|begin_of_query|>
 
 {question}
 
 <|end_of_query|>
 
-## 回应A
+## 回答A
 <|begin_of_response_A|>
 
 {prediction}
 
 <|end_of_response_A|>
 
-## 回应B
+## 回答B
 <|begin_of_response_B|>
 
 {prediction2}
@@ -136,33 +136,33 @@
 
 <|end_of_checklist|>
 
-请使用此检查清单来指导您的评估，但不要将评估局限于清单内。
+请参考此检查清单来评估回答的质量，但不要局限于此检查清单。
 
 ## 规则
 
-您应当基于对用户查询和对话历史的分析比较上述两种回应。
-您应当首先写下您的分析以及用于评估的检查清单，然后根据检查清单提供您的评价。
+您应当基于用户查询，分析比较上述两种回答。
+您应当基于检查清单写下您的分析，然后提供您的评价。
 有五个选项供您做出最终评估：["A++", "A+", "A=B", "B+", "B++"]，它们对应如下含义：
 
-- `A++`：回应A远胜于回应B。
-- `A+`：回应A略优于回应B。
-- `A=B`：回应A和回应B质量相同。请谨慎使用此选项。
-- `B+`：回应B略优于回应A。
-- `B++`：回应B远胜于回应A。
+- `A++`：回答A远胜于回答B。
+- `A+`：回答A略优于回答B。
+- `A=B`：回答A和回答B质量相同。请谨慎使用此选项。
+- `B+`：回答B略优于回答A。
+- `B++`：回答B远胜于回答A。
 
 ## 输出格式
-首先，请输出您对每个模型回应的分析，
+首先，请输出您对每个模型回答的分析，
 然后总结您的评估到三个方面："A=B的理由"，"A优于B的理由"，和 "B优于A的理由"，
 最后做出您对最终评估的选择。
 
 请按照以下json格式提供您的评估结果，通过填充[]中的占位符：
 ```
 {
-    "回应A的分析": "[回应A的分析]",
-    "回应B的分析": "[回应B的分析]",
-    "A=B的理由": "[A和B回应差不多的理由]",
-    "A优于B的理由": "[回应A优于B的理由]",
-    "B优于A的理由": "[回应B优于A的理由]",
+    "回答A的分析": "[回答A的分析]",
+    "回答B的分析": "[回答B的分析]",
+    "A=B的理由": "[A和B回答差不多的理由]",
+    "A优于B的理由": "[回答A优于B的理由]",
+    "B优于A的理由": "[回答B优于A的理由]",
     "choice": "[A++ or A+ or A=B or B+ or B++]",
 }
 ```