Skip to content

Commit

Permalink
fix typo
Browse files Browse the repository at this point in the history
  • Loading branch information
bittersweet1999 committed Jul 19, 2024
1 parent 65c6068 commit 1946d41
Showing 1 changed file with 20 additions and 20 deletions.
40 changes: 20 additions & 20 deletions configs/datasets/subjective/compassbench/compassbench_checklist.py
Original file line number Diff line number Diff line change
Expand Up @@ -99,27 +99,27 @@

pair_prompt_cn = """# 指令
您是一位专业评估专家。您的任务是评估两个AI模型生成回复的质量
我们将为您提供用户问题及一对AI生成的回应(回应A和回应B)。
您应当首先仔细阅读用户问题,然后根据以下提供的规则评估回应的质量
您是一位专业评估专家。您的任务是评估两个AI模型生成回答的质量
我们将为您提供用户问题及一对AI生成的回答(回答A和回答B)。
您应当首先仔细阅读用户问题,然后根据以下提供的规则评估回答的质量
# 用户与AI之间的对话
## 用户查询
## 用户问题
<|begin_of_query|>
{question}
<|end_of_query|>
## 回应A
## 回答A
<|begin_of_response_A|>
{prediction}
<|end_of_response_A|>
## 回应B
## 回答B
<|begin_of_response_B|>
{prediction2}
Expand All @@ -136,33 +136,33 @@
<|end_of_checklist|>
请使用此检查清单来指导您的评估,但不要将评估局限于清单内
请参考此检查清单来评估回答的质量,但不要局限于此检查清单
## 规则
您应当基于对用户查询和对话历史的分析比较上述两种回应
您应当首先写下您的分析以及用于评估的检查清单,然后根据检查清单提供您的评价
您应当基于用户查询,分析比较上述两种回答
您应当基于检查清单写下您的分析,然后提供您的评价
有五个选项供您做出最终评估:["A++", "A+", "A=B", "B+", "B++"],它们对应如下含义:
- `A++`:回应A远胜于回应B
- `A+`:回应A略优于回应B
- `A=B`:回应A和回应B质量相同。请谨慎使用此选项。
- `B+`:回应B略优于回应A
- `B++`:回应B远胜于回应A
- `A++`:回答A远胜于回答B
- `A+`:回答A略优于回答B
- `A=B`:回答A和回答B质量相同。请谨慎使用此选项。
- `B+`:回答B略优于回答A
- `B++`:回答B远胜于回答A
## 输出格式
首先,请输出您对每个模型回应的分析
首先,请输出您对每个模型回答的分析
然后总结您的评估到三个方面:"A=B的理由","A优于B的理由",和 "B优于A的理由",
最后做出您对最终评估的选择。
请按照以下json格式提供您的评估结果,通过填充[]中的占位符:
```
{
"回应A的分析": "[回应A的分析]",
"回应B的分析": "[回应B的分析]",
"A=B的理由": "[A和B回应差不多的理由]",
"A优于B的理由": "[回应A优于B的理由]",
"B优于A的理由": "[回应B优于A的理由]",
"回答A的分析": "[回答A的分析]",
"回答B的分析": "[回答B的分析]",
"A=B的理由": "[A和B回答差不多的理由]",
"A优于B的理由": "[回答A优于B的理由]",
"B优于A的理由": "[回答B优于A的理由]",
"choice": "[A++ or A+ or A=B or B+ or B++]",
}
```
Expand Down

0 comments on commit 1946d41

Please sign in to comment.