Skip to content

Marius1308/llm_human_feedback

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 

Repository files navigation

Human Feedback

Erst einmal danke, dass du uns bei der Evaluation unseres Sprachmodells hilfst. Hier eine kurze Einführung in die Evaluation mit diesem Tool.

Setup

Dies ist eine Vue Anwendung, die node.js benötigt. Die Anwendung wurde in Chrome getestet, daher ist es empfehlenswert auch bei der Benutzung Chrome zu nutzen.

Installation Mac

  1. Installiere Node brew install node
  2. Teste ob Node installiert wurde npm --version

Instalation Windows

Installiere node.js und npm mit der Hilfe dieser Anleitung:

Installation Linux (Ubuntu)

  • Hier könnt ihr zunächst testen, ob es vielleicht schon vorhanden ist - gebt dazu node -v ein
  • Kommt hier was anderes als die Versionsnummer, gehe folgendermaßen vor:
    • Aktualisiert eure Paketquellen mit sudo apt update
    • Installiere Node via sudo apt install nodejs
    • Installiere den Node Package Manager mit sudo apt install npm

Anwendung ausführen

  1. Im Unterordner "llm_human_feedback": npm install
  2. Starte die Anwendung: npm run dev
  3. Die Anwendung sollte im Browser unter http://localhost:5173/ erreichbar sein

Usage

  • Im Allgemeinen werden die Fortschritte der Evaluation im Browser gespeichert und sind daher auch nach Beenden des Browsers gesichert - außer es wird so etwas wie ein Inkognitomodus genutzt.
  • Nach der Evaluation können die Ergebnisse heruntergeladen werden.
  • Du wirst nacheinander verschiedene Fragen sehen und dazu jeweils einen Antwort von einem Modell.
  • Es wird verschiedene Antworten zu jeder Frage geben, die du nacheinander bewerten sollst.
  • Auf der linken Seite siehst du hilfreiche Informationen zum Kontext der Frage und auf der rechten Seite die Antwort des Modells.
  • Die Antworten sind in Sätze aufgeteilt, die du einzeln bewerten sollst.
  • Jeder Satz hat zwei Bewertungen,
    • eine für den Trust und
    • eine für die Helpfulness.
  • Bewerte jeden Satz dabei bitte unabhängig von den anderen Sätzen.
    • Eine Ausnahme besteht wenn ein Satz von dem Tool auf eine merkwürdige Art getrennt wurde oder wenn der Sinn oder die Quelle erst in einem späteren Satz deutlich werden. Dann können diese Aspekte in die Bewertung einfließen.
      • Beispiele: Ein Satz besteht nur aus "a." und der nächste Satz enthält einen Stichpunkt. Dann gehört "a." zu dem Stichpunkt und kann die selbe Bewertung bekommen.
      • Ein Satz enthält keine Quelle, aber später am Ende des Abschnittes oder der Antwort gibt es eine Quellenangabe, dann kann auch schon ein früherer Satz als Belegt gewertet werden.
  • Um einen Satz zu bewerten, klicke auf die entsprechende Zahl auf der rechten Seite oder drücke die entsprechende Zahl auf deiner Tastatur.
  • Hast du alle Sätze bewertet, kannst du unten auf "Next >" klicken, um zur nächsten Frage zu kommen. Dabei werden deine Bewertungen automatisch gespeichert.
  • Solltest du dich vertippt haben, kannst du die Bewertung eines Satzes auch ändern, indem du auf die entsprechende Bewertung klickst.
  • Solltest du Fragen haben, kannst du dich gerne an uns wenden.
  • Bitte sende uns deine Ergebnisse zu, wenn du die Evaluation abgeschlossen hast. Wir benötigen dabei nur die Datei, die du in der Anwendung herunterladen kannst.

Rating scale

Trust:

  • Belegt: Der Satz wird durch eine Quellenangabe belegt, die auch im Kontext aufgeführt ist und die Informationen im Satz passen zum Kontext.
    • Die gegebenen Informationen können auch über die Angaben im Kontext hinausgehen, solange sie zu diesem passen (z.B. im Kontext wird ein Algorithmus erwähnt und der Satz gibt eine allgemeine Erklärung zu diesem Algorithmus)
  • Teilweise belegt: Der Satz wird nicht durch eine Quellenangabe belegt, passt jedoch zu den Informationen aus dem Kontext. (Wie Belegt, jedoch ohne Quellenangabe)
  • Allgemeinwissen: Die Informationen in dem Satz passen nicht zu den Inhalten aus dem Kontext, sie sind aber wahr.
  • Falschaussage: Der Satz lässt sich widerlegen.
  • Quatsch: Der Satz ist offensichtlich falsch, da er z.B. keinen Sinn ergibt, widersprüchlich ist oder nicht verständlich ist.
    • Auch Sätze mit falschen Quellenangaben, die nicht im Kontext aufgelistet sind sollten als "Quatsch" bewertet werden.

Helpfulness:

  • Hilfreich: Der Satz hilft klar bei der Beantwortung der Frage. Ein Satz kann nur als hilfreich bewertet werden, wenn zuvor keine wichtigen Teile für die Antwort ausgelassen wurden.
    • z.B. Die Frage besteht aus Teil a und b. Der Satz bezieht sich auf Teil b, ohne dass Teil a bereits behandelt wurde. Der Satz kann dann maximal als eingeschränkt hilfreich bewertet werden.
  • Eingeschränkt: Der Satz hilft nur teilweise bei der Beantwortung der Frage.
  • Unklar: Der Satz passt zwar zum Thema der Frage, hilft aber nicht bei der Beantwortung der Frage.
  • Wiederholung: Der Satz wiederholt hilfreiche oder thematisch passende Informationen aus vorherigen Sätzen. Die Information ist also nicht neu.
  • Nicht hilfreich: Der Satz ist nicht hilfreich, irreführend oder unverständlich.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published