Skip to content
Matthias Letsch edited this page Jun 7, 2016 · 13 revisions

Table of special Occurrences in hOCR-Files

Start every special occurrence with a second-level heading (##)

Use a unique, short description of the occurrence as the heading. use lowercase letters and hyphens, no spaces (this makes it easy to link).

In the section use one bulleted * list.

Every list item contains of a variable name (label) and one or more values, separated by colon :.

Multiple values are separated by semicolon ;.

These variables are available:

  • name (de|en): Human readable short description of the occurrence
  • comment: Additional comment about the occurrence
  • total: Total times of appearances (x) in all currently edited pages (currently n=78)
  • frequency_avg: Average occurrences per edited page (x/n)
  • example: line images with examples for the occurrence

wrong-image-section

  • name (en): Incorrectly captured image section which contains no straight line of text but empty spaces or page margins etc.
  • name (de): Falsch erfasste Bildausschnitte, die keine Textzeile enthalten, sondern leere Seitenbereiche oder Seitenränder usw.
  • total: 443
  • frequency_avg: 5.7

text-blocked

  • name (en): Blocked text with visible blanks between the letters
  • name (de): Gesperrter Text mit sichtbaren Leerzeichen zwischen den Buchstaben
  • total: 51
  • frequency_avg: 0.7

text-italic

  • name (en): Line completely or in parts in italics
  • name (de): Zeile vollständig oder teilweise in kursiver Schrift
  • total: 156
  • frequency_avg: 2.0

initial

  • name (en): initial character
  • name (de): Initiale
  • comment (en): This most likely causes [wrong-image-section](## wrong-image-section)
  • total: 10
  • frequency_avg: 0.1

letter-faded

  • name (en): Partially or completely faded letters
  • name (de): Teilweise oder vollständig ausgebleichte Buchstaben
  • total: 6
  • frequency_avg: 0.1

notes-within-line

  • name (en): Notes on page margin captured within a text line
  • name (de): Anmerkungen am Seitenrand mit Textzeile erfasst
  • total: 93
  • frequency_avg: 1.2

notes-separate

  • name (en): Notes on page margin captured as separate lines
  • name (de): Anmerkungen am Seitenrand als separate Zeilen erfasst
  • total: 95
  • frequency_avg: 1.2

letter-handling-unclear

  • name (en): Characters whose treatment is not yet clear
  • name (de): Buchstaben deren Behandlung noch nicht klar ist
  • comment (de): Zum Beispiel q mit Akut, que-Ligatur
  • total: 17
  • frequency_avg: 0.2

line-incomplete

  • name (en): line not captured completely
  • name (de): Zeile nicht vollständig erfasst
  • comment (de): Zeile wurde zwar korrekt erfasst, aber Buchtsaben links oder rechts in der Zeile fehlen
  • comment (en): Line was captured correctly, but letters in the left or right of the line are missing
  • total: 33
  • frequency_avg: 0.4

line-incorrect

  • name (en): line not captured correctly
  • name (de): Zeile nicht richtig erfasst
  • comment (en): more than just one line inside the image; line lies at an angle in image
  • comment (de): Mehrere Zeilen im Bild erfasst; Zeile liegt schräg im Bild
  • total: 57
  • frequency_avg: 0.7

line-captured-twice

  • name (en): line partially or completely captured tice
  • name (de): Zeile teilweise oder vollständig doppelt erfasst
  • total: 33
  • frequency_avg: 0.4

text-greek

  • name (en): Greek text
  • name (de): Griechischer Text
  • total: 3
  • frequency_avg: 0.0

letter-unidentified

  • name (en): Letter not jet identified
  • name (de): Noch nicht genau identifizierter Buchstabe
  • comment (en): May be similar with [letter-handling-unclear](## letter-handling-unclear)
  • total: 12
  • frequency_avg: 0.2

letter-unreadable

  • name (en): letter not faded but still unreadable
  • name (de): Buchstabe nicht ausgebleicht aber trotzdem unleserlich
  • total: 2
  • frequency_avg: 0.0

line-not-in-order

  • name (en): line not captured in correct order
  • name (de): Zeile nicht in richtiger Reihenfolge erfasst
  • total: 4
  • frequency_avg: 0.1

dividing-line

  • name (en): Dividing line captured as line
  • name (de): Trennlinie als Zeile erfasst
  • total: 2

u-v-problem

  • name (en): Missing differentation between u and v
  • name (de): Fehlende Unterscheidung zwischen u und v