README.md

NER-анотація українського корпусу

Це перша версія українського NER корпусу. Корпус розмічених даних знаходиться в папці v1.0/data/. Всього в корпусі:

Первинним джерелом даних є відкритий корпус українських текстів. Для кожного обробленого тексту з корпусу наявні два файли:

файл з розширенням tok.txt містить токенізовану версію тексту (токенізація зроблена за наступними правилами)
файл з розширенням tok.ann містить NER-анотації до цього тексту у форматі Brat Standoff Format (кожний рядок файлу містить 3 записи, розділені табуляцією: номер анотації, початковий і кінцевий індекс в тексті — у даному випадку, токенізованому — через пробіл, текст сутності)

Анотація виконана двома анотаторами на кожний текст за наступними правилами, розбіжності в результатах виправлені третім анотатором.

Для тренування і валідації моделей рекомендовано використовувати Стандартне розбиття на DEV і TEST набори.

Репозиторій також містить скрипти для конвертації даних у інші формати.

Ці дані доступні для використання згідно умов ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"