Основна складність (і цікавість) цих проектів в тому, що для них паралельно доведеться будувати і датасет, і модель. Більшість NLP-задач реального життя саме такі :)
- Визначення зв’язків між сутностями на основі даних з Wikipedia, Freebase, DBPedia тощо для української мови.
- Визначення суб’єктивних висловлювань в текстах новин (зокрема, новин українською мовою).
- Генерація поезії. Доступні дані: сайти з віршами, словники рим тощо.
- POS-tagging для української мови. Проанотованих корпусів немає, але є граматичний словник та корпуси сирих текстів.
- Перевірка правопису для української мови. Дані можна проанотувати через LanguageTool; також схожий проект є тут.
- Автоматична генерація відповідей на запитання на сайті https://ukrainian.stackexchange.com (та інших SE сайтах).
- Реалізації алгоритму побудови векторів NNSE - це задача для тих, хто хоче заглибитись в математичну частину лінгвістичних алгоритмів.
- Пошук плагіату в україномовних текстах. Дані можна видобувати на: сайтах з рефератами, сайтах новин (передруківки).
- Автореферування текстів конкретної тематики.
Передбачається, що якщо ви обрали один з цих проектів, то ви будете шукати і використовувати додаткові дані, а не просто відтворювати вже готові результати.
- Визначення тролінгу, образливих коментарів чи критики. Можна використати дані:
- Визначення подібності тексту чи перефразування тексту. Можна на основі новин зробити (різні ресурси часто перепощують ту саму інформацію іншими словами), а також використати дані:
- Визначення авторства чи визначення статі/віку/соціальної групи автора. Можна будь-яких авторів будь-якою мовою назбирати. Приклад даних: https://www.kaggle.com/c/spooky-author-identification.
- Визначення емоцій/сентиментів для конкретного домену. Можна своїх даних наскрейпити зі споживацьких сайтів. Також є багато готових корпусів, наприклад, про емоції є тут: https://competitions.codalab.org/competitions/17751.
- Визначення найбільш ймовірного закінчення історії. Можна нагенерувати своїх даних з невеличких текстів, а також є https://competitions.codalab.org/competitions/15333.
- Визначення значень слів. Є, наприклад, https://nlpub.github.io/russe-wsi-kit/.
- Моделювання граматичних помилок, які роблять ті, хто вивчає мову:
- http://sharedtask.duolingo.com/ (активна задача від DuoLingo).
- Виправлення граматичних помилок, які роблять ті, хто вивчає мову:
- Визначення іронії, сарказму чи мовних каламбурів:
- Побудова паралельного корпусу:
- Machine Comprehension using Commonsense Knowledge:
- Grammarly: визначення стилю речення (formal/informal). Дані: частина корпусу Yahoo answers проанотованого за ознакою стилю написання.
- Гарна збірка NLP-задач зі статтями і даними:
- Діалоги з мультика "South Park":
- Корпуси пісень:
- Відгуки про сорти вин:
- Споживацькі відгуки про їжу:
- SMS-спам:
- Додаткові джерела даних:
- https://www.kaggle.com/datasets?sortBy=relevance&group=featured&page=1&pageSize=20&size=all&filetype=all&license=all&tagids=11208
- http://data.gov.ua/datasets
- http://noisy-text.github.io
- CONLL shared tasks: http://www.conll.org/previous-tasks
- SemEval shared tasks: http://alt.qcri.org/semeval2018/index.php?id=tasks