Skip to content

Latest commit

 

History

History
68 lines (58 loc) · 6.47 KB

course-project.md

File metadata and controls

68 lines (58 loc) · 6.47 KB

Теми курсових проектів

Проекти, для яких немає готових корпусів

Основна складність (і цікавість) цих проектів в тому, що для них паралельно доведеться будувати і датасет, і модель. Більшість NLP-задач реального життя саме такі :)

  1. Визначення зв’язків між сутностями на основі даних з Wikipedia, Freebase, DBPedia тощо для української мови.
  2. Визначення суб’єктивних висловлювань в текстах новин (зокрема, новин українською мовою).
  3. Генерація поезії. Доступні дані: сайти з віршами, словники рим тощо.
  4. POS-tagging для української мови. Проанотованих корпусів немає, але є граматичний словник та корпуси сирих текстів.
  5. Перевірка правопису для української мови. Дані можна проанотувати через LanguageTool; також схожий проект є тут.
  6. Автоматична генерація відповідей на запитання на сайті https://ukrainian.stackexchange.com (та інших SE сайтах).
  7. Реалізації алгоритму побудови векторів NNSE - це задача для тих, хто хоче заглибитись в математичну частину лінгвістичних алгоритмів.
  8. Пошук плагіату в україномовних текстах. Дані можна видобувати на: сайтах з рефератами, сайтах новин (передруківки).
  9. Автореферування текстів конкретної тематики.

Проекти, для яких є готові корпуси

Передбачається, що якщо ви обрали один з цих проектів, то ви будете шукати і використовувати додаткові дані, а не просто відтворювати вже готові результати.

  1. Визначення тролінгу, образливих коментарів чи критики. Можна використати дані:
  2. Визначення подібності тексту чи перефразування тексту. Можна на основі новин зробити (різні ресурси часто перепощують ту саму інформацію іншими словами), а також використати дані:
  3. Визначення авторства чи визначення статі/віку/соціальної групи автора. Можна будь-яких авторів будь-якою мовою назбирати. Приклад даних: https://www.kaggle.com/c/spooky-author-identification.
  4. Визначення емоцій/сентиментів для конкретного домену. Можна своїх даних наскрейпити зі споживацьких сайтів. Також є багато готових корпусів, наприклад, про емоції є тут: https://competitions.codalab.org/competitions/17751.
  5. Визначення найбільш ймовірного закінчення історії. Можна нагенерувати своїх даних з невеличких текстів, а також є https://competitions.codalab.org/competitions/15333.
  6. Визначення значень слів. Є, наприклад, https://nlpub.github.io/russe-wsi-kit/.
  7. Моделювання граматичних помилок, які роблять ті, хто вивчає мову:
  8. Виправлення граматичних помилок, які роблять ті, хто вивчає мову:
  9. Визначення іронії, сарказму чи мовних каламбурів:
  10. Побудова паралельного корпусу:
  11. Machine Comprehension using Commonsense Knowledge:

Задачі від компаній

  1. Grammarly: визначення стилю речення (formal/informal). Дані: частина корпусу Yahoo answers проанотованого за ознакою стилю написання.

Додаткові джерела даних та ідей

  1. Гарна збірка NLP-задач зі статтями і даними:
  2. Діалоги з мультика "South Park":
  3. Корпуси пісень:
  4. Відгуки про сорти вин:
  5. Споживацькі відгуки про їжу:
  6. SMS-спам:
  7. Додаткові джерела даних: