Skip to content

Latest commit

 

History

History

phonetic-baseline

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Генератор стихотворений на основе фонетических шаблонов

Решение основано на простом алгоритме генерации стихотворения:

  1. Берем случайное стихотворение поэта из его собрания сочинений
  2. Последовательно заменяем слова в стихотворении на те, которые
  • похожи по звучанию (по ударению, число слогов, окончанию)
  • близки заданной теме (по близости word2vec векторов, обученных на русском текстовом корпусе)
  1. Объявляем полученный результат замены слов — произведением алгоритма

Решение реализовано на Python 3 с использованием библиотек:

  • Flask: веб-сервер
  • numpy, scipy: работа с векторами и расстояниями
  • nltk: токенизация предложений
  • gensim: работа с word2vec моделью
  • pymystem3: лемматизация слова

Решению для работы необходимы наборы данных:

При локальном тестировании, общедоступные наборы данных должны лежать в каталоге /data/ (в корне репозитория).

Описание используемой word2vec модели RusVectores можно найти в публикации:

Kutuzov A., Kuzmenko E. (2017) WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models. In: Ignatov D. et al. (eds) Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science, vol 661. Springer, Cham