Skip to content

Commit

Permalink
Updated instructions for the 3rd task
Browse files Browse the repository at this point in the history
  • Loading branch information
zeionara committed Mar 12, 2022
1 parent 6b55e33 commit 717891a
Showing 1 changed file with 2 additions and 2 deletions.
4 changes: 2 additions & 2 deletions tasks/task-03/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -22,7 +22,7 @@
1. С использованием библиотечной реализации метода подсчета косинусного расстояния между векторными представлениями текста (для возможности получения дополнительных баллов на защите по данному пункту необходимо реализовать данный метод самостоятельно), продемонстрировать на примерах, что для семантически близких слов модель генерирует вектора, для которых косинусное расстояние меньше, чем для семантически далеких токенов. Для получения дополнительных баллов требуется также выполнить серию экспериментов с гиперпараметрами модели, выбранной на предыдущем шаге, для каждого набора гиперпараметров измерить значение косинусного расстояния для некоторого тестового набора пар семантически близких и семантически далеких токенов, сформулировать вывод о том, какой набор гиперпараметров является оптимальным. Демонстрация работы модели может происходить в соответствии с одним из двух сценариев (сценарии приведены в порядке увеличения сложности реализации):
- Ручное выделение набора токенов (от 2 до 5) из датасета, для каждого токена определение 2-3 токенов с похожим значением, 2-3 токенов из той же предметной области и 2-3 токенов с совершенно другими семантическими свойствами. Например, если изначально взяли токен `cat`, то токенами с похожим значением могут быть `tiger`, `felines`, токенами из той же предметной области - `animal`, `rabbit`, токенами с соверешенно другими семантическими свойствами - `sentence`, `creation`. Необходимо получить векторное представление для каждого исходного токена, векторные представления токенов из 3 указанных групп и продемонстрировать в виде ранжированного списка с указанием косинусного расстояния, что между векторным представлением исходного токена и токенов с похожим значением косинусное расстояние меньше, чем между векторным представлением исходного токена и токенов из той же предметной области, которое в свою очередь меньше косинусного расстояния между векторным представлением исходного токена и векторными представлениями токенов с совершенно другими семантическими свойствами;
- Аналогично предыдущему варианту, выделение набора исходных токенов и для каждого исходного токена - нескольких токенов из 3 "групп похожести". Далее для каждого токена требуется сформировать векторное представление, выполнить сокращение его размерности до двумерного вектора с помощью какого-либо метода сокращения размерности (в простейшем случае - `PCA`, допускается использование библиотечной реализации) и построение двумерной точечной диаграммы с полученным результатом. Каждой точке на сформированной диаграмме должна соответствовать текстовая метка, в качестве который выступает строковое представление соответствующего токена. Визуально должна прослеживаться корреляция семантического сходства токенов и расстояния между ними на сформированной диаграмме. Допускается построение и трехмерной диаграммы при условии сохранения наглядности демонстрации работы модели.
1. Применить какой-либо метод сокращения размерностей векторов (в простейшем случае - `PCA`, допускается использование библиотечной реализации), полученных одним из базовых способов векторизации, выбранным ранее, а именно:
1. Применить какой-либо метод сокращения размерностей полученных одним из базовых способов векторизации, выбранным ранее (см. пункт 2), векторов (в простейшем случае можно использовать метод `PCA`, причем допускается использование библиотечной реализации, сокращенная размерность должна быть сопоставима с размерностью векторов, формируемых векторной моделью, примененной на шаге 3, поскольку далее будет предложено сравнить данный метод с подходом, основанным на использовании векторной модели), а именно:
* кодированием текста в виде последовательности частот токенов;
* кодированием текста в виде единичной матрицы (здесь также необходимо предложить способ преобразования матрицы в вектор);
* кодированием текста в виде матрицы частот токенов (здесь также необходимо предложить способ преобразования матрицы в вектор);
Expand All @@ -33,7 +33,7 @@
* сегментация текста на предложения и токены;
* формирование векторных представлений каждого токена по-отдельности с использованием выбранной модели векторных представлений текста, основанной на нейронных сетях;
* подсчет взвешенного среднего векторных представлений токенов каждого предложения, в качестве веса использовать метрику `tf-idf`, подсчитанную по обучающей выборке;
* подсчет векторного представления документа по векторным представлениям составляющих его предложений в соответствии с подходоим, предложенным ранее.
* подсчет векторного представления документа по векторным представлениям составляющих его предложений в соответствии с некоторым подходом (например, путем подсчета среднего значения).
1. Выполнить векторизацию тестовой выборки с использованием метода, реализованного на предыдущем шаге. Результаты сохранить в формате `tsv` в соответствии со следующей структурой (векторному представлению каждого документа выборки соответствует отдельная строка, в которой сначала записывается идентификатор документа, совпадающий с названием соотвествующего файла без расширения с аннотацией из [первой лабораторной работы](/tasks/task-01), далее должен быть символ `\t`, после которого - вещественные числа, составляющие векторное представление документа и разделенные символом `\t`; векторные представления каждого документа должны иметь одинаковый размер, количество документов должно совпадать с количеством экземпляров тестовой выборки):
```tsv
<doc_id_1> <embedding_1_component_1> <embedding_1_component_2> <embedding_1_component_3> ... <embedding_1_component_M>
Expand Down

0 comments on commit 717891a

Please sign in to comment.