Skip to content

Latest commit

 

History

History
 
 

tasks

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 
 
 

Указания к выполнению лабораторных работ

В данном документе приведены общие рекомендации и требования по выполнению лабораторных работ, а также по оформлению полученных результатов.

Выбор датасета

Перед выполнением лабораторных работ по данному курсу необходимо выбрать датасет, который будет использоваться в процессе работы. Так, на выбор предоставляется 3 варианта корпусов, отличающихся уровнем сложности:

  1. Датасет, состоящий из сгенерированных текстов - наиболее простой с точки зрения автоматической обработки датасет, состоящий из автоматически сгенерированного текста, для которого гарантируется возможность построения токенизатора на основе регулярных выражений, обрабатывающего текст со 100%-ной точностью. Также гарантируется возможность разработки классификатора, обеспечивающего точность 100%;
  2. Базовый новостной датасет(прямые ссылки на скачивание: обучающая и тестовая выборки) - датасет, предназначенный для решения задачи тематического моделирования и классификации текстов новостей. Данный корпус состоит из реальных текстов новостей и реализует сравнительно простую аннотационную схему классификации. Большинство текстов не сложны с точки зрения автоматической обработки, однако встречается ряд сложных случаев, что делает решение задач его обработки с идеальной точностью затруднительным;
  3. Усложненный новостной датасет(прямая ссылка на скачивание) - датасет, задача обработки которого отличается наименьшей тривиальностью, что обусловлено сложностью аннотационной схемы, в которой предусмотрены иерархические зависимости между классами, а также высокой вариативностью структуры текстов относительно всех уровней разметки. Для получения высокой точности при обработке данного датасета может потребоватся более внимательное изучение его структуры и более основательный подход к выбору методов решения поставленной задачи.

Результат выбора датасета влияет на следующие аспекты процесса прохождения курса:

  1. Глубина погружения в процесс решения практических задач обработки текстов на естественном языке;
  2. Скорость выполнения лабораторных работ;
  3. Количество и сложность вопросов, на которые потребуется ответить на защите;
  4. Необходимость реализации функциональности, не предусмотренной заданием, для получения дополнительных баллов;
  5. Возможность получения "автомата" за экзамен.

Прочие рекомендации

Также перед выполнением лабораторных работ необходимо выбрать платформу для выполнения заданий курса (прежде всего, язык программирования). Для выбранной платформы должны быть доступны библиотеки, содержащие стандартную реализацию моделей и алгоритмов обработки текста (например, стандартные реализации алгоритмов стемминга и лемматизации для английского языка). Данное требование обусловлено тем, что в случае отсутствия соответсвующих средств необходимо будет их реализовать самостоятельно. Рекомендуется использовать язык программирования python либо R.

В процессе выполнения лабораторных работ требуется точно выполнять приведенные инструкции, особенно - указания по организации внутренней структуры директории проекта. Исходный код, сформированный в результате выполнения лабораторной работы, необходимо оформлять в соответствии с правилами, общепринятыми для той или иной платформы (для языка программирования python см. пример оформления проекта). Рекомендуется выделять функциональность, относящуюся к каждой отдельной лабораторной работе в отдельный программный модуль так, чтобы каждому модулю соответствовала отдельная директория в корневом каталоге проекта. Также рекомендуется привести краткую инструкцию по запуску исходного кода, являющегося результатом выполнения той или иной лабораторной работы, в файле README.md, расположенном в корневой директории проекта.

Помимо всего прочего, с целью упрощения сдачи лабораторных работ рекомендуется для каждой работы реализовать набор модульных тестов, демонстрирующих корректность выполнения задания. Инструкцию по запуску модульных тестов в таком случае также следует добавить в файл README.md, расположенный в корневой директории проекта.

Порядок загрузки результатов выполнения лабораторных работ

В соответстии с основным файлом README.md результаты выполнения лабораторных работ оформляются в виде проектов и размещаются в отдельных директориях внутри каталога projects. Для этого необходимо выполнить следующие действия:

  1. Сделать fork данного репозитория в свой аккаунт на github;
  2. Придумать название проекта, которое должно соответствовать конвенции kebab-case, создать соответствующую директорию в каталоге projects и создать запись в таблице соответствия названий проектов и имен студентов в основном файле README.md;
  3. Закоммитить изменения и сформировать pull-request в основной репозиторий;
  4. После того, как первый pull-request принят - начинать выполнение лабораторных работ. Во время выполнения лабораторных работ требуется поддерживать определенную структуру файлов проекта, пример корректного оформления проекта можно посмотреть здесь.
  5. После защиты каждой лабораторной работы необходимо формировать новый pull-request в основной репозиторий с обновленной версией проекта.