Практическое задание 2018 | Основы обработки текстов

Правила практикума

Критерии оценки (пятибальная шкала): 3 за побитие main class в обеих задачах, +1 балл за побитие baseline в каждой из задач. По результатам проверки решения оценка может быть снижена из-за срыва сроков сдачи, манипуляций с данными, существенных ошибок в реализации и т.п.

Main class - это алгоритм, который всегда возвращает самую частую в обучающих данных метку. Baseline - простое решение на базе машинного обучения, разработанное организаторами практикума. Качество baseline публикуется не позже, чем за 3 недели до срока выполнения задачи.

Сдача решения осуществляется путем отправки письма на почтовый адрес ivan.andrianov@ispras.ru. В заголовке письма должны присутствовать номер группы и ФИО студента. В теле письма должны присутствовать вывод скрипта тестирования и краткое описание алгоритма. К письму должен быть приложен zip-архив с исходным кодом и файлом readme, описывающим процесс воспроизведения результатов из тела письма.

Если побит baseline по задаче, и алгоритм признан "оригинальным", студенту предлагается 4 за экзамен автоматом, либо +1 балл на экзамене. Если то же выполнено для обеих задач, студенту предлагается 5 за экзамен автоматом.

Задание 1. Выявление метонимичных упоминаний геолокаций

Срок выполнения: 31.10.2018

Обучающие данные: FactRuEval-2016 devset

Тестовые данные: FactRuEval-2016 testset

Скрипт оценки качества: FactRuEval-2016 t1_eval.py

Целевая мера качества: overall F1

Качество main class: 0.8387

Качество baseline: 0.9076

Описание:

В 2016 году на конференции Диалог был представлен shared task по задаче распознавания именованных сущностей FactRuEval-2016. Рассматривались стандартные типы сущностей (person, location, organization) на материале русского языка. Кроме того, специальной меткой locorg помечались т.н. "геолокации в организационном контексте", т.е. метонимичные упоминания геолокаций (например, "Россия выступила в Совбезе ООН с новым предложением по ...").

Целью данного задания является бинарная классификация известных упоминаний геолокаций на предмет наличия у них метонимии.

Например, по разметке "[Россия|location] выступила в [Совбезе ООН|organization] с новым предложением по ..." необходимо сгенерировать следующую разметку: "[Россия|locorg] выступила в [Совбезе ООН|organization] с новым предложением по ...", т.к. имеет место метонимия.

Разметку же "Территория [России|location] в её заявленных границах составляет ..." необходимо оставить без изменений, т.к. метонимия в данном случае отсутствует.

Рекомендация: работоспособность вашего решения можно проверить запуском скрипта оценки качества с ключом "-l". Данный ключ отключает различие между метками location и locorg при подсчете мер, что в случае работоспособной реализации должно приводить к "качеству", равному 1 по всем мерам.

Задание 2. Определение языка короткого текста для славянских языков

Срок выполнения: 05.12.2018

Обучающие данные: должны быть собраны студентом самостоятельно путем ручной разметки или автоматического сбора из Веба

Валидационные данные: task2-dev.csv

Тестовые данные: task2-test_no_labels.zip (1 текст на каждой строке), студентам дается 3 попытки сдачи: в каждой попытке алгоритм применяется студентом к тестовым данным, формируется файл с метками языков (1 метка на каждой строке в порядке, в котором идут тексты), файл отправляется организаторам практикума для оценки

Целевая мера качества: accuracy, т.е. доля текстов, для которых язык верно определен, на тестовых данных

Качество main class на валидационных/тестовых данных: 0.167

Качество baseline на валидационных данных: 0.94

Качество baseline на тестовых данных: 0.90

Используемая нумерация языков:

0 - русский
1 - белорусский
2 - украинский
3 - болгарский
4 - македонский
5 - сербский

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ