В этом году  предлагается решить задачу извлечения ключевых слов из научно-технической литературы. Решения проверяются автоматически. Для сдачи задания необходимо зарегистрироваться на сайте практического задания.

Внимание! Регистрация будет закрыта в первой половине Ноября!

После регистрации и входа в систему появится поле для загрузки файла и личная страница со статистикой.

  • На основной странице находится таблица с рейтингами студентов (имя студента, количество очков) и лучшими результатами за прошлую неделю (имя, точность, полнота, F1-мера, балл)
  • На личной странице есть статистика со всеми результатами в т.ч. результатами последнего тестирования (дата, описание, точность, полнота, F1-мера)

Для загрузки файла надо выбрать файл и заполнить форму с кратким описанием программы (использованные алгоритмы и признаки). Загружаемый файл должен представлять собой zip архив с любым именем. Архив должен обязательно содержать:

  • классификатор в файле solution.py. В файле должен содержаться класс Keywords, в конструкторе класса должна подгружаться обученная модель классификации. Кроме того в классе должен присутствовать метод getKeywords (self,text), который получает на вход текст и возвращает список ключевых слов.
  • модель классификатора
  • описание применяемых алгоритмов в файле descripton.txt
  • все используемые внешние библиотеки, кроме библиотек пакета NLTK (они доступны автоматически)

Результаты тестирования появятся на личной странице, как только закончится тестирование.

Ограничения:

  • каждую неделю можно послать только 10 версий программы
  • размер архива не может превышать 100Мб

Подсчет очков
В течении недели студенты не видят прогресс своих коллег и могут посмотреть только свой результат. В конце каждой недели (каждое воскресенье в 23.59.59) производится ранжирование (по F1 мере) всех присланных программ и начисляются очки: за 1 место - 10 очков, 2-9 и т.д. Все программы выше baseline получают по 1 очку. После этого результаты становятся доступны всем на главной странице.

Baseline
В качестве нижней границы используется 3 наиболее весомых юниграммы и 12 биграмм, взвешенных по схеме tf-idf. Код этого классификатора доступен по ссылке (ke-baseline-tf-idf.zip). На проверочном корпусе точность равна 7.2%, полнота - 19.29%, F1 мера - 10.49%.

Тренировочный корпус
Для обучения классификаторов можно использовать тренировочный корпус, доступный по ссылке (open.zip 1.8Mb). Для проверки классификатора на собственном компьютере, рекомендуется использовать метод перекрестной проверки на тренировочном корпусе.

Для допуска к экзамену необходимо набрать 4 и более очков.

Все вопросы относительно проверки заданий просьба присылать на babakov@ispras.ru или писать здесь в комментариях.

Проверочный корпус и лучшие решения

Проверочный корпус и лучшие решения доступны в посте с итогами 2012 года.