Практическое задание 2012

В этом году предлагается решить задачу извлечения ключевых слов из научно-технической литературы. Решения проверяются автоматически. Для сдачи задания необходимо зарегистрироваться на сайте практического задания.

Внимание! Регистрация будет закрыта в первой половине Ноября!

После регистрации и входа в систему появится поле для загрузки файла и личная страница со статистикой.

На основной странице находится таблица с рейтингами студентов (имя студента, количество очков) и лучшими результатами за прошлую неделю (имя, точность, полнота, F1-мера, балл)
На личной странице есть статистика со всеми результатами в т.ч. результатами последнего тестирования (дата, описание, точность, полнота, F1-мера)

Для загрузки файла надо выбрать файл и заполнить форму с кратким описанием программы (использованные алгоритмы и признаки). Загружаемый файл должен представлять собой zip архив с любым именем. Архив должен обязательно содержать:

классификатор в файле solution.py. В файле должен содержаться класс Keywords, в конструкторе класса должна подгружаться обученная модель классификации. Кроме того в классе должен присутствовать метод getKeywords (self,text), который получает на вход текст и возвращает список ключевых слов.
модель классификатора
описание применяемых алгоритмов в файле descripton.txt
все используемые внешние библиотеки, кроме библиотек пакета NLTK (они доступны автоматически)

Результаты тестирования появятся на личной странице, как только закончится тестирование.

Ограничения:

каждую неделю можно послать только 10 версий программы
размер архива не может превышать 100Мб

Подсчет очков
В течении недели студенты не видят прогресс своих коллег и могут посмотреть только свой результат. В конце каждой недели (каждое воскресенье в 23.59.59) производится ранжирование (по F1 мере) всех присланных программ и начисляются очки: за 1 место - 10 очков, 2-9 и т.д. Все программы выше baseline получают по 1 очку. После этого результаты становятся доступны всем на главной странице.

Baseline
В качестве нижней границы используется 3 наиболее весомых юниграммы и 12 биграмм, взвешенных по схеме tf-idf. Код этого классификатора доступен по ссылке (ke-baseline-tf-idf.zip). На проверочном корпусе точность равна 7.2%, полнота - 19.29%, F1 мера - 10.49%.

Тренировочный корпус
Для обучения классификаторов можно использовать тренировочный корпус, доступный по ссылке (open.zip 1.8Mb). Для проверки классификатора на собственном компьютере, рекомендуется использовать метод перекрестной проверки на тренировочном корпусе.

Для допуска к экзамену необходимо набрать 4 и более очков.

Все вопросы относительно проверки заданий просьба присылать на babakov@ispras.ru или писать здесь в комментариях.

Проверочный корпус и лучшие решения

Проверочный корпус и лучшие решения доступны в посте с итогами 2012 года.

46 thoughts on “Практическое задание 2012”

Eugene says:

October 16, 2012 at 4:12 pm

Не является ли опечаткой название файла "descripton.txt" (из списка требований)?
Разрешено ли использование вместо него файла с названием "description.txt" как имеющего осмысленное семантическое значение в контексте английского языка?

Reply
1. Денис Турдаков says:
  
  October 17, 2012 at 7:37 pm
  
  Исправил 🙂
  
  Reply
Artem says:

October 18, 2012 at 11:35 am

что нужно вводить в поле Student id при регистрации в системе?

Reply
1. Денис Турдаков says:
  
  October 18, 2012 at 12:14 pm
  
  Номер студенческого билета
  
  Reply
Efim says:

October 19, 2012 at 12:23 am

Правильно ли в лекциях дается определение точности и полноты?
По-моему должно быть наоборот.

Reply
1. Денис Турдаков says:
  
  October 19, 2012 at 11:50 am
  
  В лекциях действительно была ошибка. Спасибо, исправил.
  точность - (количество правильных ответов) поделить на (общее количество ответов от системы)
  полнота - (количество правильных ответов) поделить на (общее количество ответов в тестовой коллекции)
  
  Reply
Efim says:

October 19, 2012 at 5:16 pm

По этой причине в таблице проверочной системы два столбца перепутаны.

Reply
1. Alexander Babakov says:
  
  October 19, 2012 at 7:38 pm
  
  Я так не думаю.
  
  Reply
2. Денис Турдаков says:
  
  October 20, 2012 at 1:03 am
  
  В проверочной системе, вроде, все было нормально. Почему ты решил, что там столбцы перепутаны?
  
  Reply
  1. Efim says:
    
    October 20, 2012 at 12:47 pm
    
    Я ошибся, в таблице все верно.
    
    Reply
Максим says:

October 19, 2012 at 6:24 pm

А у вас SMTP сервер упал. При регистрации выскакивает:

Traceback:
[skip]

Exception Type: SMTPServerDisconnected at /accounts/register/
Exception Value: Connection unexpectedly closed

Reply
Aydar says:

October 20, 2012 at 4:17 pm

Не могу зарегистрироваться. Вы вчера, кажется, так и не решили описанную выше проблему

Reply
1. Денис Турдаков says:
  
  October 20, 2012 at 7:48 pm
  
  Это проблема с hotmail, через который мы шлем письма. Вчера уже чинили, но опять все сломалось... Я написал смс Саше.
  
  upd. Он сказал, что исправил, но ошибка может появиться снова. В начале следующей недели перейдем на другой почтовый сервер.
  
  Reply
Agaga says:

October 20, 2012 at 4:56 pm

По-прежнему лежит 🙁

> В конце каждой недели (каждое воскресенье в 23.59.59) производится ранжирование
И кстати, я правильно понимаю, что первый дедлайн это не завтра, а в воскресенье через неделю?

Reply
1. Денис Турдаков says:
  
  October 20, 2012 at 7:49 pm
  
  Дедлайн только один - последнее воскресенье перед экзаменом, до этого система работает по стандартной схеме. То есть в ближайшее воскресенье будет первый пересчет очков.
  
  Reply
  1. Aydar says:
    
    October 21, 2012 at 12:25 am
    
    Если некоторые так и не смогут зарегистрироваться до завтра, то это будет несправедливо.
    
    Reply
    1. Денис Турдаков says:
      
      October 21, 2012 at 12:05 pm
      
      Чем жаловаться на несправедливость жизни, лучше почитайте дополнительную литературу и сделайте лучший алгоритм. Например, можно посмотреть труды semeval-2 (task 5): http://www.aclweb.org/anthology/S/S10/
      
      Reply
Anton says:

October 21, 2012 at 9:30 pm

Возник вопрос - как сравниваются ответы функции с правильными ответами?

Если посимвольно - то восстановление биграмм - задача слишком уж сложная, нет? Т.к. какие-либо частотные данные можно получить только для стемов(получить нормальную лемму в русском языке из словоформы в NLTK вроде бы нельзя, или я ошибаюсь?).

Т.е. можно получить список правильных биграмм состоящих из стем, но восстановить из них настоящую форму словосочетания... С английским языком здесь на порядок проще.

Reply
1. Денис Турдаков says:
  
  October 22, 2012 at 10:40 am
  
  Я вроде бы на лекции говорил... Перед сравнением делается стемминг.
  
  Reply
Ramil says:

October 25, 2012 at 9:13 pm

Сайт приема решений лежит

Reply
Alexander Babakov says:

October 25, 2012 at 9:21 pm

В данный момент сайт лежит. Связано это с тем, что кто-то уронил (и пока не поднимает) виртуальную машину. Если сами не поднимут, разберусь завтра (~11 часов утра)

Reply
Alexander Babakov says:

October 26, 2012 at 4:26 pm

В связи с тем, что машину с сайтом сегодня (а может и завтра утром) будут постоянно перегружать, решение отправлять не рекомендуется - могут потеряться данные.

Reply
Alexander Babakov says:

October 26, 2012 at 10:34 pm

Решение можно отправлять смело (вроде больше ничего отваливаться не планирует)

Reply
Artem says:

October 27, 2012 at 12:33 am

Есть ли возможность запускать в проверочной системе exe'шные файлы? Или она работает исключительно с чистым питоном?

Reply
Alexander Babakov says:

October 27, 2012 at 11:23 am

Только чистый питон. Во 1ых чтобы посмотреть, что именно вы прислали (антиплагиат, да и просто любопытно), а во 2ых так реализована проверочная система.

Reply
Alexander Babakov says:

October 27, 2012 at 11:24 am

Просьба каждый раз пересобирать архив заново, а не менять в архиве отдельные файлы (например, через 7zip). Питоновский разорхиватор на это дело ругается и шлет вам HTTP 500 привет.

Reply
Nikita says:

October 27, 2012 at 2:58 pm

Ну не знаю, я каждый раз пересобираю, а у меня всё равно одно и то же 500

Reply
sumerman says:

October 27, 2012 at 3:42 pm

Неприход email'ов от регистрации уже не просто несправедливость (некоторые уже получили минимальные 4 балла), а жесть какая-то, учитывая, что в начале ноября регистрацию обещано закрыть.

Reply
1. Денис Турдаков says:
  
  October 29, 2012 at 11:44 am
  
  В папке со спамом смотрели?
  
  Reply
Artem says:

October 27, 2012 at 8:17 pm

В продолжение вопроса о проверочной системе: на ней установлен пакет numpy? У меня nltk без него не ставилась. Если нет, то какие dll для numpy нужно добавлять в архив? (win32/win64/..)

Reply
Alexander Babakov says:

October 27, 2012 at 11:49 pm

Numpy (и всё остальное, что нужно для NLTK стоит. Про это не уточнялось, т.к. казалось очевидным). Никакие Dll добавлять не нужно. win32/64 тем более, т.к. машина явно не на винде.

Reply
Alexander Babakov says:

October 27, 2012 at 11:50 pm

Вообще проще всего спрашивать у меня через почту. Ответ будет быстрее, а если вопрос важный, ответ я продублирую здесь, чтобы все видели.

Reply
Alexander_Ryzhkov says:

October 29, 2012 at 1:45 am

А сколько по времени может идти письмо активации аккаунта? Я уже дней пять его жду...

Reply
Alexander.Ryzhkov says:

October 29, 2012 at 1:51 am

Оно оказывается пришло давно, просто гугл счел его спамом =))

Reply
Basketball says:

November 3, 2012 at 5:39 pm

Доброе время суток! Скажите, каким Питоном запускаются решения (вторым или третьим)? Нет ли какого-либо способа указать явно версию, под которой решение будет работать?

Reply
Anton says:

November 4, 2012 at 8:29 pm

А может загрузки задания, у которых статус error не считать? А то никакой информации(стектрейс, что угодно) по ним нет, а счетчик уменьшается.

Reply
1. Basketball says:
  
  November 4, 2012 at 11:55 pm
  
  Присоединяюсь, добавьте стектрейс, а то совсем не понятно, в чём ошибка.
  
  Reply
Alexander Babakov says:

November 6, 2012 at 10:51 am

Небольшой FAQ:
1) Письмо с активацией приходит в течении 1-2 минут. Чаще всего оно распознается как спам.
2) Никакие дополнительные библиотеки, кроме NLTK (и тех, что необходимы NLTK) установлены на сервере не будут. Pymorphy также был удален. (Ставился при создании проверочной системы, потом я от него отказался).
3) Автоматической рассылки stderr и output не будет, т.к. в таком случае возможно узнать содержание скрытой выборки через создание собственных исключений. Результат можно узнать у меня, однако я не буду отвечать если ошибка состоит в том, что вы банально не проверили, запускается ли в принципе ваш код на локальной машине. По этой же причине (спама заведомо неправильных решений), будут считаться все решения со статусом error.
4) Сегодня решится, что делать c "читерскими" решениями, набирающие 40+ процентов F-меры. Скорее всего будут блокироваться, баллы оставлю только 1му человеку, который это придумал, но пока не решено.
5) Старайтесь задавать свои вопросы не в вечер воскресенья. Предыдущее воскресенье было последним, когда я отвечаю на вопросы в свой выходной.

Reply
Efim says:

November 6, 2012 at 10:12 pm

Можно ли выложить фрагмент проверяющей программы где она сравнивает полученные ключевые слова с правильными чтобы разобраться в ньюансах стема, регистра, знаков препинания?

Reply
Alexander Babakov says:

November 7, 2012 at 12:47 am

По поводу версии питона: 2.7
По поводу фрагмента: на этой неделе вряд ли найду время
По поводу стэктрейса - смотри небольшой FAQ выше.

Всем рекомендуется ознакомиться с объявлением на проверочном сайте.

Reply
tanunia says:

November 7, 2012 at 1:14 am

Данные в проверочном корпусе изменились, а в тренировочном - нет.
Разве их не нужно менять?

Reply
1. Денис Турдаков says:
  
  November 7, 2012 at 11:34 am
  
  Это непринципиально
  
  Reply
Alexander Babakov says:

November 11, 2012 at 10:20 pm

Если у кого возникали проблемы при регистрации/смене пароля, они устранены.

Reply
Anton says:

November 17, 2012 at 4:59 pm

Хотелось бы все-таки увидеть код проверки списка словосочетаний. А то я чисто ради интереса загрузил версию, которая на тестовом корпусе выдает такой же список словосочетаний, что и baseline, на любом файле, а при тестировании у неё значительно ниже точность и полнота.

И ещё временной лимит не позволяет даже простую морфологию с pymorphy использовать, хотя относительный perfomance impact на моей машине незначительный.

Reply
zyxn52 says:

December 10, 2012 at 11:29 pm

На одной из последних лекций говорилось, что по результатам практического задания будут полагаться бонусы на экзамене (вплоть до автомата). Хотелось бы узнать какие именно бонусы планируется давать и будут ли они в итоге. Так как в преддверии периода большой загруженности хорошие бонусы явно не помешали бы.

Reply
1. Денис Турдаков says:
  
  December 11, 2012 at 3:15 pm
  
  Про бонусы я скажу непосредственно перед экзаменом. В любом случае, готовьтесь хорошо - это часть вашего обучения.
  
  Reply

Основы обработки текстов

Практическое задание 2012

46 thoughts on “Практическое задание 2012”

Leave a Reply to Alexander_Ryzhkov Cancel reply

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ