Практическое задание 2013

В этом году предлагается решить задачу определения эмоциональной окраски текстов: системе необходимо определить является входной текст положительным отзывом или отрицательным. Решения проверяются автоматически. Для сдачи задания необходимо зарегистрироваться на сайте практического задания.

Внимание! Регистрация будет закрыта в первой половине Ноября!

После регистрации и входа в систему появится поле для загрузки файла, личная страница со статистикой, а также ссылка на тренировочный корпус*.

На основной странице находится таблица с рейтингами студентов (имя студента, количество очков) и лучшими результатами за прошлую неделю (имя, достоверность, балл)
На личной странице есть статистика со всеми результатами в т.ч. результатами последнего тестирования (дата, описание, достоверность)

Для загрузки файла надо выбрать файл и заполнить форму (содержательное название алгоритма). Загружаемый файл должен представлять собой zip архив с любым именем. Архив должен обязательно содержать:

классификатор в файле solution.py. В файле должен содержаться класс SentimentAnalyzer. Кроме того в классе должен присутствовать метод getClasses (self,texts), который получает на вход список текстовых сообщений и возвращает список из {0,1}, где "0" означает отрицательный отзыв, а "1" - положительный.
дамп обученного классификатора в файле solution.pkl. Для созданий дампа нужно воспользоваться стандартным модулем cPickle.
описание применяемых алгоритмов в файле description.txt
все используемые внешние библиотеки, кроме библиотек пакетов NLTK, scikit-learn и BeautifulSoup (они доступны автоматически).

Шаблон можно скачать на главной странице практического задания. В архиве также лежат вспомогательные файлы для чтения коллекций документов, сохранения натренированной модели и ее тестирования.

Результаты тестирования появятся на личной странице, как только закончится тестирование.

Ограничения:

каждую неделю можно послать только 10 версий программы
размер архива не может превышать 15Мб

Подсчет очков
В течении недели студенты не видят прогресс своих коллег и могут посмотреть только свой результат. В конце каждой недели (каждый четверг в 23.59.59) производится ранжирование (по F1 мере) всех присланных программ и начисляются очки: за 1 место – 10 очков, 2-9 и т.д. Все программы выше baseline получают по 1 очку. После этого результаты становятся доступны всем на главной странице.

Baseline
В качестве нижней границы используется один из стандартных алгоритмов классификации с N-граммами в качестве признаков. Его достоверность (accuracy) равна 0.7699.

Тренировочный корпус
Для обучения классификаторов можно использовать тренировочный корпус, доступный по ссылке на сайте практического задания. Для проверки классификатора на собственном компьютере, рекомендуется использовать метод перекрестной проверки на тренировочном корпусе.

* Тренировочный корпус является частью корпуса РОМИП и предназначен только для учебных целях в рамках данного спецкурса. По вопросам использования корпуса в других целях следует обратиться к организаторам РОМИП.

Критерии выполнения задания

Для допуска к экзамену необходимо набрать 5 и более очков.

Дополнительные вопросы

Все вопросы относительно проверки заданий просьба присылать на fedorenko(-a-t-)ispras.ru или писать здесь в комментариях.

Для установки внешних модулей (NLTK, scikit-learn, BeautifulSoup) рекомендуется использовать easy_install из пакета setuptools.

19 thoughts on “Практическое задание 2013”

Насколько я понимаю, оценка 0 в тренировочном корпусе означает вовсе не минимальную оценку, а её отсутствие: многие из этих отзывов явно положительные, в отличие от отзывов с оценками 1, 2 и пр. Однако, в функции deserialize из шаблона такие отзывы относятся к негативным. Это можно исправить при обучении, но учтено ли это при тестировании?

Денис Турдаков says:

October 25, 2013 at 11:01 am

Тернировочный и тестовый корпуса были получены из корпусов РОМИП, в которых стоят оценки от 0 до 10. Разделение на тренировочный и тестовый корпуса производилось случайным образом.
При загрузке происходит преобразование оценок - все что больше 5 в 1, все что меньше или равно в 0. Никакой дополнительной обработки не производится.

Reply

Какую версию python-а стоит использовать? Вторую или третью?

Денис Турдаков says:

October 31, 2013 at 3:47 am

Python 2.7

Reply

Когда я пытаюсь загрузить архив с решением, сервер выдает
Server Error (500)
There's been an error. It's been reported to the site administrators via e-mail and should be fixed shortly. Thanks for your patience.

А попытки загрузки все равно вычитаются.
Что происходит?

Денис Турдаков says:

November 12, 2013 at 1:37 pm

Попробуем разобраться. Какого размера архив?

Reply
Денис Федоренко says:

November 12, 2013 at 2:30 pm

1. Все файлы нужно класть в корень архива - никаких подкаталогов (forSubmission, solution и т.п.) создавать дополнительно не нужно.
2. Также у вас отсутствует файл solution.pkl (точнее, дамп классификатора есть, но называется он иначе - нужно переименовать).
3. В архиве много мусора (например, pyc-файлы) - это не критично, но желательно отправлять только необходимое.

Насчет 3-его пункта, многие еще любят положить файлы с обучающей и тестовой выборкой. Пожалуйста, не делайте этого. Если вы как-то преобразовывали dataset, лучше просто подробно опишите это в файле description.txt.

Reply

размер архива 9,24 MB

Спасибо,
теперь все ок

Почему-то все заявки загружаются с результатом: error. solution.pkl есть, все файлы в корне архива.

Денис Федоренко says:

November 22, 2013 at 1:49 pm

Когда отправляли последний раз?
Ошибка возникает после тестирования или сразу, после отправки архива на сервер (Server Error (500))?

Reply

Здравствуйте! Не могли бы вы уточнить, а экзамен будет проходить 6 декабря в 18.00 в 612 или в какой-то другой аудитории? Правильно ли я понимаю, что он будет устный?

Денис Турдаков says:

December 1, 2013 at 10:44 am

Все правильно. Устный, 6 декабря в 18.00 в 612 аудитории

Reply

Будет ли еще в какой-нибудь день проводиться экзамен по спецкурсу? И можно ли еще отправлять решения? Есть желание сдать этот спецкурс!

Денис Турдаков says:

December 5, 2013 at 3:07 am

Отправлять решения можно до пятницы. Для допуска к экзамену надо набрать 4 балла.
Если Вы допущены, но не можете прийти на экзамен, то можно договориться со мной, и сдать во время сессии.

Reply

Денис Юрьевич, здравствуйте! у меня, как и у других студентов, которые забыли захватить с собой ведомость на экзамен, возникает вопрос, когда и где Вас можно будет найти?

Добрый день! Я забыла взять ведомость по мат. спецкурсу до экзамена, скажите, пожалуйста, когда можно будет проставить оценку?

Денис Турдаков says:

December 24, 2013 at 9:27 am

http://tpc.at.ispras.ru/2013/12/ekzamen-i-prostavlenie-ocenok/

Reply

Здравствуйте! В посте о проставлении оценок в ведомость написано, что в январе вы будете в университете. Вы не могли бы уточнить, в какие дни, во сколько и где вас можно найти в университете в январе для проставления оценки в ведомость?

Основы обработки текстов

19 thoughts on “Практическое задание 2013”

Leave a Reply to Денис Турдаков Cancel reply

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ