Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Browsing Posts in Uncategorized

Напоминаю, в ближайшую среду (ночь со вторника на среду) первый дедлайн. Список студентов, не приступивших к сдаче практикума будет передан в учебную часть. По многочисленным просьбам, на этой неделе количество попыток увеличено до 15.

В системе тестирования 1 октября произойдет 2 изменения: Изменился вход для функции train. Теперь в качестве training_corpus будет передаваться тренировочный корпус в виде, как он был в скачиваемом файле: Необходимо преобразовать корпус во входной формат классификатора самостоятельно. Это даст возможность фильтровать входные данные произвольным образом. Раньше при преобразовании оставались только те значения, которые были одинаково […]

Внимание! Следующая лекция состоится 1 октября. 17 и 24 сентября лекций не будет!

Немного обновил правила. Изменился формат входных и выходных данных решения.

Выкладываю 5 решений весеннего практикума 2014 года, показавшие лучшие результаты по мере достоверности (accuracy): Автор Итоговый результат Константин Безденежных 0.8050847458 Малков Максим 0.7966101695 Гинатулина Светлана 0.7951977401 Александров Никита 0.7881355932 Ульянов Александр 0.7768361582 Также выкладываю baseline 2, который в итоге показал 0.7062146894 Все решения можно скачать по ссылке: solutions.zip

Лекция Слайды Лекция 1. Задачи обработки текстов lecture1-2013 Лекция 2. Регулярные выражения и конечные автоматы lecture2-2013 Лекция 3. Языковые модели и задача определения частей речи lecture3-2013 Лекция 4. Контекстно-свободные грамматики и синтаксический анализ lecture4-2013 Лекция 5. Статистические методы синтаксического анализа lecture5-2013 Лекция 6. Лексическая семантика lecture6-2013 Лекция 7. Вопросно-ответные системы и автоматическое реферирование lecture7-2013 Лекция […]

Итак, подходит к концу практикум. Студенты, набравшие 9 и более баллов, получают оценку "отлично".  Все, кто набрал 5-8 баллов получают оценку "хорошо". За 2-4 бала будет выставляться оценка "удовлетворительно". При желании в течении недели можно улучшить свою оценку, добрав недостающие баллы за счет дополнительной разметки сообщений (1 балл за 100 твитов, соблюдая начальный баланс (50/25/25)). […]

С 20.00 пятницы 14 марта до 10.30 понедельника 17 марта будут отключены все серверы в связи с техническими работами в ИСП РАН. Задания в это время сдавать не получится.

По просьбам присутствовавших сегодня на семинаре, выкладываю шаблон класса SentimentAnalyzer.py. В последней строчке написано как из этого шаблона получить Baseline_1. Внимание, чтобы была возможность самостоятельно фильтровать данные, на вход функции train() подается тренировочный корпус в формате json, полученный примерно так:

Сдать экзамен или поставить полученную оценку в зачетку/ведомость можно приехав в ИСП РАН. Перед этим рекомендую написать мне письмо и договориться о времени. В университете я буду скорее всего только в январе. Денис.