Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

С 20.00 пятницы 14 марта до 10.30 понедельника 17 марта будут отключены все серверы в связи с техническими работами в ИСП РАН. Задания в это время сдавать не получится.

По просьбам присутствовавших сегодня на семинаре, выкладываю шаблон класса SentimentAnalyzer.py. В последней строчке написано как из этого шаблона получить Baseline_1.

class SentimentAnalyzer:
    #constructor (optional)
    def __init__(self):
        None

    #trainer of classifier (mandatory)
    def train(self, training_corpus):
        # train your classifier here
        self.classifier = None

    #returns sentiment score of input text (mandatory)
    def getClasses(self, texts):
        #Write your code instead of next line
        return ['neutral' for iter in texts] # Baseline 1

Внимание, чтобы была возможность самостоятельно фильтровать данные, на вход функции train() подается тренировочный корпус в формате json, полученный примерно так:

training_corpus = json.load(open(path_to_training_corpus))

Сдать экзамен или поставить полученную оценку в зачетку/ведомость можно приехав в ИСП РАН. Перед этим рекомендую написать мне письмо и договориться о времени. В университете я буду скорее всего только в январе.

Денис.

Выкладываю новые билеты к экзамену (осенний семестр 2013).

В 21-м слайде лекции 3 (Языковые модели) была неправильная информация. Вопрос вызывала формула \sum_{i,j} p(w_n|w_i,w_j)=1 .

Эта формула относится к оценки вероятности N-граммы на основе метода максимального правдоподобия и означает вероятность события, что слово w_n встретилось в одном из всех возможных контекстах, в которых оно встречалось. То есть выполняется всегда.
В случае, когда применяется сглаживание откатом к модели меньшего порядка (вероятность n-граммы равна 0 ) необходимо сбалансировать вероятности всех n-грамм, так чтобы сумма вероятностей заданного слова во всех контекстах (в том числе и меньших порядков)  была равна 1 .

В разделе 6.4 основного учебника приводится подробный вывод коэффициента \alpha . Всем интересующимся рекомендую заглянуть туда.

PS. Спасибо внимательным студентам за вопрос. Слайд в лекциях исправлен.

Лекция Слайды
Лекция 1. Задачи обработки текстов  lecture1-2012.pdf
Лекция 2. Регулярные выражения и конечные автоматы  lecture2-2012.pdf
Лекция 3. Методы поиска словосочетаний  lecture3-2012.pdf
Лекция 4. Языковые модели и задача определения частей речи  lecture4-2012.pdf
Лекция 5. Контекстно-свободные грамматики и синтаксический анализ  lecture5-2012.pdf
Лекция 6. Статистические методы синтаксического анализа  lecture6-2012.pdf
Лекция 7. Лексическая семантика  lecture7-2012.pdf
Лекция 8. Вопросно-ответные системы и автоматическое реферирование  lecture8-2012.pdf
Лекция 9. Машинный перевод  lecture9-2012.pdf

Первое занятие состоится в аудитории 612 в пятницу 4-го октября в 18.00. На вводной лекции будут рассмотрены классические задачи обработки текстов и типичные проблемы, возникающие при решении этих задач. Также будут обсуждаться некоторые организационные моменты.

Приглашаются все, кто хочет понять, о чем будет спецкурс, и что нужно для того чтобы успешно его завершить.

Итак, экзамен прошел, время подвести итоги.

На курс зарегистрировались 40 человек. Успешно завершили практическое задание и были допущены к экзамену 26 человек. Результаты экзамена:

По результатам практической части выкладываю top 9 лучших решений:

  1. zyxn52 (Кирилл Гаврилюк)
  2. nezabudka (Анна Потапенко)
  3. woxalex (Александр Сапатов)
  4. Esuqive (Виктория Петушкова)
  5. giz (Александр Акципетров)
  6. miryable (Татьяна Новикова)
  7. Yodikus (Владимир Марулин)
  8. tanunia (Татьяна Кривошеева)
  9. desa (мое простое решение)
Проверочный корпус доступен по ссылке: tpc-secret.zip.

 

Экзамен состоится 14 декабря в аудитории П-6. Начало в 18.00.

Билеты к экзамену можно скачать по ссылке.

Лекции 8 и 9.

No comments

Исправил некоторые ошибки в лекциях 8 и 9. Слайды: лекция 8,  лекция 9