Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Browsing Posts in Uncategorized

По просьбам присутствовавших сегодня на семинаре, выкладываю шаблон класса SentimentAnalyzer.py. В последней строчке написано как из этого шаблона получить Baseline_1. Внимание, чтобы была возможность самостоятельно фильтровать данные, на вход функции train() подается тренировочный корпус в формате json, полученный примерно так:

Сдать экзамен или поставить полученную оценку в зачетку/ведомость можно приехав в ИСП РАН. Перед этим рекомендую написать мне письмо и договориться о времени. В университете я буду скорее всего только в январе. Денис.

Выкладываю новые билеты к экзамену (осенний семестр 2013).

В 21-м слайде лекции 3 (Языковые модели) была неправильная информация. Вопрос вызывала формула . Эта формула относится к оценки вероятности N-граммы на основе метода максимального правдоподобия и означает вероятность события, что слово встретилось в одном из всех возможных контекстах, в которых оно встречалось. То есть выполняется всегда. В случае, когда применяется сглаживание откатом к модели […]

Лекция Слайды Лекция 1. Задачи обработки текстов  lecture1-2012.pdf Лекция 2. Регулярные выражения и конечные автоматы  lecture2-2012.pdf Лекция 3. Методы поиска словосочетаний  lecture3-2012.pdf Лекция 4. Языковые модели и задача определения частей речи  lecture4-2012.pdf Лекция 5. Контекстно-свободные грамматики и синтаксический анализ  lecture5-2012.pdf Лекция 6. Статистические методы синтаксического анализа  lecture6-2012.pdf Лекция 7. Лексическая семантика  lecture7-2012.pdf Лекция 8. Вопросно-ответные […]

Первое занятие состоится в аудитории 612 в пятницу 4-го октября в 18.00. На вводной лекции будут рассмотрены классические задачи обработки текстов и типичные проблемы, возникающие при решении этих задач. Также будут обсуждаться некоторые организационные моменты. Приглашаются все, кто хочет понять, о чем будет спецкурс, и что нужно для того чтобы успешно его завершить.

Итак, экзамен прошел, время подвести итоги. На курс зарегистрировались 40 человек. Успешно завершили практическое задание и были допущены к экзамену 26 человек. Результаты экзамена: По результатам практической части выкладываю top 9 лучших решений: zyxn52 (Кирилл Гаврилюк) nezabudka (Анна Потапенко) woxalex (Александр Сапатов) Esuqive (Виктория Петушкова) giz (Александр Акципетров) miryable (Татьяна Новикова) Yodikus (Владимир Марулин) tanunia (Татьяна Кривошеева) desa (мое простое решение) Проверочный корпус доступен […]

Экзамен состоится 14 декабря в аудитории П-6. Начало в 18.00. Билеты к экзамену можно скачать по ссылке.

Лекции 8 и 9.

No comments

Исправил некоторые ошибки в лекциях 8 и 9. Слайды: лекция 8,  лекция 9

Доступны слайды седьмой лекции. На лекции обсуждаются Основные понятия лексической семантики Слова и отношения между ними Словари и тезаурусы Вычислительная семантика Разрешение лексической многозначности Семантическая близость слов Некоторые современные направления