Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Выкладываю новые билеты к экзамену (осенний семестр 2013).

В 21-м слайде лекции 3 (Языковые модели) была неправильная информация. Вопрос вызывала формула \sum_{i,j} p(w_n|w_i,w_j)=1 .

Эта формула относится к оценки вероятности N-граммы на основе метода максимального правдоподобия и означает вероятность события, что слово w_n встретилось в одном из всех возможных контекстах, в которых оно встречалось. То есть выполняется всегда.
В случае, когда применяется сглаживание откатом к модели меньшего порядка (вероятность n-граммы равна 0 ) необходимо сбалансировать вероятности всех n-грамм, так чтобы сумма вероятностей заданного слова во всех контекстах (в том числе и меньших порядков)  была равна 1 .

В разделе 6.4 основного учебника приводится подробный вывод коэффициента \alpha . Всем интересующимся рекомендую заглянуть туда.

PS. Спасибо внимательным студентам за вопрос. Слайд в лекциях исправлен.

Лекция Слайды
Лекция 1. Задачи обработки текстов  lecture1-2012.pdf
Лекция 2. Регулярные выражения и конечные автоматы  lecture2-2012.pdf
Лекция 3. Методы поиска словосочетаний  lecture3-2012.pdf
Лекция 4. Языковые модели и задача определения частей речи  lecture4-2012.pdf
Лекция 5. Контекстно-свободные грамматики и синтаксический анализ  lecture5-2012.pdf
Лекция 6. Статистические методы синтаксического анализа  lecture6-2012.pdf
Лекция 7. Лексическая семантика  lecture7-2012.pdf
Лекция 8. Вопросно-ответные системы и автоматическое реферирование  lecture8-2012.pdf
Лекция 9. Машинный перевод  lecture9-2012.pdf

Первое занятие состоится в аудитории 612 в пятницу 4-го октября в 18.00. На вводной лекции будут рассмотрены классические задачи обработки текстов и типичные проблемы, возникающие при решении этих задач. Также будут обсуждаться некоторые организационные моменты.

Приглашаются все, кто хочет понять, о чем будет спецкурс, и что нужно для того чтобы успешно его завершить.

Итак, экзамен прошел, время подвести итоги.

На курс зарегистрировались 40 человек. Успешно завершили практическое задание и были допущены к экзамену 26 человек. Результаты экзамена:

По результатам практической части выкладываю top 9 лучших решений:

  1. zyxn52 (Кирилл Гаврилюк)
  2. nezabudka (Анна Потапенко)
  3. woxalex (Александр Сапатов)
  4. Esuqive (Виктория Петушкова)
  5. giz (Александр Акципетров)
  6. miryable (Татьяна Новикова)
  7. Yodikus (Владимир Марулин)
  8. tanunia (Татьяна Кривошеева)
  9. desa (мое простое решение)
Проверочный корпус доступен по ссылке: tpc-secret.zip.

 

Экзамен состоится 14 декабря в аудитории П-6. Начало в 18.00.

Билеты к экзамену можно скачать по ссылке.

Лекции 8 и 9.

No comments

Исправил некоторые ошибки в лекциях 8 и 9. Слайды: лекция 8,  лекция 9

Доступны слайды седьмой лекции. На лекции обсуждаются

Основные понятия лексической семантики

  • Слова и отношения между ними
  • Словари и тезаурусы

Вычислительная семантика

  • Разрешение лексической многозначности
  • Семантическая близость слов
  • Некоторые современные направления

 

Готовы слайды к шестой лекции. На лекции рассматриваются проблема синтаксической многозначности и  статистические алгоритмы синтаксического анализа.

Выложены слайды пятой лекции.