Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Доступны слайды шестой лекции. Рассмариваются

  • Стохастические контекстно-свободные грамматики (СКС)
  • Применение СКС к разрешению синтаксической многозначности и моделированию языка
  • Вероятностная версия алгоритма Кока-Янгера-Касами и обучение СКС
  • Проблемы СКС и подходы к их решению: разделение и слияние нетерминалов и СКС с поддержкой лексики
  • Алгоритм Коллинза (Collins 1999)
  • Методы оценки алгоритмов статистического синтаксического разбора
  • В конце лекции обсуждается вопрос связи вероятностных алгоритмов синтаксического разбора и чтения текстов людьми.

Доступны слайды лекции 5. На лекции обсуждались

  • некоторые особенности грамматики естественных языков;
  • наиболее используемые типы формальных: контекстно-свободные грамматики, грамматики зависимостей и категориальные грамматики;
  • алгоритмы синтаксического разбора: метод рекурсивного спуска (top-down parsing), восходящий анализ (bottom-up parsing), алгоритм Кока-Янгера-Касами (CKY Parsing)
  • фрагментирование (Partial parsing, Shallow parsing, Chunkin) и подходы к фрагментированию.

Как и договорились, я сделал классификатор, точность и полноту которого надо превысить, чтобы была возможность получить отличную оценку на экзамене. Он называется ExcellentBaseline и имеет F1 меру 77.11%.

Детали этого классификатора будут обнародованы после окончания соревнования.

Стала доступна таблица с результатами тестирования практического задания. Пока там есть проблемы с русскими названиями, но мы постараемся скоро все починить.

Выложил слайды четвертой лекции.

На лекции обсуждались

  • Марковские модели
  • Прямой алгоритм
  • Алгоритм Витерби
  • Линейная регрессия
  • Логистическая регрессия
  • Полиномиальная логистическая регрессия (Метод максимальной энтропии)
  • Марковские модели максимальной энтропии
Для лучшего понимания, рекомендую следующую литературу.
  • Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press. (Главы 9 и 10). Эту книжку легко найти в Интернете.
  • Первые лекции Стэнфордского курса по машинному обучению http://see.stanford.edu/materials/aimlcs229/cs229-notes1.pdf (На том же сайте можно найти видео. Про линейную регрессию рассказывается во второй лекции, про логистическую - в третьей и четвертой)

Подняли систему для проверки практического задания. Всю информацию можно получить на соответствующей страничке.

Пока еще недоступна страничка, где будут публиковаться все результаты. Мы постараемся сделать ее в ближайшее время.

 

Выложил лекцию 3: слайды и примеры программ.

На лекции обсуждались:

  • Модель N-грамм для моделирования языка
  • Методы сглаживания
  • Задача определения частей речи и подходы к ее решению

На лекции, обсуждалась необходимость ввода символов начала и конца предложения, так как в противном случае вероятность языка будет равна бесконечности. Это замечание было сделано в статье "An Empirical Study of Smoothing Techniques for Language Modeling" (в разделе 1.1 и примечании 1).

Кстати, очень рекомендую статью, чтобы разобраться в различных методах сглаживания.

Аудитория

No comments

Со следующего раза переезжаем в потоковую аудиторию П-5!

Выложил слайды (lecture2.pdf) и примеры программ (lecture2.zip).

На лекции обсуждались

  • регулярные выражения и их практическое применение;
  • детерминированные и недетерминированные конечные автоматы;
  • их преимущества и недостатки;
  • регулярные языки;
  • связь конечных автоматов, регулярных выражений и регулярных языков.

Задания для тренировки

  • Написать аналог ELIZA
  • Реализовать конечный автомат для распознавания всех русских числительных
  • Спроектировать КА для дат: March 12, the 22nd of November, Christmas
  • Расширить предыдущий автомат относительными датами: yesterday, tomorrow, a week from tomorrow, the day before yesterday, three weeks from Saturday, next Monday, ...