Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

На лекции, обсуждалась необходимость ввода символов начала и конца предложения, так как в противном случае вероятность языка будет равна бесконечности. Это замечание было сделано в статье "An Empirical Study of Smoothing Techniques for Language Modeling" (в разделе 1.1 и примечании 1).

Кстати, очень рекомендую статью, чтобы разобраться в различных методах сглаживания.

Аудитория

No comments

Со следующего раза переезжаем в потоковую аудиторию П-5!

Выложил слайды (lecture2.pdf) и примеры программ (lecture2.zip).

На лекции обсуждались

  • регулярные выражения и их практическое применение;
  • детерминированные и недетерминированные конечные автоматы;
  • их преимущества и недостатки;
  • регулярные языки;
  • связь конечных автоматов, регулярных выражений и регулярных языков.

Задания для тренировки

  • Написать аналог ELIZA
  • Реализовать конечный автомат для распознавания всех русских числительных
  • Спроектировать КА для дат: March 12, the 22nd of November, Christmas
  • Расширить предыдущий автомат относительными датами: yesterday, tomorrow, a week from tomorrow, the day before yesterday, three weeks from Saturday, next Monday, ...

Выложил слайды к первой лекции (lecture1.pdf)

На лекции обсуждались

  • организационные вопросы;
  • язык Python, используемый в курсе;
  • задачи обработки текстов;
  • в чем сложность обработки тестов на естественных языках.