Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Доступны слайды четвертой лекции. Темы лекции:

  • Модель N-грамм
  • Оценка вероятности высказывания
  • Сглаживание (Лапласа и Откат)
  • Оценка качества. Тренировочный и проверочный корпуса
  • Задача определения частей речи и существующие подходы к ее решению
  • Алгоритм Витерби и поиск наиболее вероятной последовательности тэгов.

В слайды первой лекции закралась ошибка: были даны неправильные определения точности и полноты. Сейчас все исправлено.

Доступна вся информация о практическом задании и система тестирования.

Слайды третьей лекции доступны на сайте. Вопросы рассматриваемые на лекции:

  • словосочетания и коллокации
  • словосочетания в различных приложениях, в том числе в задаче выделения ключевых слов
  • статистические методы поиска словосочетаний (частота, фильтрация по тэгам, мат. ожидание и дисперсия)
  • применение статистических критериев для поиска словосочетаний (T-критерий Стьюдента, критерий Хи-квадрат, критерий отношения правдоподобия)

 

Доступны слайды второй лекции (lecture2.pdf). Рассматриваемые темы:

  • формальные языки;
  • регулярные выражения и их практическое применение;
  • детерминированные и недетерминированные конечные автоматы;
  • регулярные языки;
  • связь конечных автоматов, регулярных выражений и регулярных языков.

Выложил слайды к первой лекции. На лекции рассматриваются

  • Организационные вопросы
  • Язык программирования Python
  • Основные проблемы обработки текстов

Первое занятие состоится в аудитории П-6 в пятницу 28-го сентября в 18.00. На вводной лекции будут рассмотрены классические задачи обработки текстов и типичные проблемы, возникающие при решении этих задач. Также будут обсуждаться некоторые организационные моменты.

Приглашаются все, кто хочет понять, о чем будет спецкурс, и что нужно для того чтобы успешно его завершить.

В осеннем семестре 2012 года спецкурс начнется предположительно 28 сентября. По сравнению с прошлым годом, будет добавлена лекция про поиск словосочетаний, а также обновятся все прошлогодние слайды. В этом году в качестве практического задания будем решать задачу извлечение ключевых слов из текста. Детали будут объявлены позднее.

В этом семестре на ВМК будет читаться спецкурс "Автоматический синтаксический анализ текстов на естественном языке". С деталями и лектором я не знаком, но судя по описанию, там будет рассмотрен синтаксический уровень анализа намного более подробно, чем в лекциях 5 и 6. Так что, если Вы интересуетесь темой, рекомендую послушать. Кроме того, лектор - руководитель группы семантического анализа технологического департамента компании ABBYY.

Выкладываю коллекцию документов, на которых проводилось тестирование: testingSet.zip.

Для тестирования использовался скрипт Main.py.