Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Доступны слайды седьмой лекции. На лекции обсуждаются

Основные понятия лексической семантики

  • Слова и отношения между ними
  • Словари и тезаурусы

Вычислительная семантика

  • Разрешение лексической многозначности
  • Семантическая близость слов
  • Некоторые современные направления

 

Готовы слайды к шестой лекции. На лекции рассматриваются проблема синтаксической многозначности и  статистические алгоритмы синтаксического анализа.

Выложены слайды пятой лекции.

Доступны слайды четвертой лекции. Темы лекции:

  • Модель N-грамм
  • Оценка вероятности высказывания
  • Сглаживание (Лапласа и Откат)
  • Оценка качества. Тренировочный и проверочный корпуса
  • Задача определения частей речи и существующие подходы к ее решению
  • Алгоритм Витерби и поиск наиболее вероятной последовательности тэгов.

В слайды первой лекции закралась ошибка: были даны неправильные определения точности и полноты. Сейчас все исправлено.

Доступна вся информация о практическом задании и система тестирования.

Слайды третьей лекции доступны на сайте. Вопросы рассматриваемые на лекции:

  • словосочетания и коллокации
  • словосочетания в различных приложениях, в том числе в задаче выделения ключевых слов
  • статистические методы поиска словосочетаний (частота, фильтрация по тэгам, мат. ожидание и дисперсия)
  • применение статистических критериев для поиска словосочетаний (T-критерий Стьюдента, критерий Хи-квадрат, критерий отношения правдоподобия)

 

Доступны слайды второй лекции (lecture2.pdf). Рассматриваемые темы:

  • формальные языки;
  • регулярные выражения и их практическое применение;
  • детерминированные и недетерминированные конечные автоматы;
  • регулярные языки;
  • связь конечных автоматов, регулярных выражений и регулярных языков.

Выложил слайды к первой лекции. На лекции рассматриваются

  • Организационные вопросы
  • Язык программирования Python
  • Основные проблемы обработки текстов

Первое занятие состоится в аудитории П-6 в пятницу 28-го сентября в 18.00. На вводной лекции будут рассмотрены классические задачи обработки текстов и типичные проблемы, возникающие при решении этих задач. Также будут обсуждаться некоторые организационные моменты.

Приглашаются все, кто хочет понять, о чем будет спецкурс, и что нужно для того чтобы успешно его завершить.