Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Browsing Posts in Uncategorized

Доступны слайды седьмой лекции. На лекции обсуждаются Основные понятия лексической семантики Слова и отношения между ними Словари и тезаурусы Вычислительная семантика Разрешение лексической многозначности Семантическая близость слов Некоторые современные направления  

Готовы слайды к шестой лекции. На лекции рассматриваются проблема синтаксической многозначности и  статистические алгоритмы синтаксического анализа.

Выложены слайды пятой лекции.

Доступны слайды четвертой лекции. Темы лекции: Модель N-грамм Оценка вероятности высказывания Сглаживание (Лапласа и Откат) Оценка качества. Тренировочный и проверочный корпуса Задача определения частей речи и существующие подходы к ее решению Алгоритм Витерби и поиск наиболее вероятной последовательности тэгов.

В слайды первой лекции закралась ошибка: были даны неправильные определения точности и полноты. Сейчас все исправлено.

Доступна вся информация о практическом задании и система тестирования.

Слайды третьей лекции доступны на сайте. Вопросы рассматриваемые на лекции: словосочетания и коллокации словосочетания в различных приложениях, в том числе в задаче выделения ключевых слов статистические методы поиска словосочетаний (частота, фильтрация по тэгам, мат. ожидание и дисперсия) применение статистических критериев для поиска словосочетаний (T-критерий Стьюдента, критерий Хи-квадрат, критерий отношения правдоподобия)  

Доступны слайды второй лекции (lecture2.pdf). Рассматриваемые темы: формальные языки; регулярные выражения и их практическое применение; детерминированные и недетерминированные конечные автоматы; регулярные языки; связь конечных автоматов, регулярных выражений и регулярных языков.

Выложил слайды к первой лекции. На лекции рассматриваются Организационные вопросы Язык программирования Python Основные проблемы обработки текстов

Первое занятие состоится в аудитории П-6 в пятницу 28-го сентября в 18.00. На вводной лекции будут рассмотрены классические задачи обработки текстов и типичные проблемы, возникающие при решении этих задач. Также будут обсуждаться некоторые организационные моменты. Приглашаются все, кто хочет понять, о чем будет спецкурс, и что нужно для того чтобы успешно его завершить.