Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Вопрос про сроки сдачи задания я обсуждал на лекции. Но раз этот вопрос  интересует и тех, кто не ходит на лекции, напишу здесь.

Последний срок для преодоления нижней границы воскресенье 4 декабря. До экзамена будут допущены только те люди, которые до 0 часов 00 минут 5 декабря прислали свои решения, имеющие F1-меру большую чем нижняя граница (0.578313).

Студенты, допущенные к экзамену, могу улучшать свои решения до начала экзамена, то есть до 18.00 9 декабря. Перед экзаменом, я расскажу как работают лучшие методы, и после этого  уже не будет иметь смысла учитывать модификации программ.

После экзамена система закрыта не будет и желающие смогут продолжить соревнование.

Готова финальная версия слайдов к седьмой лекции. На лекции обсуждались вопросы, связанные с лексической семантикой (lexical semantics) и вычислительной лексической семантикой (computational lexical semantics).

  • Обсуждались основные лингвистические понятия, такие как омонимия и ее типы, многозначность, а также отношения между словами.
  • WordNet и его применение
  • Задача разрешения лексической многозначности (Word Sense Disambiguation)
  • Алгоритмы классификации: наивный байесовский и список принятия решений, и их применение к задаче разрешения лексической многозначности
  • Алгоритмы, основанные на тезаурусах и словарях
  • Подход, основанный на самонастройке (bootstrapping)
  • Методы оценки алгоритмов
  • Нижняя и верхняя оценки точности и полноты алгоритмов
  • Подходы к оценке семантической близости слов: на основе тезаурусов и статистический
  • Некоторые современные направления лексической семантики

 

Чат бот

No comments

По мотивам второй лекции Василий Куликов написал Jubber бот. Он будет некоторое время (пока не упадет :)) доступен для тестирования по адресу eliza.the.bot@gmail.com.

Исходный код можно скачать по ссылке bot.zip. Он требует наличие библиотеки XMPP.

Доступны слайды шестой лекции. Рассмариваются

  • Стохастические контекстно-свободные грамматики (СКС)
  • Применение СКС к разрешению синтаксической многозначности и моделированию языка
  • Вероятностная версия алгоритма Кока-Янгера-Касами и обучение СКС
  • Проблемы СКС и подходы к их решению: разделение и слияние нетерминалов и СКС с поддержкой лексики
  • Алгоритм Коллинза (Collins 1999)
  • Методы оценки алгоритмов статистического синтаксического разбора
  • В конце лекции обсуждается вопрос связи вероятностных алгоритмов синтаксического разбора и чтения текстов людьми.

Доступны слайды лекции 5. На лекции обсуждались

  • некоторые особенности грамматики естественных языков;
  • наиболее используемые типы формальных: контекстно-свободные грамматики, грамматики зависимостей и категориальные грамматики;
  • алгоритмы синтаксического разбора: метод рекурсивного спуска (top-down parsing), восходящий анализ (bottom-up parsing), алгоритм Кока-Янгера-Касами (CKY Parsing)
  • фрагментирование (Partial parsing, Shallow parsing, Chunkin) и подходы к фрагментированию.

Как и договорились, я сделал классификатор, точность и полноту которого надо превысить, чтобы была возможность получить отличную оценку на экзамене. Он называется ExcellentBaseline и имеет F1 меру 77.11%.

Детали этого классификатора будут обнародованы после окончания соревнования.

Стала доступна таблица с результатами тестирования практического задания. Пока там есть проблемы с русскими названиями, но мы постараемся скоро все починить.

Выложил слайды четвертой лекции.

На лекции обсуждались

  • Марковские модели
  • Прямой алгоритм
  • Алгоритм Витерби
  • Линейная регрессия
  • Логистическая регрессия
  • Полиномиальная логистическая регрессия (Метод максимальной энтропии)
  • Марковские модели максимальной энтропии
Для лучшего понимания, рекомендую следующую литературу.
  • Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press. (Главы 9 и 10). Эту книжку легко найти в Интернете.
  • Первые лекции Стэнфордского курса по машинному обучению http://see.stanford.edu/materials/aimlcs229/cs229-notes1.pdf (На том же сайте можно найти видео. Про линейную регрессию рассказывается во второй лекции, про логистическую - в третьей и четвертой)

Подняли систему для проверки практического задания. Всю информацию можно получить на соответствующей страничке.

Пока еще недоступна страничка, где будут публиковаться все результаты. Мы постараемся сделать ее в ближайшее время.

 

Выложил лекцию 3: слайды и примеры программ.

На лекции обсуждались:

  • Модель N-грамм для моделирования языка
  • Методы сглаживания
  • Задача определения частей речи и подходы к ее решению