Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Feedback

4 comments

Итак, курс завершился в первый раз. Оставляйте отзывы, пожелания для улучшения и свои идеи для будущих курсов в комментариях.

Так как некоторые из участников не сумели совладать с codecs.open, то теперь можно послать письмо в следующем формате:

имя_системы
имя_участника
plain

Магическое слово "plain" отключит в вашем решении codecs.open, и файлы будут открываться при помощи стандартного open, как это реализовано в baseline.

Готовы билеты к экзамену (скачать в pdf).

  1. Задачи обработки текста. Многозначность при обработке текста. Проблема понимания
  2. Регулярные выражения
  3. Конечные автоматы, распознавание языка с помощью КА
  4. Регулярные языки и конечные автоматы. Построение КА для регулярных выражений
  5. Модель N-грамм. Оценка вероятности высказывания
  6. Модель N-грамм. Сглаживание (Лапласа и Откат)
  7. Модель N-грамм. Оценка качества. Тренировочный и проверочный корпуса
  8. Задача определения частей речи. Существующие подходы
  9. Использование скрытой марковской модели для определения частей речи
  10. Скрытые марковские модели. Вероятность последовательности. Прямой алгоритм
  11. Скрытые марковские модели. Наиболее правдоподобное объяснение. Алгоритм Витерби
  12. Модели классификации. Наивный байесовский классификатор
  13. Модели классификации. Логистическая регрессия
  14. Модели классификации. Модель максимальной энтропии
  15. Модели классификации. Марковская модель максимальной энтропии
  16. Типы грамматик. Грамматика составляющих. Грамматика зависимостей. Категориальная грамматика
  17. Контекстно-свободные грамматики. КС грамматики и регулярные языки. Банк деревьев.
  18. Синтаксический разбор. Разбор сверху вниз и снизу вверх
  19. Синтаксический разбор. Алгоритм Кока-Янгера-Касами (CKY parsing). Эквивалентность КС грамматик
  20. Фрагментирование
  21. Стохастические контекстно-свободные грамматики. Разрешение синтаксической многозначности
  22. Моделирование языка. Обучение стохастических КС грамматик
  23. Вероятностная версия алгоритма Кока-Янгера-Касами. Оценка качества
  24. Проблемы стохастический КС грамматик. Алгоритм Коллинза. Оценка качества
  25. Лексическая семантика. WordNet. Значения слов
  26. Разрешение лексической многозначности. Алгоритмы классификации. Самонастройка. Методы оценки качества
  27. Разрешение лексической многозначности. Методы основанные на словарях и тезаурусах. Варианты алгоритма Леска. Методы оценки качества
  28. Семантическая близость слов. Подходы на основе тезаурусов. Методы оценки качества
  29. Семантическая близость слов. Подходы на основе статистик. Методы оценки качества
  30. Вопросно-ответные системы. Общая архитектура. Обработка запроса
  31. Вопросно-ответные системы. Общая архитектура. Извлечение фрагментов текста
  32. Вопросно-ответные системы. Общая архитектура. Обработка ответа
  33. Автоматическое реферирование. Общая архитектура
  34. Машинный перевод. Классические подходы
  35. Статистический машинный перевод. Модель зашумленного канала. Модель перевода на основе фраз. Выравнивание фраз (если слова выровнены). Декодирование
  36. Статистический машинный перевод. Выравнивание слов. Модель IBM Model 1
  37. Статистический машинный перевод. Выравнивание слов. Тренировка моделей выравнивания
  38. Статистический машинный перевод. Методы оценки качества. BLUE

Выложил слайды к девятой лекции. На лекции рассматриваются

  • Классические подходы к машинному переводу
  • Статистический машинный перевод
  • Модель зашумленного канала
  • Модель перевода на основе фраз
  •  Выравнивание слов. Модель IBM Model 1
  • Тренировка моделей выравнивания
  • Декодирование
  • Методы оценки качества. Метрика BLUE

На странице с описанием практического задания появился список часто (а, точнее, непрерывно) задаваемых вопросов, прочтение которого настоятельно рекомендуется.

Есть множество способов "взломать" систему тестирования:

  • узнать тесты и обучиться на них (как сегодня ночью сделал человек с ником Василий Тапочкин),
  •  расширить тренировочный набор всеми доступными произведениями автора и обучиться на них,
  • еще всякие способы...
Мы не будем тратить время на закрытие всех дырок, потому как такие "обходные маневры" просто не будут засчитываться на экзамене. При этом мы не будем убирать их из таблицы результатов, но будем учитывать при распределении "автоматов" на экзамене. Чем больше мусора в верхушке таблицы - тем меньше автоматов. (Пока я обещал только один "автомат", его "получит" виртуальный "Василий Тапочкин" из 666 группы).

Выложил слайды к восьмой лекции. Темы рассмотренные на лекции:

  1. Вопросно-ответные системы
    • Обработка запроса
    • Извлечение фрагментов текста
    • Обработка ответа
  2. Системы автоматического реферирования
    • Отбор контента
    • Упорядочение информации
    • Переконструирование предложений

Вопрос про сроки сдачи задания я обсуждал на лекции. Но раз этот вопрос  интересует и тех, кто не ходит на лекции, напишу здесь.

Последний срок для преодоления нижней границы воскресенье 4 декабря. До экзамена будут допущены только те люди, которые до 0 часов 00 минут 5 декабря прислали свои решения, имеющие F1-меру большую чем нижняя граница (0.578313).

Студенты, допущенные к экзамену, могу улучшать свои решения до начала экзамена, то есть до 18.00 9 декабря. Перед экзаменом, я расскажу как работают лучшие методы, и после этого  уже не будет иметь смысла учитывать модификации программ.

После экзамена система закрыта не будет и желающие смогут продолжить соревнование.

Готова финальная версия слайдов к седьмой лекции. На лекции обсуждались вопросы, связанные с лексической семантикой (lexical semantics) и вычислительной лексической семантикой (computational lexical semantics).

  • Обсуждались основные лингвистические понятия, такие как омонимия и ее типы, многозначность, а также отношения между словами.
  • WordNet и его применение
  • Задача разрешения лексической многозначности (Word Sense Disambiguation)
  • Алгоритмы классификации: наивный байесовский и список принятия решений, и их применение к задаче разрешения лексической многозначности
  • Алгоритмы, основанные на тезаурусах и словарях
  • Подход, основанный на самонастройке (bootstrapping)
  • Методы оценки алгоритмов
  • Нижняя и верхняя оценки точности и полноты алгоритмов
  • Подходы к оценке семантической близости слов: на основе тезаурусов и статистический
  • Некоторые современные направления лексической семантики

 

Чат бот

No comments

По мотивам второй лекции Василий Куликов написал Jubber бот. Он будет некоторое время (пока не упадет :)) доступен для тестирования по адресу eliza.the.bot@gmail.com.

Исходный код можно скачать по ссылке bot.zip. Он требует наличие библиотеки XMPP.