Кто самый умный

Есть множество способов "взломать" систему тестирования:

  • узнать тесты и обучиться на них (как сегодня ночью сделал человек с ником Василий Тапочкин),
  •  расширить тренировочный набор всеми доступными произведениями автора и обучиться на них,
  • еще всякие способы...
Мы не будем тратить время на закрытие всех дырок, потому как такие "обходные маневры" просто не будут засчитываться на экзамене. При этом мы не будем убирать их из таблицы результатов, но будем учитывать при распределении "автоматов" на экзамене. Чем больше мусора в верхушке таблицы - тем меньше автоматов. (Пока я обещал только один "автомат", его "получит" виртуальный "Василий Тапочкин" из 666 группы).

Лекция 8. Вопросно-ответные системы и автоматическое реферирование

Выложил слайды к восьмой лекции. Темы рассмотренные на лекции:

  1. Вопросно-ответные системы
    • Обработка запроса
    • Извлечение фрагментов текста
    • Обработка ответа
  2. Системы автоматического реферирования
    • Отбор контента
    • Упорядочение информации
    • Переконструирование предложений

Последний срок сдачи задания

Вопрос про сроки сдачи задания я обсуждал на лекции. Но раз этот вопрос  интересует и тех, кто не ходит на лекции, напишу здесь.

Последний срок для преодоления нижней границы воскресенье 4 декабря. До экзамена будут допущены только те люди, которые до 0 часов 00 минут 5 декабря прислали свои решения, имеющие F1-меру большую чем нижняя граница (0.578313).

Студенты, допущенные к экзамену, могу улучшать свои решения до начала экзамена, то есть до 18.00 9 декабря. Перед экзаменом, я расскажу как работают лучшие методы, и после этого  уже не будет иметь смысла учитывать модификации программ.

После экзамена система закрыта не будет и желающие смогут продолжить соревнование.

Лекция 7. Лексическая семантика

Готова финальная версия слайдов к седьмой лекции. На лекции обсуждались вопросы, связанные с лексической семантикой (lexical semantics) и вычислительной лексической семантикой (computational lexical semantics).

  • Обсуждались основные лингвистические понятия, такие как омонимия и ее типы, многозначность, а также отношения между словами.
  • WordNet и его применение
  • Задача разрешения лексической многозначности (Word Sense Disambiguation)
  • Алгоритмы классификации: наивный байесовский и список принятия решений, и их применение к задаче разрешения лексической многозначности
  • Алгоритмы, основанные на тезаурусах и словарях
  • Подход, основанный на самонастройке (bootstrapping)
  • Методы оценки алгоритмов
  • Нижняя и верхняя оценки точности и полноты алгоритмов
  • Подходы к оценке семантической близости слов: на основе тезаурусов и статистический
  • Некоторые современные направления лексической семантики

 

Чат бот

По мотивам второй лекции Василий Куликов написал Jubber бот. Он будет некоторое время (пока не упадет :)) доступен для тестирования по адресу eliza.the.bot@gmail.com.

Исходный код можно скачать по ссылке bot.zip. Он требует наличие библиотеки XMPP.

Лекция 6. Статистические методы синтаксического анализа

Доступны слайды шестой лекции. Рассмариваются

  • Стохастические контекстно-свободные грамматики (СКС)
  • Применение СКС к разрешению синтаксической многозначности и моделированию языка
  • Вероятностная версия алгоритма Кока-Янгера-Касами и обучение СКС
  • Проблемы СКС и подходы к их решению: разделение и слияние нетерминалов и СКС с поддержкой лексики
  • Алгоритм Коллинза (Collins 1999)
  • Методы оценки алгоритмов статистического синтаксического разбора
  • В конце лекции обсуждается вопрос связи вероятностных алгоритмов синтаксического разбора и чтения текстов людьми.

Лекция 5. Контекстно-свободные грамматики и синтаксический анализ

Доступны слайды лекции 5. На лекции обсуждались

  • некоторые особенности грамматики естественных языков;
  • наиболее используемые типы формальных: контекстно-свободные грамматики, грамматики зависимостей и категориальные грамматики;
  • алгоритмы синтаксического разбора: метод рекурсивного спуска (top-down parsing), восходящий анализ (bottom-up parsing), алгоритм Кока-Янгера-Касами (CKY Parsing)
  • фрагментирование (Partial parsing, Shallow parsing, Chunkin) и подходы к фрагментированию.

Уровень классификатора на оценку отлично

Как и договорились, я сделал классификатор, точность и полноту которого надо превысить, чтобы была возможность получить отличную оценку на экзамене. Он называется ExcellentBaseline и имеет F1 меру 77.11%.

Детали этого классификатора будут обнародованы после окончания соревнования.