Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Browsing Posts in Uncategorized

Вопрос про сроки сдачи задания я обсуждал на лекции. Но раз этот вопрос  интересует и тех, кто не ходит на лекции, напишу здесь. Последний срок для преодоления нижней границы воскресенье 4 декабря. До экзамена будут допущены только те люди, которые до 0 часов 00 минут 5 декабря прислали свои решения, имеющие F1-меру большую чем нижняя […]

Готова финальная версия слайдов к седьмой лекции. На лекции обсуждались вопросы, связанные с лексической семантикой (lexical semantics) и вычислительной лексической семантикой (computational lexical semantics). Обсуждались основные лингвистические понятия, такие как омонимия и ее типы, многозначность, а также отношения между словами. WordNet и его применение Задача разрешения лексической многозначности (Word Sense Disambiguation) Алгоритмы классификации: наивный байесовский […]

Чат бот

No comments

По мотивам второй лекции Василий Куликов написал Jubber бот. Он будет некоторое время (пока не упадет :)) доступен для тестирования по адресу eliza.the.bot@gmail.com. Исходный код можно скачать по ссылке bot.zip. Он требует наличие библиотеки XMPP.

Доступны слайды шестой лекции. Рассмариваются Стохастические контекстно-свободные грамматики (СКС) Применение СКС к разрешению синтаксической многозначности и моделированию языка Вероятностная версия алгоритма Кока-Янгера-Касами и обучение СКС Проблемы СКС и подходы к их решению: разделение и слияние нетерминалов и СКС с поддержкой лексики Алгоритм Коллинза (Collins 1999) Методы оценки алгоритмов статистического синтаксического разбора В конце лекции обсуждается вопрос связи вероятностных […]

Доступны слайды лекции 5. На лекции обсуждались некоторые особенности грамматики естественных языков; наиболее используемые типы формальных: контекстно-свободные грамматики, грамматики зависимостей и категориальные грамматики; алгоритмы синтаксического разбора: метод рекурсивного спуска (top-down parsing), восходящий анализ (bottom-up parsing), алгоритм Кока-Янгера-Касами (CKY Parsing) фрагментирование (Partial parsing, Shallow parsing, Chunkin) и подходы к фрагментированию.

Как и договорились, я сделал классификатор, точность и полноту которого надо превысить, чтобы была возможность получить отличную оценку на экзамене. Он называется ExcellentBaseline и имеет F1 меру 77.11%. Детали этого классификатора будут обнародованы после окончания соревнования.

Стала доступна таблица с результатами тестирования практического задания. Пока там есть проблемы с русскими названиями, но мы постараемся скоро все починить.

Выложил слайды четвертой лекции. На лекции обсуждались Марковские модели Прямой алгоритм Алгоритм Витерби Линейная регрессия Логистическая регрессия Полиномиальная логистическая регрессия (Метод максимальной энтропии) Марковские модели максимальной энтропии Для лучшего понимания, рекомендую следующую литературу. Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press. (Главы 9 и 10). Эту книжку легко […]

Подняли систему для проверки практического задания. Всю информацию можно получить на соответствующей страничке. Пока еще недоступна страничка, где будут публиковаться все результаты. Мы постараемся сделать ее в ближайшее время.  

Выложил лекцию 3: слайды и примеры программ. На лекции обсуждались: Модель N-грамм для моделирования языка Методы сглаживания Задача определения частей речи и подходы к ее решению