Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Browsing Posts in Uncategorized

Доступны слайды шестой лекции. Рассмариваются Стохастические контекстно-свободные грамматики (СКС) Применение СКС к разрешению синтаксической многозначности и моделированию языка Вероятностная версия алгоритма Кока-Янгера-Касами и обучение СКС Проблемы СКС и подходы к их решению: разделение и слияние нетерминалов и СКС с поддержкой лексики Алгоритм Коллинза (Collins 1999) Методы оценки алгоритмов статистического синтаксического разбора В конце лекции обсуждается вопрос связи вероятностных […]

Доступны слайды лекции 5. На лекции обсуждались некоторые особенности грамматики естественных языков; наиболее используемые типы формальных: контекстно-свободные грамматики, грамматики зависимостей и категориальные грамматики; алгоритмы синтаксического разбора: метод рекурсивного спуска (top-down parsing), восходящий анализ (bottom-up parsing), алгоритм Кока-Янгера-Касами (CKY Parsing) фрагментирование (Partial parsing, Shallow parsing, Chunkin) и подходы к фрагментированию.

Как и договорились, я сделал классификатор, точность и полноту которого надо превысить, чтобы была возможность получить отличную оценку на экзамене. Он называется ExcellentBaseline и имеет F1 меру 77.11%. Детали этого классификатора будут обнародованы после окончания соревнования.

Стала доступна таблица с результатами тестирования практического задания. Пока там есть проблемы с русскими названиями, но мы постараемся скоро все починить.

Выложил слайды четвертой лекции. На лекции обсуждались Марковские модели Прямой алгоритм Алгоритм Витерби Линейная регрессия Логистическая регрессия Полиномиальная логистическая регрессия (Метод максимальной энтропии) Марковские модели максимальной энтропии Для лучшего понимания, рекомендую следующую литературу. Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press. (Главы 9 и 10). Эту книжку легко […]

Подняли систему для проверки практического задания. Всю информацию можно получить на соответствующей страничке. Пока еще недоступна страничка, где будут публиковаться все результаты. Мы постараемся сделать ее в ближайшее время.  

Выложил лекцию 3: слайды и примеры программ. На лекции обсуждались: Модель N-грамм для моделирования языка Методы сглаживания Задача определения частей речи и подходы к ее решению

На лекции, обсуждалась необходимость ввода символов начала и конца предложения, так как в противном случае вероятность языка будет равна бесконечности. Это замечание было сделано в статье "An Empirical Study of Smoothing Techniques for Language Modeling" (в разделе 1.1 и примечании 1). Кстати, очень рекомендую статью, чтобы разобраться в различных методах сглаживания.

Аудитория

No comments

Со следующего раза переезжаем в потоковую аудиторию П-5!

Выложил слайды (lecture2.pdf) и примеры программ (lecture2.zip). На лекции обсуждались регулярные выражения и их практическое применение; детерминированные и недетерминированные конечные автоматы; их преимущества и недостатки; регулярные языки; связь конечных автоматов, регулярных выражений и регулярных языков. Задания для тренировки Написать аналог ELIZA Реализовать конечный автомат для распознавания всех русских числительных Спроектировать КА для дат: March 12, […]