Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Browsing Posts in Uncategorized

Feedback

4 comments

Итак, курс завершился в первый раз. Оставляйте отзывы, пожелания для улучшения и свои идеи для будущих курсов в комментариях.

Так как некоторые из участников не сумели совладать с codecs.open, то теперь можно послать письмо в следующем формате: имя_системы имя_участника plain Магическое слово "plain" отключит в вашем решении codecs.open, и файлы будут открываться при помощи стандартного open, как это реализовано в baseline.

Готовы билеты к экзамену (скачать в pdf). Задачи обработки текста. Многозначность при обработке текста. Проблема понимания Регулярные выражения Конечные автоматы, распознавание языка с помощью КА Регулярные языки и конечные автоматы. Построение КА для регулярных выражений Модель N-грамм. Оценка вероятности высказывания Модель N-грамм. Сглаживание (Лапласа и Откат) Модель N-грамм. Оценка качества. Тренировочный и проверочный корпуса Задача определения […]

Выложил слайды к девятой лекции. На лекции рассматриваются Классические подходы к машинному переводу Статистический машинный перевод Модель зашумленного канала Модель перевода на основе фраз  Выравнивание слов. Модель IBM Model 1 Тренировка моделей выравнивания Декодирование Методы оценки качества. Метрика BLUE

На странице с описанием практического задания появился список часто (а, точнее, непрерывно) задаваемых вопросов, прочтение которого настоятельно рекомендуется.

Есть множество способов "взломать" систему тестирования: узнать тесты и обучиться на них (как сегодня ночью сделал человек с ником Василий Тапочкин),  расширить тренировочный набор всеми доступными произведениями автора и обучиться на них, еще всякие способы... Мы не будем тратить время на закрытие всех дырок, потому как такие "обходные маневры" просто не будут засчитываться на экзамене. При этом […]

Выложил слайды к восьмой лекции. Темы рассмотренные на лекции: Вопросно-ответные системы Обработка запроса Извлечение фрагментов текста Обработка ответа Системы автоматического реферирования Отбор контента Упорядочение информации Переконструирование предложений

Вопрос про сроки сдачи задания я обсуждал на лекции. Но раз этот вопрос  интересует и тех, кто не ходит на лекции, напишу здесь. Последний срок для преодоления нижней границы воскресенье 4 декабря. До экзамена будут допущены только те люди, которые до 0 часов 00 минут 5 декабря прислали свои решения, имеющие F1-меру большую чем нижняя […]

Готова финальная версия слайдов к седьмой лекции. На лекции обсуждались вопросы, связанные с лексической семантикой (lexical semantics) и вычислительной лексической семантикой (computational lexical semantics). Обсуждались основные лингвистические понятия, такие как омонимия и ее типы, многозначность, а также отношения между словами. WordNet и его применение Задача разрешения лексической многозначности (Word Sense Disambiguation) Алгоритмы классификации: наивный байесовский […]

Чат бот

No comments

По мотивам второй лекции Василий Куликов написал Jubber бот. Он будет некоторое время (пока не упадет :)) доступен для тестирования по адресу eliza.the.bot@gmail.com. Исходный код можно скачать по ссылке bot.zip. Он требует наличие библиотеки XMPP.