Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Browsing Posts in Uncategorized

В осеннем семестре 2012 года спецкурс начнется предположительно 28 сентября. По сравнению с прошлым годом, будет добавлена лекция про поиск словосочетаний, а также обновятся все прошлогодние слайды. В этом году в качестве практического задания будем решать задачу извлечение ключевых слов из текста. Детали будут объявлены позднее.

В этом семестре на ВМК будет читаться спецкурс "Автоматический синтаксический анализ текстов на естественном языке". С деталями и лектором я не знаком, но судя по описанию, там будет рассмотрен синтаксический уровень анализа намного более подробно, чем в лекциях 5 и 6. Так что, если Вы интересуетесь темой, рекомендую послушать. Кроме того, лектор - руководитель группы семантического анализа […]

Выкладываю коллекцию документов, на которых проводилось тестирование: testingSet.zip. Для тестирования использовался скрипт Main.py.

Feedback

4 comments

Итак, курс завершился в первый раз. Оставляйте отзывы, пожелания для улучшения и свои идеи для будущих курсов в комментариях.

Так как некоторые из участников не сумели совладать с codecs.open, то теперь можно послать письмо в следующем формате: имя_системы имя_участника plain Магическое слово "plain" отключит в вашем решении codecs.open, и файлы будут открываться при помощи стандартного open, как это реализовано в baseline.

Готовы билеты к экзамену (скачать в pdf). Задачи обработки текста. Многозначность при обработке текста. Проблема понимания Регулярные выражения Конечные автоматы, распознавание языка с помощью КА Регулярные языки и конечные автоматы. Построение КА для регулярных выражений Модель N-грамм. Оценка вероятности высказывания Модель N-грамм. Сглаживание (Лапласа и Откат) Модель N-грамм. Оценка качества. Тренировочный и проверочный корпуса Задача определения […]

Выложил слайды к девятой лекции. На лекции рассматриваются Классические подходы к машинному переводу Статистический машинный перевод Модель зашумленного канала Модель перевода на основе фраз  Выравнивание слов. Модель IBM Model 1 Тренировка моделей выравнивания Декодирование Методы оценки качества. Метрика BLUE

На странице с описанием практического задания появился список часто (а, точнее, непрерывно) задаваемых вопросов, прочтение которого настоятельно рекомендуется.

Есть множество способов "взломать" систему тестирования: узнать тесты и обучиться на них (как сегодня ночью сделал человек с ником Василий Тапочкин),  расширить тренировочный набор всеми доступными произведениями автора и обучиться на них, еще всякие способы... Мы не будем тратить время на закрытие всех дырок, потому как такие "обходные маневры" просто не будут засчитываться на экзамене. При этом […]

Выложил слайды к восьмой лекции. Темы рассмотренные на лекции: Вопросно-ответные системы Обработка запроса Извлечение фрагментов текста Обработка ответа Системы автоматического реферирования Отбор контента Упорядочение информации Переконструирование предложений