Основы обработки текстов

Спецкурс для студентов и аспирантов ВМК МГУ и ФКН ВШЭ

Вниманию студентов ВМК. Лекции 15 октября не будет. Следующая лекция 22 октября. 

Используйте освободившееся время на решение практической части.

Правила дополнены. Теперь на проверяющей машине стоят библиотеки pytorch и fasttext, а также можно использовать модели fasttext, которые доступны во вкладке "Дополнительные материалы".

Лекция Слайды Видео
Лекция 1. Задачи обработки текстов  lecture1-2016 Лекция 1
Лекция 2. Регулярные выражения и конечные автоматы.  lecture2-2016 Лекция 2
Лекция 3. Языковые модели и задача определения частей речи lecture3-2016  Лекция 3
Лекция 4. Методы поиска словосочетаний lecture4-2016  Лекция 4
Лекция 5. Методы классификации и кластеризации  lecture5-2016  Лекция 5
Лекция 6. Методы обработки текстов на основе искусственных нейронных сетей  lecture6-2016  Лекция 6
Лекция 7. Контекстно-свободные грамматики и синтаксический анализ  lecture7-2016  Лекция 7
Лекция 8. Статистические методы синтаксического анализа  lecture8-2016  Лекция 8
Лекция 9. Лексическая семантика  lecture9-2016  Лекция 9
Лекция 10. Информационный поиск, вопросно-ответные системы и автоматическое реферирование lecture10_2016  Лекция 10
Лекция 11. Машинный перевод  lecture11_2016  Лекция 11
Лекция 12. Тематическое моделирование  lecture12-2016  Лекция 12

Доступно описание практического задания. Ссылка в верхнем меню.

Экзамен для студентов ВШЭ состоится 10 февраля. Начало в 12.00.

Экзамен на ВМК пройдет 23 января (понедельник) в 523 аудитории. Начало в 10.00.

В ведомость я поставил следующие оценки: МГУ-tpc

До вечера 29 декабря можно прислать решения для исправление неудовлетворительных отметок (первая комиссия), чтобы на студенческой комиссии 30 декабря можно было отчитаться. Вторая комиссия будет в феврале.

В любом случае, должны быть сданы оба решения.

По сравнению с предыдущем годом появились вопросы про нейронные сети и синтаксический разбор в грамматику зависимостей: Билеты 2016.

Оценки

Comments off

В связи с тем, что часть практикума, связанная с разметкой потребовала большего времени, я решил изменить правила игры в пользу студентов и добавить 2 бонусных балла, тем, кто разметил тренировочную выборку до первого дедлайна и 1 балл - для тех, кто разметил ее до второго дедлайна. При этом, на положительную отметку смогли рассчитывать только студенты, приславшие собственные решения по каждому из заданий. Списки оценок прилагаются:

Студенты, получившие неудовлетворительные оценки, все-равно должны сдать оба задания для получения зачета. У студентов, имеющих желание повысить текущую отметку, также есть возможность это сделать, прислав до зачета оригинальное решение.

Если есть вопросы, пишите мне на почту.

Все дедлайны прошли, по их результатам будут выставлены оценки. 

Информация для тех, кто пропустил дедлайны: решения все еще принимаются, но со снижением количества баллов. Студентам ВМК рекомендуется все сдать до конца этой недели, тогда вы сможете получить зачет в сессию. Те, кто не сдаст, должны прислать решение до даты проведения комиссии.