О курсе

Внимание! Первая лекция в 2019 году состоится в среду 11 сентября в 10.30, ауд. 523

Преподаватель:

к.ф.-м.н., доцент кафедры СП ВМК МГУ, заведующий отделом ИСП РАН Турдаков Денис Юрьевич

Лекторы:

  1. н.с. ИСП РАН Недумов Ярослав Ростиславович
  2. м.н.с. ИСП РАН Майоров Владимир Дмитриевич
  3. ст.-иссл. ИСП РАН Архипенко Константин Владимирович
  4. ст. лаб. ИСП РАН Трифонов Владислав Дмитриевич

Аннотация

Спецкурс предназначен для студентов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.

Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.

Литература

  • Daniel Jurafsky and James H. Martin. 2008. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Second Edition. Prentice Hall.
  • Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press.
  • Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python. O'Reilly Media, 2009 (http://www.nltk.org/book)
  • Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep learning. MIT Press. 2016
  • ACL Anthology

План на 2019 год и материалы к лекциям 

Лекция Слайды Лектор
Лекция 1: Задачи обработки текстов lecture1-2019 Турдаков
Лекция 2: Методы машинного обучения для обработки текстов. lecture2-2019 Турдаков
Лекция 3: Искусственные нейронные сети для обработки текстов lecture3-2019 Трифонов
Лекция 4: Статистические методы в обработки текстов. Поиск словосочетаний. lecture4-2019 Турдаков
Лекция 5: Векторные представления слов lecture5-2019 Майоров
Лекция 6: Базовые задачи обработки текстов Майоров
Лекция 7: Синтаксический анализ 1 Майоров
Лекция 8: Синтаксический анализ 2 Майоров
Лекция 9: Лексическая семантика Турдаков
Лекция 10: Прикладные задачи обработки текстов Турдаков
Лекция 11: Информационный поиск Недумов
Лекция 12: Машинный перевод Турдаков
Лекция 13: Кластеризация текстов. Тематическое моделирование Архипенко