О курсе

Преподаватель:

к.ф.-м.н., доцент кафедры СП ВМК МГУ / ФКН ВШЭ, заведующий отделом ИСП РАН Турдаков Денис Юрьевич

Лекторы:

  1. м.н.с. ИСП РАН Андрианов Иван Алексеевич
  2. м.н.с. ИСП РАН Майоров Владимир Дмитриевич
  3. н.с. ИСП РАН Сысоев Андрей Анатольевич

Аннотация

Спецкурс предназначен для студентов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.

Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.

Рассматриваемые темы

  1. Распознавание именованных сущностей, машинное обучение с учителем
  2. Разметка последовательности, нейронные сети
  3. Синонимия: дистрибутивные векторные представления слов
  4. Символьные представления слов
  5. Базовые задачи обработки текстов
  6. Синтаксический анализ
  7. Машинный перевод
  8. Разрешение кореферентности
  9. Другие задачи обработки текстов
  10. * Извлечение отношений
  11. * Привязка к базам знаний
  12. * Перенос знаний, совместное обучение

На экзамен по курсу выносятся все вопросы, рассмотренные на лекциях 1-9, а также постановки задач, рассмотренных на лекциях 10-12.

Литература

  • Daniel Jurafsky and James H. Martin. 2008. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Second Edition. Prentice Hall.
  • Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press.
  • Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python. O'Reilly Media, 2009 (http://www.nltk.org/book)
  • Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep learning. MIT Press. 2016
  • ACL Anthology

План на 2018 год и материалы к лекциям 

Лекция Слайды Лектор
Лекция 1: Распознавание именованных сущностей, машинное обучение с учителем lecture-1.pdf Андрианов
Лекция 2: Разметка последовательности, нейронные сети lecture-2.pdf Андрианов
Лекция 3: Синонимия: дистрибутивные векторные представления слов lecture-3.pdf Майоров
Лекция 4: Символьные представления слов lecture-4.pdf Андрианов
Лекция 5: Базовые задачи обработки текстов lecture-5.pdf Майоров
Лекция 6: Синтаксический анализ lecture-6.pdf Майоров
Лекция 7: Машинный перевод lecture-7.pdf Сысоев
Лекция 8: Разрешение кореферентности lecture-8.pdf Сысоев
Лекция 9: Другие задачи обработки текстов Майоров
Лекция 10: Извлечение отношений Андрианов
Лекция 11: Привязка к базам знаний Сысоев
Лекция 12: Перенос знаний, совместное обучение Андрианов