Лектор: канд. физ.-мат. наук Турдаков Денис Юрьевич.

Аннотация

Спецкурс предназначен для студентов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.

Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.

Рассматриваемые темы

  1. Задачи обработки текстов
  2. Регулярные выражения и конечные автоматы
  3. Методы поиска словосочетаний
  4. N-граммы  и определение частей речи слов
  5. Методы классификации и кластеризации
  6. Контекстно-свободные грамматики и синтаксический анализ
  7. Статистические методы синтаксического анализа
  8. Лексическая семантика
  9. Информационный поиск, вопросно-ответные системы и автоматическое реферирование
  10. Машинный перевод
  11. Тематическое моделирование
  12. Распределенные методы обработки текстов

Литература

  • Daniel Jurafsky and James H. Martin. 2008. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Second Edition. Prentice Hall.
  • Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press.
  • Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python. O'Reilly Media, 2009 (http://www.nltk.org/book)

План на 2016 год и материалы к лекциям 

Лекция Слайды Видео
Лекция 1. Задачи обработки текстов  lecture1-2016 Лекция 1
Лекция 2. Регулярные выражения и конечные автоматы.  lecture2-2016 Лекция 2
Лекция 3. Языковые модели и задача определения частей речи lecture3-2016  Лекция 3
Лекция 4. Методы поиска словосочетаний lecture4-2016  Лекция 4
Лекция 5. Методы классификации и кластеризации  lecture5-2016  Лекция 5
Лекция 6. Методы обработки текстов на основе искусственных нейронных сетей  lecture6-2016  Лекция 6
Лекция 7. Контекстно-свободные грамматики и синтаксический анализ  lecture7-2016  Лекция 7
Лекция 8. Статистические методы синтаксического анализа  lecture8-2016  Лекция 8
Лекция 9. Лексическая семантика  lecture9-2016  Лекция 9
Лекция 10. Информационный поиск, вопросно-ответные системы и автоматическое реферирование lecture10_2016  Лекция 10
Лекция 11. Машинный перевод  lecture11_2016  Лекция 11
Лекция 12. Тематическое моделирование  lecture12-2016  Лекция 12