В 21-м слайде лекции 3 (Языковые модели) была неправильная информация. Вопрос вызывала формула \sum_{i,j} p(w_n|w_i,w_j)=1 .

Эта формула относится к оценки вероятности N-граммы на основе метода максимального правдоподобия и означает вероятность события, что слово w_n встретилось в одном из всех возможных контекстах, в которых оно встречалось. То есть выполняется всегда.
В случае, когда применяется сглаживание откатом к модели меньшего порядка (вероятность n-граммы равна 0 ) необходимо сбалансировать вероятности всех n-грамм, так чтобы сумма вероятностей заданного слова во всех контекстах (в том числе и меньших порядков)  была равна 1 .

В разделе 6.4 основного учебника приводится подробный вывод коэффициента \alpha . Всем интересующимся рекомендую заглянуть туда.

PS. Спасибо внимательным студентам за вопрос. Слайд в лекциях исправлен.