From 603783bcb2b21936356eb908102d07e2d8e588bf Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Wed, 23 Dec 2020 14:31:01 +0300
Subject: [PATCH 01/44] [ru] cs-230-recurrent-neural-networks

---
 ru/cs-230-recurrent-neural-networks.md | 678 +++++++++++++++++++++++++
 1 file changed, 678 insertions(+)
 create mode 100644 ru/cs-230-recurrent-neural-networks.md
diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
new file mode 100644
index 000000000..424d86896
--- /dev/null
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -0,0 +1,678 @@
+**Recurrent Neural Networks translation** [[webpage]](https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks)
+
+<br>
+
+**1. Recurrent Neural Networks cheatsheet**
+
+&#10230; Шпаргалка по Рекуррентным Нейронным Сетям
+
+<br>
+
+
+**2. CS 230 - Deep Learning**
+
+&#10230; CS 230 - Глубокое Обучение
+
+<br>
+
+
+**3. [Overview, Architecture structure, Applications of RNNs, Loss function, Backpropagation]**
+
+&#10230; [Обзор, Структура архитектуры, Приложения RNN, Функция потерь, Обратное распространение]
+
+<br>
+
+
+**4. [Handling long term dependencies, Common activation functions, Vanishing/exploding gradient, Gradient clipping, GRU/LSTM, Types of gates, Bidirectional RNN, Deep RNN]**
+
+&#10230; [Обработка долгосрочных зависимостей, Общие функции активации, Исчезающий/увеличивающийся градиент, Отсечение градиента, GRU/LSTM, Типы вентилей, Двунаправленный RNN, Глубокая RNN.]
+
+<br>
+
+
+**5. [Learning word representation, Notations, Embedding matrix, Word2vec, Skip-gram, Negative sampling, GloVe]**
+
+&#10230; [Обучение представления слов, Обозначения, Embedding matrix, Word2vec, Скип-грамм, Отрицательная выборка, GloVe]
+
+<br>
+
+
+**6. [Comparing words, Cosine similarity, t-SNE]**
+
+&#10230; [Сравнение слов, Косинусное сходство, t-SNE]
+
+<br>
+
+
+**7. [Language model, n-gram, Perplexity]**
+
+&#10230; [Языковая модель, n-грамма, Недоумение]
+
+<br>
+
+
+**8. [Machine translation, Beam search, Length normalization, Error analysis, Bleu score]**
+
+&#10230; [Машинный перевод, Поиск луча, Нормализация длины, Анализ ошибок, Оценка BLEU]
+
+<br>
+
+
+**9. [Attention, Attention model, Attention weights]**
+
+&#10230; [Внимание, Модель внимания, Веса внимания]
+
+<br>
+
+
+**10. Overview**
+
+&#10230; Обзор
+
+<br>
+
+
+**11. Architecture of a traditional RNN ― Recurrent neural networks, also known as RNNs, are a class of neural networks that allow previous outputs to be used as inputs while having hidden states. They are typically as follows:**
+
+&#10230; Архитектура традиционной RNN ― Рекуррентные нейронные сети, также известные как RNN, представляют собой класс нейронных сетей, которые позволяют использовать предыдущие выходы в качестве входов, имея скрытые состояния. Обычно они следующие:
+
+<br>
+
+
+**12. For each timestep t, the activation a<t> and the output y<t> are expressed as follows:**
+
+&#10230; Для каждого временного шага t активация a<t> и выход y<t> выражаются следующим образом:
+
+<br>
+
+
+**13. and**
+
+&#10230; и
+
+<br>
+
+
+**14. where Wax,Waa,Wya,ba,by are coefficients that are shared temporally and g1,g2 activation functions.**
+
+&#10230; где Wax,Waa,Wya,ba,by являются коэффициентами, которые разделяются по времени, и функциями активации g1,g2 .
+
+<br>
+
+
+**15. The pros and cons of a typical RNN architecture are summed up in the table below:**
+
+&#10230; Плюсы и минусы типичной архитектуры RNN перечислены в таблице ниже:
+
+<br>
+
+
+**16. [Advantages, Possibility of processing input of any length, Model size not increasing with size of input, Computation takes into account historical information, Weights are shared across time]**
+
+&#10230; [Преимущества, Возможность обработки ввода любой длины, Размер модели не увеличивается с размером входных данных, При расчетах учитывается историческая информация, Веса распределяются во времени]
+
+<br>
+
+
+**17. [Drawbacks, Computation being slow, Difficulty of accessing information from a long time ago, Cannot consider any future input for the current state]**
+
+&#10230; [Недостатки, Вычисления идут медленно, Сложность доступа к очень давней информации, Невозможно рассмотреть какие-либо будущие входные данные для текущего состояния]
+
+<br>
+
+
+**18. Applications of RNNs ― RNN models are mostly used in the fields of natural language processing and speech recognition. The different applications are summed up in the table below:**
+
+&#10230; Применение RNN ― Модели RNN в основном используются в области обработки естественного языка и распознавания речи. Различные приложения приведены в таблице ниже:
+
+<br>
+
+
+**19. [Type of RNN, Illustration, Example]**
+
+&#10230; [Тип RNN, Иллюстрация, Пример]
+
+<br>
+
+
+**20. [One-to-one, One-to-many, Many-to-one, Many-to-many]**
+
+&#10230; [One-to-one, One-to-many, Many-to-one, Many-to-many]
+
+<br>
+
+
+**21. [Traditional neural network, Music generation, Sentiment classification, Name entity recognition, Machine translation]**
+
+&#10230; [Традиционная нейронная сеть, Генерация музыки, Классификация эмоций (Sentiment classification), Распознавание именованных сущностей (Name entity recognition NER), Машинный перевод]
+
+<br>
+
+
+**22. Loss function ― In the case of a recurrent neural network, the loss function L of all time steps is defined based on the loss at every time step as follows:**
+
+&#10230; Функция потерь ― В случае рекуррентной нейронной сети функция потерь L всех временных шагов определяется на основе потерь на каждом временном шаге следующим образом:
+
+<br>
+
+
+**23. Backpropagation through time ― Backpropagation is done at each point in time. At timestep T, the derivative of the loss L with respect to weight matrix W is expressed as follows:**
+
+&#10230; Обратное распространение во времени ― Обратное распространение выполняется в каждый момент времени. На временном шаге T производная потерь L по весовой матрице W выражается следующим образом:
+
+<br>
+
+
+**24. Handling long term dependencies**
+
+&#10230; Работа с долгосрочными зависимостями
+
+<br>
+
+
+**25. Commonly used activation functions ― The most common activation functions used in RNN modules are described below:**
+
+&#10230; Часто используемые функции активации ― Наиболее распространенные функции активации, используемые в модулях RNN, описаны ниже:
+
+<br>
+
+
+**26. [Sigmoid, Tanh, RELU]**
+
+&#10230; [Sigmoid, Tanh, RELU]
+
+<br>
+
+
+**27. Vanishing/exploding gradient ― The vanishing and exploding gradient phenomena are often encountered in the context of RNNs. The reason why they happen is that it is difficult to capture long term dependencies because of multiplicative gradient that can be exponentially decreasing/increasing with respect to the number of layers.**
+
+&#10230; Исчезающий/взрывающийся градиент ― Явления исчезающих и взрывных градиентов часто встречаются в контексте RNN. Причина, по которой они происходят, заключается в том, что трудно зафиксировать долгосрочные зависимости из-за мультипликативного градиента, который может экспоненциально уменьшаться/увеличиваться по отношению к количеству слоев.
+
+<br>
+
+
+**28. Gradient clipping ― It is a technique used to cope with the exploding gradient problem sometimes encountered when performing backpropagation. By capping the maximum value for the gradient, this phenomenon is controlled in practice.**
+
+&#10230; Отсечение градиента ― это метод, используемый для решения проблемы взрывных градиентов, иногда возникающей при выполнении обратного распространения ошибки. Ограничивая максимальное значение градиента, это явление контролируется на практике.
+
+<br>
+
+
+**29. clipped**
+
+&#10230; отсечено
+
+<br>
+
+
+**30. Types of gates ― In order to remedy the vanishing gradient problem, specific gates are used in some types of RNNs and usually have a well-defined purpose. They are usually noted Γ and are equal to:**
+
+&#10230; Типы вентилей ― чтобы решить проблему исчезающего градиента, в некоторых типах RNN используются определенные вентили, которые обычно имеют четко определенную цель. Обычно они обозначаются Γ и равны:
+
+<br>
+
+
+**31. where W,U,b are coefficients specific to the gate and σ is the sigmoid function. The main ones are summed up in the table below:**
+
+&#10230; где W,U,b ― коэффициенты, относящиеся к вентилю, а σ - сигмовидная функция. Основные из них приведены в таблице ниже:
+
+<br>
+
+
+**32. [Type of gate, Role, Used in]**
+
+&#10230; [Тип вентиля, Роль, Используется в]
+
+<br>
+
+
+**33. [Update gate, Relevance gate, Forget gate, Output gate]**
+
+&#10230; [Вентиль обновления (Update), Вентиль сброса (Relevance), Вентиль забывания (Forget), Вентиль выхода (Output)]
+
+<br>
+
+
+**34. [How much past should matter now?, Drop previous information?, Erase a cell or not?, How much to reveal of a cell?]**
+
+&#10230; [Насколько прошлое должно иметь значение сейчас?, Отбросить предыдущую информацию?, Стереть ячейку или нет?, Насколько раскрыть ячейку?]
+
+<br>
+
+
+**35. [LSTM, GRU]**
+
+&#10230; [LSTM, GRU]
+
+<br>
+
+
+**36. GRU/LSTM ― Gated Recurrent Unit (GRU) and Long Short-Term Memory units (LSTM) deal with the vanishing gradient problem encountered by traditional RNNs, with LSTM being a generalization of GRU. Below is a table summing up the characterizing equations of each architecture:**
+
+&#10230; GRU/LSTM ― Вентильный Рекуррентный Блок (Gated Recurrent Unit, GRU) и Блок с Долгой Краткосрочной Памятью (Long Short-Term Memory units, LSTM) имеет дело с проблемой исчезающего градиента, с которой сталкиваются традиционные RNN, причем LSTM является обобщением GRU. Ниже представлена таблица, в которой перечислены характеризующие уравнения каждой архитектуры:
+
+<br>
+
+
+**37. [Characterization, Gated Recurrent Unit (GRU), Long Short-Term Memory (LSTM), Dependencies]**
+
+&#10230; [Характеристика, Вентильный Рекуррентный Блок (GRU), Блок с Долгой Краткосрочной Памятью (LSTM), Зависимости]
+
+<br>
+
+
+**38. Remark: the sign ⋆ denotes the element-wise multiplication between two vectors.**
+
+&#10230; Примечание: знак ⋆ означает поэлементное умножение двух векторов.
+
+<br>
+
+
+**39. Variants of RNNs ― The table below sums up the other commonly used RNN architectures:**
+
+&#10230; Варианты RNN ― В таблице ниже перечислены другие часто используемые архитектуры RNN:
+
+<br>
+
+
+**40. [Bidirectional (BRNN), Deep (DRNN)]**
+
+&#10230; [Двунаправленная (Bidirectional/BRNN), Глубокая (Deep/DRNN)]
+
+<br>
+
+
+**41. Learning word representation**
+
+&#10230; Изучение представления слов
+
+<br>
+
+
+**42. In this section, we note V the vocabulary and |V| its size.**
+
+&#10230; В этом разделе мы обозначаем словарь V и его размер |V|.
+
+<br>
+
+
+**43. Motivation and notations**
+
+&#10230; Мотивация и обозначения
+
+<br>
+
+
+**44. Representation techniques ― The two main ways of representing words are summed up in the table below:**
+
+&#10230; Методы представления ― два основных способа представления слов подытожены в таблице ниже:
+
+<br>
+
+
+**45. [1-hot representation, Word embedding]**
+
+&#10230; [1-hot представление, Представления слов]
+
+<br>
+
+
+**46. [teddy bear, book, soft]**
+
+&#10230; [плюшевый мишка, книжка, мягкий]
+
+<br>
+
+
+**47. [Noted ow, Naive approach, no similarity information, Noted ew, Takes into account words similarity]**
+
+&#10230; [Обозначено ow, Наивный подход, нет информации о сходстве, Обозначено ew, Учитывает сходство слов]
+
+<br>
+
+
+**48. Embedding matrix ― For a given word w, the embedding matrix E is a matrix that maps its 1-hot representation ow to its embedding ew as follows:**
+
+&#10230; Матрица представления (embedding matrix) ― для данного слова w матрица представления E является матрицей, которая отображает свое 1-hot представление ow на его представления ew следующим образом:
+
+<br>
+
+
+**49. Remark: learning the embedding matrix can be done using target/context likelihood models.**
+
+&#10230; Примечание: изучение матрицы представления может быть выполнено с использованием моделей целевого/контекстного правдоподобия.
+
+<br>
+
+
+**50. Word embeddings**
+
+&#10230; Векторное представление слов
+
+<br>
+
+
+**51. Word2vec ― Word2vec is a framework aimed at learning word embeddings by estimating the likelihood that a given word is surrounded by other words. Popular models include skip-gram, negative sampling and CBOW.**
+
+&#10230; Word2vec ― это фреймворк, предназначенный для изучения встраивания слов путем оценки вероятности того, что данное слово окружено другими словами. Популярные модели включают скип-грамм, отрицательную выборку и CBOW.
+
+<br>
+
+
+**52. [A cute teddy bear is reading, teddy bear, soft, Persian poetry, art]**
+
+&#10230; [Читает милый плюшевый мишка, плюшевый мишка, мягкий, персидская поэзия, искусство]
+
+<br>
+
+
+**53. [Train network on proxy task, Extract high-level representation, Compute word embeddings]**
+
+&#10230; [Обучить сеть на прокси-задаче, Извлечь высокоуровневое представление, Вычислить представления слов]
+
+<br>
+
+
+**54. Skip-gram ― The skip-gram word2vec model is a supervised learning task that learns word embeddings by assessing the likelihood of any given target word t happening with a context word c. By noting θt a parameter associated with t, the probability P(t|c) is given by:**
+
+&#10230; Skip-gram ― Модель word2vec с пропуском граммы - это задача с контролем учителем, которая изучает встраивание слов, оценивая правдоподобие того, что любое заданное целевое слово t встречается с контекстным словом c. Обозначим θt параметр, связанный с t, вероятность P(t|c) определяется выражением:
+
+<br>
+
+
+**55. Remark: summing over the whole vocabulary in the denominator of the softmax part makes this model computationally expensive. CBOW is another word2vec model using the surrounding words to predict a given word.**
+
+&#10230; Примечание: суммирование по всему словарю в знаменателе части softmax делает эту модель дорогостоящей в вычислительном отношении. CBOW - это еще одна модель word2vec, использующая окружающие слова для предсказания данного слова.
+
+<br>
+
+
+**56. Negative sampling ― It is a set of binary classifiers using logistic regressions that aim at assessing how a given context and a given target words are likely to appear simultaneously, with the models being trained on sets of k negative examples and 1 positive example. Given a context word c and a target word t, the prediction is expressed by:**
+
+&#10230; Отрицательная выборка ― это набор бинарных классификаторов, использующих логистические регрессии, целью которых является оценка того, как данный контекст и заданные целевые слова могут появляться одновременно, при этом модели обучаются на наборах из k отрицательных примеров и 1 положительного примера. Учитывая контекстное слово c и целевое слово t, прогноз выражается следующим образом:
+
+<br>
+
+
+**57. Remark: this method is less computationally expensive than the skip-gram model.**
+
+&#10230; Примечание: этот метод менее затратен с точки зрения вычислений, чем модель скип-граммы.
+
+<br>
+
+
+**57 GloVe ― The GloVe model, short for global vectors for word representation, is a word embedding technique that uses a co-occurence matrix X where each Xi,j denotes the number of times that a target i occurred with a context j. Its cost function J is as follows:**
+
+&#10230; GloVe ― Модель GloVe, сокращение от глобальных векторов для представления слов, представляет собой метод встраивания слов, который использует матрицу совпадения X, где каждый Xi,j обозначает количество раз, когда цель i встречалась с контекстом j. Его функция стоимости J выглядит следующим образом:
+
+<br>
+
+
+**58. where f is a weighting function such that Xi,j=0⟹f(Xi,j)=0. Given the symmetry that e and θ play in this model, the final word embedding e(final)w is given by:**
+
+&#10230; где f - такая весовая функция, что Xi,j=0⟹f(Xi,j)=0. Учитывая симметрию, которую играют e и θ в этой модели, последнее представление слов e(final)w дается выражением:
+
+<br>
+
+
+**59. Remark: the individual components of the learned word embeddings are not necessarily interpretable.**
+
+&#10230; Примечание: отдельные компоненты представления слов не обязательно поддаются интерпретации.
+
+<br>
+
+
+**60. Comparing words**
+
+&#10230; Сравнение слов
+
+<br>
+
+
+**61. Cosine similarity ― The cosine similarity between words w1 and w2 is expressed as follows:**
+
+&#10230; Косинусное сходство ― косинусное сходство между словами w1 и w2 выражается следующим образом:
+
+<br>
+
+
+**62. Remark: θ is the angle between words w1 and w2.**
+
+&#10230; Примечание: θ - угол между словами w1 и w2.
+
+<br>
+
+
+**63. t-SNE ― t-SNE (t-distributed Stochastic Neighbor Embedding) is a technique aimed at reducing high-dimensional embeddings into a lower dimensional space. In practice, it is commonly used to visualize word vectors in the 2D space.**
+
+&#10230; t-SNE ― t-распределенное стохастическое соседнее представление (t-distributed Stochastic Neighbor Embedding, t-SNE) - это метод, направленный на сокращение представлений большой размерности в пространство меньшей размерности. На практике он обычно используется для визуализации векторов слов в 2D-пространстве.
+
+<br>
+
+
+**64. [literature, art, book, culture, poem, reading, knowledge, entertaining, loveable, childhood, kind, teddy bear, soft, hug, cute, adorable]**
+
+&#10230; [литература, искусство, книга, культура, стихотворение, чтение, знания, развлекательный, милый, детство, добрый, плюшевый мишка, мягкий, обнять, милый, очаровательный]
+
+<br>
+
+
+**65. Language model**
+
+&#10230; Языковая модель
+
+<br>
+
+
+**66. Overview ― A language model aims at estimating the probability of a sentence P(y).**
+
+&#10230; Обзор ― языковая модель предназначена для оценки вероятности предложения P(y).
+
+<br>
+
+
+**67. n-gram model ― This model is a naive approach aiming at quantifying the probability that an expression appears in a corpus by counting its number of appearance in the training data.**
+
+&#10230; Модель n ― граммы - эта модель представляет собой наивный подход, направленный на количественную оценку вероятности того, что выражение появляется в корпусе, путем подсчета его количества появлений в обучающих данных.
+
+<br>
+
+
+**68. Perplexity ― Language models are commonly assessed using the perplexity metric, also known as PP, which can be interpreted as the inverse probability of the dataset normalized by the number of words T. The perplexity is such that the lower, the better and is defined as follows:**
+
+&#10230; Недоумение ― Perplexity - языковые модели обычно оцениваются с помощью метрики недоумения, также известной как PP, которую можно интерпретировать как обратную вероятность набора данных, нормализованную на количество слов T. Недоумение таково, что чем ниже, тем лучше и определяется как следует:
+
+<br>
+
+
+**69. Remark: PP is commonly used in t-SNE.**
+
+&#10230; Примечание: PP обычно используется в t-SNE.
+
+<br>
+
+
+**70. Machine translation**
+
+&#10230; Машинный перевод
+
+<br>
+
+
+**71. Overview ― A machine translation model is similar to a language model except it has an encoder network placed before. For this reason, it is sometimes referred as a conditional language model. The goal is to find a sentence y such that:**
+
+&#10230; Обзор ― модель машинного перевода похожа на языковую модель, за исключением того, что в ней размещена сеть кодировщика. По этой причине её иногда называют моделью условного языка. Цель состоит в том, чтобы найти такое предложение y, что:
+
+<br>
+
+
+**72. Beam search ― It is a heuristic search algorithm used in machine translation and speech recognition to find the likeliest sentence y given an input x.**
+
+&#10230; Лучевой поиск ― это алгоритм эвристического поиска, используемый в машинном переводе и распознавании речи для поиска наиболее вероятного предложения y при вводе x.
+
+<br>
+
+
+**73. [Step 1: Find top B likely words y<1>, Step 2: Compute conditional probabilities y<k>|x,y<1>,...,y<k−1>, Step 3: Keep top B combinations x,y<1>,...,y<k>, End process at a stop word]**
+
+&#10230; [Шаг 1: Найти top B наиболее вероятных слов y<1>, Шаг 2: Вычислить условные вероятности y<k>|x,y<1>,...,y<k−1>, Шаг 3: Сохранить top B комбинации x,y<1>,...,y<k>, Завершить процесс на стоп-слове]
+
+<br>
+
+
+**74. Remark: if the beam width is set to 1, then this is equivalent to a naive greedy search.**
+
+&#10230; Примечание: если ширина луча установлена на 1, то это равносильно наивному жадному поиску.
+
+<br>
+
+
+**75. Beam width ― The beam width B is a parameter for beam search. Large values of B yield to better result but with slower performance and increased memory. Small values of B lead to worse results but is less computationally intensive. A standard value for B is around 10.**
+
+&#10230; Ширина луча ― Ширина луча B является параметром лучевого поиска. Большие значения B дают лучший результат, но с меньшей производительностью и увеличенным объёмом памяти. Маленькие значения B приводят к худшим результатам, но требуют меньших вычислительных затрат. Стандартное значение B составляет около 10.
+
+<br>
+
+
+**76. Length normalization ― In order to improve numerical stability, beam search is usually applied on the following normalized objective, often called the normalized log-likelihood objective, defined as:**
+
+&#10230; Нормализация длины ― Чтобы улучшить численную стабильность, лучевой поиск обычно применяется к следующей нормализованной цели, часто называемой нормализованной целью логарифмического правдоподобия, определяемой как:
+
+<br>
+
+
+**77. Remark: the parameter α can be seen as a softener, and its value is usually between 0.5 and 1.**
+
+&#10230; Примечание: параметр α можно рассматривать как смягчитель, и его значение обычно составляет от 0.5 до 1.
+
+<br>
+
+
+**78. Error analysis ― When obtaining a predicted translation ˆy that is bad, one can wonder why we did not get a good translation y∗ by performing the following error analysis:**
+
+&#10230; Анализ ошибок ― При получении предсказанного перевода ˆy, который является плохим, можно задаться вопросом, почему мы не получили хороший перевод y∗ , выполнив следующий анализ ошибок:
+
+<br>
+
+
+**79. [Case, Root cause, Remedies]**
+
+&#10230; [Случай, Первопричина, Исправления]
+
+<br>
+
+
+**80. [Beam search faulty, RNN faulty, Increase beam width, Try different architecture, Regularize, Get more data]**
+
+&#10230; [Ошибка лучевого поиска, Неисправность RNN, Увеличить ширину луча, Попробовать другую архитектуру, Регуляризировать, Взять больше данных]
+
+<br>
+
+
+**81. Bleu score ― The bilingual evaluation understudy (bleu) score quantifies how good a machine translation is by computing a similarity score based on n-gram precision. It is defined as follows:**
+
+&#10230; Оценка Bleu ― оценка дублера для двуязычной оценки (bilingual evaluation understudy, bleu) количественно определяет, насколько хорош машинный перевод, путем вычисления оценки сходства на основе точности n-граммов. Это определяется следующим образом:
+
+<br>
+
+
+**82. where pn is the bleu score on n-gram only defined as follows:**
+
+&#10230; где pn - это оценка по n-грамму, определяемая только следующим образом:
+
+<br>
+
+
+**83. Remark: a brevity penalty may be applied to short predicted translations to prevent an artificially inflated bleu score.**
+
+&#10230; Примечание: к коротким предсказанным переводам может применяться штраф за краткость, чтобы предотвратить искусственно завышенную оценку bleu.
+
+<br>
+
+
+**84. Attention**
+
+&#10230; Внимание
+
+<br>
+
+
+**85. Attention model ― This model allows an RNN to pay attention to specific parts of the input that is considered as being important, which improves the performance of the resulting model in practice. By noting α<t,t′> the amount of attention that the output y<t> should pay to the activation a<t′> and c<t> the context at time t, we have:**
+
+&#10230; Модель внимания ― эта модель позволяет RNN обращать внимание на определенные части входных данных, которые считаются важными, что на практике улучшает производительность полученной модели. Обозначим α<t,t′> количество внимания, которое выход y<t> должен уделять активации a<t′> и c<t> контексту в момент времени t, у нас есть:
+
+<br>
+
+
+**86. with**
+
+&#10230; с
+
+<br>
+
+
+**87. Remark: the attention scores are commonly used in image captioning and machine translation.**
+
+&#10230; Примечание: оценки внимания обычно используются при добавлении субтитров к изображениям и машинном переводе.
+
+<br>
+
+
+**88. A cute teddy bear is reading Persian literature.**
+
+&#10230; Милый плюшевый мишка читает персидскую литературу.
+
+<br>
+
+
+**89. Attention weight ― The amount of attention that the output y<t> should pay to the activation a<t′> is given by α<t,t′> computed as follows:**
+
+&#10230; Вес внимания ― количество внимания, которое выход y<t> должен уделять активации a<t′>, задается выражением α<t,t′>, вычисляемым следующим образом:
+
+<br>
+
+
+**90. Remark: computation complexity is quadratic with respect to Tx.**
+
+&#10230; Примечание: сложность вычислений квадратична относительно Tx.
+
+<br>
+
+
+**91. The Deep Learning cheatsheets are now available in [target language].**
+
+&#10230; Шпаргалки по глубокому обучению теперь доступны в формате [target language].
+
+<br>
+
+**92. Original authors**
+
+&#10230; Авторы оригинала: Afshine Amidi и Shervine Amidi ― https://github.com/shervinea
+
+<br>
+
+**93. Translated by X, Y and Z**
+
+&#10230; Российская адаптация: Пархоменко Александр ― https://github.com/AlexandrParkhomenko
+
+<br>
+
+**94. Reviewed by X, Y and Z**
+
+&#10230; Проверено X, Y и Z
+
+<br>
+
+**95. View PDF version on GitHub**
+
+&#10230; Посмотреть PDF-версию на GitHub
+
+<br>
+
+**96. By X and Y**
+
+&#10230; По X и Y
+
+<br>
+
+

From c1510802f3eeccb95e6f99395baf1937ee0328ab Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko <it@52tour.ru>
Date: Thu, 24 Dec 2020 10:29:50 +0300
Subject: [PATCH 02/44] [russian] ru

---
 ru/cs-230-recurrent-neural-networks.md | 2 --
 1 file changed, 2 deletions(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 424d86896..522bed730 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -674,5 +674,3 @@
 &#10230; По X и Y
 
 <br>
-
-

From 42c22aca054f406584495b0724bfa287763cfa78 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:09:34 +0300
Subject: [PATCH 03/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 522bed730..e6a1d7e6c 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -18,7 +18,7 @@
 
 **3. [Overview, Architecture structure, Applications of RNNs, Loss function, Backpropagation]**
 
-&#10230; [Обзор, Структура архитектуры, Приложения RNN, Функция потерь, Обратное распространение]
+&#10230; [Обзор, Структура архитектуры, Приложения RNN, Функция потерь, Обратное распространение ошибки]
 
 <br>
 

From 4478da68a60838bf96a66acf0796df65c478b7f8 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:10:25 +0300
Subject: [PATCH 04/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index e6a1d7e6c..a8b6ebfe1 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -32,7 +32,7 @@
 
 **5. [Learning word representation, Notations, Embedding matrix, Word2vec, Skip-gram, Negative sampling, GloVe]**
 
-&#10230; [Обучение представления слов, Обозначения, Embedding matrix, Word2vec, Скип-грамм, Отрицательная выборка, GloVe]
+&#10230; [Обучение представления слов, Обозначения, Embedding matrix, Word2vec, Skip-gram, Отрицательная выборка, GloVe]
 
 <br>
 

From cb611bf71c5ee3887cc393f95aa3b4d6c19c02d2 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:10:38 +0300
Subject: [PATCH 05/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index a8b6ebfe1..f7423eea8 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -46,7 +46,7 @@
 
 **7. [Language model, n-gram, Perplexity]**
 
-&#10230; [Языковая модель, n-грамма, Недоумение]
+&#10230; [Языковая модель, n-граммы, Метрика Perplexity]
 
 <br>
 

From 3088f80bdb033b61815858b450f23ffcc4547d5b Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:10:44 +0300
Subject: [PATCH 06/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index f7423eea8..c6a0d8532 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -53,7 +53,7 @@
 
 **8. [Machine translation, Beam search, Length normalization, Error analysis, Bleu score]**
 
-&#10230; [Машинный перевод, Поиск луча, Нормализация длины, Анализ ошибок, Оценка BLEU]
+&#10230; [Машинный перевод, Лучевой поиск, Нормализация длины, Анализ ошибок, Метрика BLEU]
 
 <br>
 

From 8b7df20b2eed1eaa4616126160d05be46c9bd32c Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:11:13 +0300
Subject: [PATCH 07/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index c6a0d8532..f9489827a 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -74,7 +74,7 @@
 
 **11. Architecture of a traditional RNN ― Recurrent neural networks, also known as RNNs, are a class of neural networks that allow previous outputs to be used as inputs while having hidden states. They are typically as follows:**
 
-&#10230; Архитектура традиционной RNN ― Рекуррентные нейронные сети, также известные как RNN, представляют собой класс нейронных сетей, которые позволяют использовать предыдущие выходы в качестве входов, имея скрытые состояния. Обычно они следующие:
+&#10230; Архитектура классической RNN ― Рекуррентные нейронные сети, также известные как RNN, представляют собой класс нейронных сетей, которые позволяют использовать предыдущие выходы в качестве входов, имея скрытые состояния. Обычно они следующие:
 
 <br>
 

From 09311ed78b96bd12a7d64922b41682819ae9f5cd Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:11:29 +0300
Subject: [PATCH 08/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index f9489827a..e1292e38c 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -95,7 +95,7 @@
 
 **14. where Wax,Waa,Wya,ba,by are coefficients that are shared temporally and g1,g2 activation functions.**
 
-&#10230; где Wax,Waa,Wya,ba,by являются коэффициентами, которые разделяются по времени, и функциями активации g1,g2 .
+&#10230; где Wax,Waa,Wya,ba,by являются коэффициентами, которые являются одинаковыми для всех ячеек RNN во времени, и функциями активации g1,g2.
 
 <br>
 

From 7375c041b908f9378288f7725150f1ebe5059fd4 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:11:40 +0300
Subject: [PATCH 09/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index e1292e38c..9248969c4 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -613,7 +613,7 @@
 
 **87. Remark: the attention scores are commonly used in image captioning and machine translation.**
 
-&#10230; Примечание: оценки внимания обычно используются при добавлении субтитров к изображениям и машинном переводе.
+&#10230; Примечание: оценки внимания обычно используются в задачах добавления субтитров к изображениям и машинном переводе.
 
 <br>
 

From e51cdd9aad1f3f231cbcb3bfaf7099634e0db588 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:11:46 +0300
Subject: [PATCH 10/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 9248969c4..f2e268dfe 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -647,7 +647,7 @@
 
 **92. Original authors**
 
-&#10230; Авторы оригинала: Afshine Amidi и Shervine Amidi ― https://github.com/shervinea
+&#10230; Авторы оригинала: Afshine Amidi и Shervine Amidi ― https://github.com/afshinea и https://github.com/shervinea
 
 <br>
 

From 6a5b572c0beb6bac67420b67867350df0c10e20e Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:11:50 +0300
Subject: [PATCH 11/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index f2e268dfe..4ebbf202f 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -653,7 +653,7 @@
 
 **93. Translated by X, Y and Z**
 
-&#10230; Российская адаптация: Пархоменко Александр ― https://github.com/AlexandrParkhomenko
+&#10230; Переведено на русский язык: Пархоменко Александр ― https://github.com/AlexandrParkhomenko
 
 <br>
 

From 7e9e155accb024831b88a992deff92bd1a0bfa5a Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:11:58 +0300
Subject: [PATCH 12/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 4ebbf202f..db9b4d127 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -659,7 +659,7 @@
 
 **94. Reviewed by X, Y and Z**
 
-&#10230; Проверено X, Y и Z
+&#10230; Проверено на русском языке: Труш Георгий (Georgy Trush) ― https://github.com/geotrush
 
 <br>
 

From 682d31d8cc0e8fb8176c1909bd0a1bb64d09c58c Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:12:08 +0300
Subject: [PATCH 13/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index db9b4d127..7b81cf256 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -641,7 +641,7 @@
 
 **91. The Deep Learning cheatsheets are now available in [target language].**
 
-&#10230; Шпаргалки по глубокому обучению теперь доступны в формате [target language].
+&#10230; Шпаргалки по глубокому обучению теперь доступны на русском языке.
 
 <br>
 

From c8a60882dd07dee4b3ba803ef547eb941dab88ed Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:12:22 +0300
Subject: [PATCH 14/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 7b81cf256..41f6698f9 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -109,7 +109,7 @@
 
 **16. [Advantages, Possibility of processing input of any length, Model size not increasing with size of input, Computation takes into account historical information, Weights are shared across time]**
 
-&#10230; [Преимущества, Возможность обработки ввода любой длины, Размер модели не увеличивается с размером входных данных, При расчетах учитывается историческая информация, Веса распределяются во времени]
+&#10230; [Преимущества, Возможность обработки входа любой длины, Размер модели не увеличивается с размером входных данных, При расчетах учитывается историческая информация, Веса одинаковы во времени]
 
 <br>
 

From 58a2daccf897880216479c594bd201fa30c23b2a Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:12:37 +0300
Subject: [PATCH 15/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 41f6698f9..3bd01bda4 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -144,7 +144,7 @@
 
 **21. [Traditional neural network, Music generation, Sentiment classification, Name entity recognition, Machine translation]**
 
-&#10230; [Традиционная нейронная сеть, Генерация музыки, Классификация эмоций (Sentiment classification), Распознавание именованных сущностей (Name entity recognition NER), Машинный перевод]
+&#10230; [Классическая нейронная сеть, Генерация музыки, Определение эмоциональной окраски, Распознавание именованных сущностей, Машинный перевод]
 
 <br>
 

From fb5a0b94d03260b5e9055f2b50a9c1940af169cf Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:13:06 +0300
Subject: [PATCH 16/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 3bd01bda4..2dcdbaf8b 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -312,7 +312,7 @@
 
 **45. [1-hot representation, Word embedding]**
 
-&#10230; [1-hot представление, Представления слов]
+&#10230; [One-hot представление, Представление слова]
 
 <br>
 

From 60d066595ef93a6211a23996e23092b1f35ff6fd Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:13:27 +0300
Subject: [PATCH 17/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 2dcdbaf8b..ff3eb3410 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -151,7 +151,7 @@
 
 **22. Loss function ― In the case of a recurrent neural network, the loss function L of all time steps is defined based on the loss at every time step as follows:**
 
-&#10230; Функция потерь ― В случае рекуррентной нейронной сети функция потерь L всех временных шагов определяется на основе потерь на каждом временном шаге следующим образом:
+&#10230; Функция потерь ― В случае рекуррентной нейронной сети функция потерь L всех временных шагов определяется на основе значений функции потерь на каждом временном шаге следующим образом:
 
 <br>
 

From c36ed0a4dcb9caba8c41358bcb07645b4b609867 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:13:46 +0300
Subject: [PATCH 18/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index ff3eb3410..e70c600cd 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -158,7 +158,7 @@
 
 **23. Backpropagation through time ― Backpropagation is done at each point in time. At timestep T, the derivative of the loss L with respect to weight matrix W is expressed as follows:**
 
-&#10230; Обратное распространение во времени ― Обратное распространение выполняется в каждый момент времени. На временном шаге T производная потерь L по весовой матрице W выражается следующим образом:
+&#10230; Обратное распространение ошибки во времени ― Обратное распространение ошибки выполняется в каждый момент времени. На временном шаге T производная потерь L по матрице весов W выражается следующим образом:
 
 <br>
 

From 57565dfcad5c3be5ac867c83237c9b683337b260 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:14:44 +0300
Subject: [PATCH 19/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index e70c600cd..fbac359a4 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -186,7 +186,7 @@
 
 **27. Vanishing/exploding gradient ― The vanishing and exploding gradient phenomena are often encountered in the context of RNNs. The reason why they happen is that it is difficult to capture long term dependencies because of multiplicative gradient that can be exponentially decreasing/increasing with respect to the number of layers.**
 
-&#10230; Исчезающий/взрывающийся градиент ― Явления исчезающих и взрывных градиентов часто встречаются в контексте RNN. Причина, по которой они происходят, заключается в том, что трудно зафиксировать долгосрочные зависимости из-за мультипликативного градиента, который может экспоненциально уменьшаться/увеличиваться по отношению к количеству слоев.
+&#10230; Исчезающий/взрывающийся градиент ― Явления исчезающих и взрывающихся градиентов часто встречаются в контексте RNN. Причина, по которой они происходят, заключается в том, что трудно зафиксировать долгосрочные зависимости из-за мультипликативного градиента, который может экспоненциально уменьшаться/увеличиваться по отношению к количеству слоев.
 
 <br>
 

From 93aa1a3dca465581aafac8096a508f409c226311 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:15:06 +0300
Subject: [PATCH 20/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index fbac359a4..962247323 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -193,7 +193,7 @@
 
 **28. Gradient clipping ― It is a technique used to cope with the exploding gradient problem sometimes encountered when performing backpropagation. By capping the maximum value for the gradient, this phenomenon is controlled in practice.**
 
-&#10230; Отсечение градиента ― это метод, используемый для решения проблемы взрывных градиентов, иногда возникающей при выполнении обратного распространения ошибки. Ограничивая максимальное значение градиента, это явление контролируется на практике.
+&#10230; Отсечение градиента ― это метод, используемый для решения проблемы взрывающихся градиентов, иногда возникающей при выполнении обратного распространения ошибки. Ограничивая градиент по выбранному максимальному значению, это явление можно контролировать на практике.
 
 <br>
 

From 909d633e0df282c9cfd1120f7f7bf49b09ec4bbe Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:15:24 +0300
Subject: [PATCH 21/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 962247323..6615eff59 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -207,7 +207,7 @@
 
 **30. Types of gates ― In order to remedy the vanishing gradient problem, specific gates are used in some types of RNNs and usually have a well-defined purpose. They are usually noted Γ and are equal to:**
 
-&#10230; Типы вентилей ― чтобы решить проблему исчезающего градиента, в некоторых типах RNN используются определенные вентили, которые обычно имеют четко определенную цель. Обычно они обозначаются Γ и равны:
+&#10230; Типы вентилей ― чтобы решить проблему исчезающего градиента, в некоторых типах RNN используются специфичные вентили, которые имеют четко заданную цель. Обычно они обозначаются Γ и равны:
 
 <br>
 

From d7a1379f70a093020a89a35bd1fac817acb9e4dd Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:15:48 +0300
Subject: [PATCH 22/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 6615eff59..14038d26d 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -214,7 +214,7 @@
 
 **31. where W,U,b are coefficients specific to the gate and σ is the sigmoid function. The main ones are summed up in the table below:**
 
-&#10230; где W,U,b ― коэффициенты, относящиеся к вентилю, а σ - сигмовидная функция. Основные из них приведены в таблице ниже:
+&#10230; где W,U,b ― коэффициенты, относящиеся к вентилю, а σ - функция сигмоиды. Основные из них приведены в таблице ниже:
 
 <br>
 

From 23ce26c8571010ae8d7fd916206e41823775e12a Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:16:07 +0300
Subject: [PATCH 23/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 14038d26d..e68b33387 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -340,7 +340,7 @@
 
 **49. Remark: learning the embedding matrix can be done using target/context likelihood models.**
 
-&#10230; Примечание: изучение матрицы представления может быть выполнено с использованием моделей целевого/контекстного правдоподобия.
+&#10230; Примечание: получить матрицу представлений можно путем обучения моделей целевого/контекстного правдоподобия.
 
 <br>
 

From f9dbe1733fde0ec90231e1b043a3e2b67fe91a5d Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:16:21 +0300
Subject: [PATCH 24/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index e68b33387..1267ed7cc 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -347,7 +347,7 @@
 
 **50. Word embeddings**
 
-&#10230; Векторное представление слов
+&#10230; Векторные представления слов
 
 <br>
 

From 3c58b79ef6957785198b8422e6aebb8567ff9ea3 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:16:36 +0300
Subject: [PATCH 25/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 1267ed7cc..be8fe5370 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -284,7 +284,7 @@
 
 **41. Learning word representation**
 
-&#10230; Изучение представления слов
+&#10230; Получение представления слов
 
 <br>
 

From ad47e4dd5c6c4049a5cbee8d33efb202fc8bd144 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:29:47 +0300
Subject: [PATCH 26/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index be8fe5370..1bfec76d4 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -333,7 +333,7 @@
 
 **48. Embedding matrix ― For a given word w, the embedding matrix E is a matrix that maps its 1-hot representation ow to its embedding ew as follows:**
 
-&#10230; Матрица представления (embedding matrix) ― для данного слова w матрица представления E является матрицей, которая отображает свое 1-hot представление ow на его представления ew следующим образом:
+&#10230; Матрица представлений слов (embedding matrix) ― для данного слова w матрица представлений E является матрицей, которая отображает его one-hot представление ow на его представление ew следующим образом:
 
 <br>
 

From e4eb10e2b9a996f0fe3c87d7ca956f45c2456117 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:30:03 +0300
Subject: [PATCH 27/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 1bfec76d4..ac56b5f95 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -361,7 +361,7 @@
 
 **52. [A cute teddy bear is reading, teddy bear, soft, Persian poetry, art]**
 
-&#10230; [Читает милый плюшевый мишка, плюшевый мишка, мягкий, персидская поэзия, искусство]
+&#10230; [Милый плюшевый мишка читает, плюшевый мишка, мягкий, персидская поэзия, искусство]
 
 <br>
 

From 88c908639a3831ac3269a66e9d9ba0f969141534 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:30:22 +0300
Subject: [PATCH 28/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index ac56b5f95..9ef1a0102 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -354,7 +354,7 @@
 
 **51. Word2vec ― Word2vec is a framework aimed at learning word embeddings by estimating the likelihood that a given word is surrounded by other words. Popular models include skip-gram, negative sampling and CBOW.**
 
-&#10230; Word2vec ― это фреймворк, предназначенный для изучения встраивания слов путем оценки вероятности того, что данное слово окружено другими словами. Популярные модели включают скип-грамм, отрицательную выборку и CBOW.
+&#10230; Word2vec ― это модель, предназначенная для получения представлений слов путем оценки вероятности того, что конкретное слово окружено другими словами. Популярные модели включают Skip-gram, Negative sampling и CBOW.
 
 <br>
 

From 65cab595218b9f4a75db1b79f26dce2dc2a9268c Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:30:46 +0300
Subject: [PATCH 29/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 9ef1a0102..a82162414 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -396,7 +396,7 @@
 
 **57. Remark: this method is less computationally expensive than the skip-gram model.**
 
-&#10230; Примечание: этот метод менее затратен с точки зрения вычислений, чем модель скип-граммы.
+&#10230; Примечание: этот метод менее затратен с точки зрения вычислений, чем модель Skip-gram.
 
 <br>
 

From 8da453b74862b6a0d8a28cefae0610e820cf6c98 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:31:16 +0300
Subject: [PATCH 30/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index a82162414..b52d19813 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -368,7 +368,7 @@
 
 **53. [Train network on proxy task, Extract high-level representation, Compute word embeddings]**
 
-&#10230; [Обучить сеть на прокси-задаче, Извлечь высокоуровневое представление, Вычислить представления слов]
+&#10230; [Обучить сеть на вспомогательной задаче, Извлечь высокоуровневое представление, Вычислить представления слов]
 
 <br>
 

From 7996e624b6383841536b54b361b58c16f9aa9d21 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:31:34 +0300
Subject: [PATCH 31/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index b52d19813..c7776bc4e 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -375,7 +375,7 @@
 
 **54. Skip-gram ― The skip-gram word2vec model is a supervised learning task that learns word embeddings by assessing the likelihood of any given target word t happening with a context word c. By noting θt a parameter associated with t, the probability P(t|c) is given by:**
 
-&#10230; Skip-gram ― Модель word2vec с пропуском граммы - это задача с контролем учителем, которая изучает встраивание слов, оценивая правдоподобие того, что любое заданное целевое слово t встречается с контекстным словом c. Обозначим θt параметр, связанный с t, вероятность P(t|c) определяется выражением:
+&#10230; Skip-gram ― Модель skip-gram word2vec - это алгоритм обучения с учителем, который выучивает представления слов, оценивая правдоподобие того, что любое заданное целевое слово t встречается с контекстным словом c. Обозначим параметр, связанный с t, как θt, тогда вероятность P(t|c) определяется выражением:
 
 <br>
 

From c92c046e841d81a05e2bb7020dd746e05170be92 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:31:50 +0300
Subject: [PATCH 32/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index c7776bc4e..8487af773 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -389,7 +389,7 @@
 
 **56. Negative sampling ― It is a set of binary classifiers using logistic regressions that aim at assessing how a given context and a given target words are likely to appear simultaneously, with the models being trained on sets of k negative examples and 1 positive example. Given a context word c and a target word t, the prediction is expressed by:**
 
-&#10230; Отрицательная выборка ― это набор бинарных классификаторов, использующих логистические регрессии, целью которых является оценка того, как данный контекст и заданные целевые слова могут появляться одновременно, при этом модели обучаются на наборах из k отрицательных примеров и 1 положительного примера. Учитывая контекстное слово c и целевое слово t, прогноз выражается следующим образом:
+&#10230; Negative sampling ― это набор бинарных классификаторов, использующих логистические регрессии, целью которых является оценка того, как данный контекст и заданные целевые слова могут появляться одновременно, при этом модели обучаются на наборах из k отрицательных примеров и 1 положительного примера. Учитывая контекстное слово c и целевое слово t, прогноз выражается следующим образом:
 
 <br>
 

From e81d34809d6f5630775ca059bc8b79d065574616 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:32:31 +0300
Subject: [PATCH 33/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 8487af773..4d65cbf17 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -417,7 +417,7 @@
 
 **59. Remark: the individual components of the learned word embeddings are not necessarily interpretable.**
 
-&#10230; Примечание: отдельные компоненты представления слов не обязательно поддаются интерпретации.
+&#10230; Примечание: отдельные компоненты векторов представлений слов не обязательно поддаются интерпретации.
 
 <br>
 

From bb7db5d8efa8136b6dd2781fa72d9541622b63b2 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:32:51 +0300
Subject: [PATCH 34/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 4d65cbf17..2a5d53b31 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -403,7 +403,7 @@
 
 **57 GloVe ― The GloVe model, short for global vectors for word representation, is a word embedding technique that uses a co-occurence matrix X where each Xi,j denotes the number of times that a target i occurred with a context j. Its cost function J is as follows:**
 
-&#10230; GloVe ― Модель GloVe, сокращение от глобальных векторов для представления слов, представляет собой метод встраивания слов, который использует матрицу совпадения X, где каждый Xi,j обозначает количество раз, когда цель i встречалась с контекстом j. Его функция стоимости J выглядит следующим образом:
+&#10230; GloVe ― Модель GloVe, сокращение от глобальных векторов для представления слов, является методом получения представлений слов, который использует матрицу совпадения X, где каждый Xi,j обозначает количество раз, когда цель i встречалась с контекстом j. Его функция стоимости J выглядит следующим образом:
 
 <br>
 

From 4a125d9ddd82c8e9a1dde4c9ff855c464afb5b58 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:33:10 +0300
Subject: [PATCH 35/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 2a5d53b31..a70f41232 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -410,7 +410,7 @@
 
 **58. where f is a weighting function such that Xi,j=0⟹f(Xi,j)=0. Given the symmetry that e and θ play in this model, the final word embedding e(final)w is given by:**
 
-&#10230; где f - такая весовая функция, что Xi,j=0⟹f(Xi,j)=0. Учитывая симметрию, которую играют e и θ в этой модели, последнее представление слов e(final)w дается выражением:
+&#10230; где f - такая взвешивающая функция, что Xi,j=0⟹f(Xi,j)=0. Учитывая симметрию, которую играют e и θ в этой модели, последнее представление слов e(final)w задается выражением:
 
 <br>
 

From d9bceeaf17f9c2faa08ebd32910c64bb372f7b58 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:33:34 +0300
Subject: [PATCH 36/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index a70f41232..f62f1c61c 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -473,7 +473,7 @@
 
 **67. n-gram model ― This model is a naive approach aiming at quantifying the probability that an expression appears in a corpus by counting its number of appearance in the training data.**
 
-&#10230; Модель n ― граммы - эта модель представляет собой наивный подход, направленный на количественную оценку вероятности того, что выражение появляется в корпусе, путем подсчета его количества появлений в обучающих данных.
+&#10230; Модель n-gram ― эта модель представляет собой наивный подход, направленный на количественную оценку вероятности того, что выражение появляется в корпусе, путем подсчета его количества появлений в обучающих данных.
 
 <br>
 

From ffe84f3f5195379c00827ef62f36b92e4e924924 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Tue, 16 Feb 2021 22:33:56 +0300
Subject: [PATCH 37/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index f62f1c61c..e02d24006 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -480,7 +480,7 @@
 
 **68. Perplexity ― Language models are commonly assessed using the perplexity metric, also known as PP, which can be interpreted as the inverse probability of the dataset normalized by the number of words T. The perplexity is such that the lower, the better and is defined as follows:**
 
-&#10230; Недоумение ― Perplexity - языковые модели обычно оцениваются с помощью метрики недоумения, также известной как PP, которую можно интерпретировать как обратную вероятность набора данных, нормализованную на количество слов T. Недоумение таково, что чем ниже, тем лучше и определяется как следует:
+&#10230; Метрика Perplexity ― языковые модели обычно оцениваются с помощью метрики perplexity, также известной как PP, которую можно интерпретировать как обратную вероятность набора данных, нормализованную на количество слов T. Perplexity таково, что чем оно ниже, тем лучше, и определяется следующим образом:
 
 <br>
 

From 82eb6783d9e020790dea0c04c0e8dfcc65674e24 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Wed, 17 Feb 2021 13:00:39 +0300
Subject: [PATCH 38/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index e02d24006..50a276e6a 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -599,7 +599,7 @@
 
 **85. Attention model ― This model allows an RNN to pay attention to specific parts of the input that is considered as being important, which improves the performance of the resulting model in practice. By noting α<t,t′> the amount of attention that the output y<t> should pay to the activation a<t′> and c<t> the context at time t, we have:**
 
-&#10230; Модель внимания ― эта модель позволяет RNN обращать внимание на определенные части входных данных, которые считаются важными, что на практике улучшает производительность полученной модели. Обозначим α<t,t′> количество внимания, которое выход y<t> должен уделять активации a<t′> и c<t> контексту в момент времени t, у нас есть:
+&#10230; Модель внимания ― эта модель позволяет RNN обращать внимание на определенные части входных данных, которые считаются важными, что на практике улучшает качество предсказаний полученной модели. Обозначим α<t,t′> количество внимания, которое выход y<t> должен уделять активации a<t′> и c<t> контексту в момент времени t, у нас есть:
 
 <br>
 

From 680b79a8c1ae338503b4f73e2183c8d0f1860d41 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Wed, 17 Feb 2021 13:01:01 +0300
Subject: [PATCH 39/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 50a276e6a..ae3b76a8b 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -501,7 +501,7 @@
 
 **71. Overview ― A machine translation model is similar to a language model except it has an encoder network placed before. For this reason, it is sometimes referred as a conditional language model. The goal is to find a sentence y such that:**
 
-&#10230; Обзор ― модель машинного перевода похожа на языковую модель, за исключением того, что в ней размещена сеть кодировщика. По этой причине её иногда называют моделью условного языка. Цель состоит в том, чтобы найти такое предложение y, что:
+&#10230; Обзор ― модель машинного перевода похожа на языковую модель, за исключением того, что перед ней размещена сеть кодировщика. По этой причине её иногда называют условной языковой моделью. Цель состоит в том, чтобы найти такое предложение y, что:
 
 <br>
 

From a31c28df7e5c85e7572b3526e7b0a4b2ec62aa77 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Wed, 17 Feb 2021 13:01:25 +0300
Subject: [PATCH 40/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index ae3b76a8b..9af863482 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -529,7 +529,7 @@
 
 **75. Beam width ― The beam width B is a parameter for beam search. Large values of B yield to better result but with slower performance and increased memory. Small values of B lead to worse results but is less computationally intensive. A standard value for B is around 10.**
 
-&#10230; Ширина луча ― Ширина луча B является параметром лучевого поиска. Большие значения B дают лучший результат, но с меньшей производительностью и увеличенным объёмом памяти. Маленькие значения B приводят к худшим результатам, но требуют меньших вычислительных затрат. Стандартное значение B составляет около 10.
+&#10230; Ширина луча ― Ширина луча B является параметром лучевого поиска. Большие значения B дают лучший результат, но с меньшим качеством предсказаний и увеличенным объёмом памяти. Маленькие значения B приводят к худшим результатам, но требуют меньших вычислительных затрат. Стандартное значение B составляет около 10.
 
 <br>
 

From e8b7211038c856d48bd0f7fbcf3d5c0adadabb9e Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Wed, 17 Feb 2021 13:02:11 +0300
Subject: [PATCH 41/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 9af863482..b17efab24 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -571,7 +571,7 @@
 
 **81. Bleu score ― The bilingual evaluation understudy (bleu) score quantifies how good a machine translation is by computing a similarity score based on n-gram precision. It is defined as follows:**
 
-&#10230; Оценка Bleu ― оценка дублера для двуязычной оценки (bilingual evaluation understudy, bleu) количественно определяет, насколько хорош машинный перевод, путем вычисления оценки сходства на основе точности n-граммов. Это определяется следующим образом:
+&#10230; Метрика BLEU ― bilingual evaluation understudy количественно определяет, насколько хорош машинный перевод, путем вычисления оценки сходства на основе точности n-грамм. Это определяется следующим образом:
 
 <br>
 

From 5a19fff36a40a9ee0b5c6f06ada06ce53aa6f07d Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Wed, 17 Feb 2021 13:02:37 +0300
Subject: [PATCH 42/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index b17efab24..e1f34b8f2 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -578,7 +578,7 @@
 
 **82. where pn is the bleu score on n-gram only defined as follows:**
 
-&#10230; где pn - это оценка по n-грамму, определяемая только следующим образом:
+&#10230; где pn - это оценка по n-граммам, определяемая следующим образом:
 
 <br>
 

From 39754f74fe7df6e90e1189697b4b3d8dc9ef92c1 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Wed, 17 Feb 2021 13:02:56 +0300
Subject: [PATCH 43/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index e1f34b8f2..44c1eee09 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -585,7 +585,7 @@
 
 **83. Remark: a brevity penalty may be applied to short predicted translations to prevent an artificially inflated bleu score.**
 
-&#10230; Примечание: к коротким предсказанным переводам может применяться штраф за краткость, чтобы предотвратить искусственно завышенную оценку bleu.
+&#10230; Примечание: к коротким предсказанным переводам может применяться штраф за краткость, чтобы предотвратить искусственно завышенную оценку BLEU.
 
 <br>
 

From f7a775a835888e7ab3dc0cbf3d7b5e6a162fcb13 Mon Sep 17 00:00:00 2001
From: AlexandrParkhomenko
 <48244777+AlexandrParkhomenko@users.noreply.github.com>
Date: Wed, 17 Feb 2021 13:03:54 +0300
Subject: [PATCH 44/44] Update ru/cs-230-recurrent-neural-networks.md

Co-authored-by: Georgy Trush <48649707+geotrush@users.noreply.github.com>
---
 ru/cs-230-recurrent-neural-networks.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/ru/cs-230-recurrent-neural-networks.md b/ru/cs-230-recurrent-neural-networks.md
index 44c1eee09..649bb945b 100644
--- a/ru/cs-230-recurrent-neural-networks.md
+++ b/ru/cs-230-recurrent-neural-networks.md
@@ -445,7 +445,7 @@
 
 **63. t-SNE ― t-SNE (t-distributed Stochastic Neighbor Embedding) is a technique aimed at reducing high-dimensional embeddings into a lower dimensional space. In practice, it is commonly used to visualize word vectors in the 2D space.**
 
-&#10230; t-SNE ― t-распределенное стохастическое соседнее представление (t-distributed Stochastic Neighbor Embedding, t-SNE) - это метод, направленный на сокращение представлений большой размерности в пространство меньшей размерности. На практике он обычно используется для визуализации векторов слов в 2D-пространстве.
+&#10230; t-SNE ― t-распределенное стохастическое соседнее представление (t-distributed Stochastic Neighbor Embedding, t-SNE) - это метод, направленный на сокращение высоко-размерного пространства представлений до пространства меньшей размерности. На практике он обычно используется для визуализации векторов слов в 2D-пространстве.
 
 <br>