diff --git a/CONTRIBUTORS b/CONTRIBUTORS
index f1c9a4747..c7b22b33f 100644
--- a/CONTRIBUTORS
+++ b/CONTRIBUTORS
@@ -80,6 +80,9 @@
--ja
--pt
+ Leticia Portella (translation of convolutional neural networks)
+ Gabriel Aparecido Fonseca (review of convolutional neural networks)
+
Gabriel Fonseca (translation of deep learning)
Leticia Portella (review of deep learning)
diff --git a/pt/convolutional-neural-networks.md b/pt/convolutional-neural-networks.md
new file mode 100644
index 000000000..4934d7c2f
--- /dev/null
+++ b/pt/convolutional-neural-networks.md
@@ -0,0 +1,718 @@
+**Convolutional Neural Networks translation**
+
+
+
+**1. Convolutional Neural Networks cheatsheet**
+
+⟶ Dicas de Redes Neurais Convolucionais
+
+
+
+
+**2. CS 230 - Deep Learning**
+
+⟶ CS 230 - Aprendizagem profunda
+
+
+
+
+**3. [Overview, Architecture structure]**
+
+⟶ [Visão geral, Estrutura arquitetural]
+
+
+
+
+**4. [Types of layer, Convolution, Pooling, Fully connected]**
+
+⟶ [Tipos de camadas, Convolução, Pooling, Totalmente conectada]
+
+
+
+
+**5. [Filter hyperparameters, Dimensions, Stride, Padding]**
+
+⟶ [Hiperparâmetros de filtro, Dimensões, Passo, Preenchimento]
+
+
+
+
+**6. [Tuning hyperparameters, Parameter compatibility, Model complexity, Receptive field]**
+
+⟶[Ajustando hiperparâmetros, Compatibilidade de parâmetros, Complexidade de modelo, Campo receptivo]
+
+
+
+
+**7. [Activation functions, Rectified Linear Unit, Softmax]**
+
+⟶ [Funções de Ativação, Unidade Linear Retificada, Softmax]
+
+
+
+
+**8. [Object detection, Types of models, Detection, Intersection over Union, Non-max suppression, YOLO, R-CNN]**
+
+⟶[Detecção de objetos, Tipos de modelos, Detecção, Intersecção por União, Supressão não-máxima, YOLO, R-CNN]
+
+
+
+
+**9. [Face verification/recognition, One shot learning, Siamese network, Triplet loss]**
+
+⟶ [Verificação / reconhecimento facial, Aprendizado de disparo único, Rede siamesa, Perda tripla]
+
+
+
+
+**10. [Neural style transfer, Activation, Style matrix, Style/content cost function]**
+
+⟶ [Transferência de estilo neural, Ativação, Matriz de estilo, Função de custo de estilo/conteúdo]
+
+
+
+
+**11. [Computational trick architectures, Generative Adversarial Net, ResNet, Inception Network]**
+
+⟶ [Arquiteturas de truques computacionais, Rede Adversarial Generativa, ResNet, Rede de Iniciação]
+
+
+
+
+**12. Overview**
+
+⟶ Visão geral
+
+
+
+
+**13. Architecture of a traditional CNN ― Convolutional neural networks, also known as CNNs, are a specific type of neural networks that are generally composed of the following layers:**
+
+⟶ Arquitetura de uma RNC tradicional (CNN) - Redes neurais convolucionais, também conhecidas como CNN (em inglês), são tipos específicos de redes neurais que geralmente são compostas pelas seguintes camadas:
+
+
+
+
+**14. The convolution layer and the pooling layer can be fine-tuned with respect to hyperparameters that are described in the next sections.**
+
+⟶ A camada convolucional e a camadas de pooling podem ter um ajuste fino considerando os hiperparâmetros que estão descritos nas próximas seções.
+
+
+
+
+**15. Types of layer**
+
+⟶ Tipos de camadas
+
+
+
+
+**16. Convolution layer (CONV) ― The convolution layer (CONV) uses filters that perform convolution operations as it is scanning the input I with respect to its dimensions. Its hyperparameters include the filter size F and stride S. The resulting output O is called feature map or activation map.**
+
+⟶ Camada convolucional (CONV) - A camada convolucional (CONV) usa filtros que realizam operações de convolução conforme eles escaneiam a entrada I com relação a suas dimensões. Seus hiperparâmetros incluem o tamanho do filtro F e o passo S. O resultado O é chamado de mapa de recursos (feature map) ou mapa de ativação.
+
+
+
+
+**17. Remark: the convolution step can be generalized to the 1D and 3D cases as well.**
+
+⟶ Observação: o passo de convolução também pode ser generalizado para os casos 1D e 3D.
+
+
+
+
+**18. Pooling (POOL) ― The pooling layer (POOL) is a downsampling operation, typically applied after a convolution layer, which does some spatial invariance. In particular, max and average pooling are special kinds of pooling where the maximum and average value is taken, respectively.**
+
+⟶ Pooling (POOL) - A camada de pooling (POOL) é uma operação de amostragem (downsampling), tipicamente aplicada depois de uma camada convolucional, que faz alguma invariância espacial. Em particular, pooling máximo e médio são casos especiais de pooling onde o máximo e o médio valor são obtidos, respectivamente.
+
+
+
+
+**19. [Type, Purpose, Illustration, Comments]**
+
+⟶ [Tipo, Propósito, Ilustração, Comentários]
+
+
+
+
+**20. [Max pooling, Average pooling, Each pooling operation selects the maximum value of the current view, Each pooling operation averages the values of the current view]**
+
+⟶ [Pooling máximo, Pooling médio, Cada operação de pooling seleciona o valor máximo da exibição atual, Cada operação de pooling calcula a média dos valores da exibição atual]
+
+
+
+
+**21. [Preserves detected features, Most commonly used, Downsamples feature map, Used in LeNet]**
+
+⟶ [Preserva os recursos detectados, Mais comumente usados, Mapa de recursos de amostragem (downsample), Usado no LeNet]
+
+
+
+
+
+**22. Fully Connected (FC) ― The fully connected layer (FC) operates on a flattened input where each input is connected to all neurons. If present, FC layers are usually found towards the end of CNN architectures and can be used to optimize objectives such as class scores.**
+
+⟶ Totalmente Conectado (FC) - A camada totalmente conectada (FC opera em uma entrada achatada, onde cada entrada é conectada a todos os neurônios. Se estiver presente, as camadas FC geralmente são encontradas no final das arquiteturas da CNN e podem ser usadas para otimizar objetivos, como pontuações de classes.
+
+
+
+
+**23. Filter hyperparameters**
+
+⟶ Hiperparâmetros de filtros
+
+
+
+
+**24. The convolution layer contains filters for which it is important to know the meaning behind its hyperparameters.**
+
+⟶ A camada de convolução contém filtros para os quais é importante conhecer o significado por trás de seus hiperparâmetros.
+
+
+
+
+**25. Dimensions of a filter ― A filter of size F×F applied to an input containing C channels is a F×F×C volume that performs convolutions on an input of size I×I×C and produces an output feature map (also called activation map) of size O×O×1.**
+
+⟶ Dimensões de um filtro - Um filtro de tamanho F×F aplicado a uma entrada contendo C canais é um volume de tamanho F×F×C que executa convoluções em uma entrada de tamanho I×I×C e produz um mapa de recursos (também chamado de mapa de ativação) da saída de tamanho O×O×1.
+
+
+
+
+**26. Filter**
+
+⟶ Filtros
+
+
+
+
+**27. Remark: the application of K filters of size F×F results in an output feature map of size O×O×K.**
+
+⟶ Observação: a aplicação de K filtros de tamanho F×F resulta em um mapa de recursos de saída de tamanho O×O×K.
+
+
+
+
+**28. Stride ― For a convolutional or a pooling operation, the stride S denotes the number of pixels by which the window moves after each operation.**
+
+⟶ Passo - Para uma operação convolucional ou de pooling, o passo S denota o número de pixels que a janela se move após cada operação.
+
+
+
+
+**29. Zero-padding ― Zero-padding denotes the process of adding P zeroes to each side of the boundaries of the input. This value can either be manually specified or automatically set through one of the three modes detailed below:**
+
+⟶ Zero preenchimento (Zero-padding) - Zero preenchimento denota o processo de adicionar P zeros em cada lado das fronteiras de entrada. Esse valor pode ser especificado manualmente ou automaticamente ajustado através de um dos três modelos abaixo:
+
+
+
+
+**30. [Mode, Value, Illustration, Purpose, Valid, Same, Full]**
+
+⟶ [Modo, Valor, Ilustração, Propósito, Válido, Idêntico, Completo]
+
+
+
+
+**31. [No padding, Drops last convolution if dimensions do not match, Padding such that feature map size has size ⌈IS⌉, Output size is mathematically convenient, Also called 'half' padding, Maximum padding such that end convolutions are applied on the limits of the input, Filter 'sees' the input end-to-end]**
+
+⟶ [Sem preenchimento, Descarta a última convolução se as dimensões não corresponderem, Preenchimento de tal forma que o tamanho do mapa de recursos tenha tamanho ⌈IS⌉, Tamanho da saída é matematicamente conveniente, Também chamado de 'meio' preenchimento, Preenchimento máximo de tal forma que convoluções finais são aplicadas nos limites de a entrada, Filtro 'vê' a entrada de ponta a ponta]
+
+
+
+
+**32. Tuning hyperparameters**
+
+⟶ Ajuste de hiperparâmetros
+
+
+
+
+**33. Parameter compatibility in convolution layer ― By noting I the length of the input volume size, F the length of the filter, P the amount of zero padding, S the stride, then the output size O of the feature map along that dimension is given by:**
+
+⟶ Compatibilidade de parâmetro na camada convolucional - Considerando I o comprimento do tamanho do volume da entrada, F o tamanho do filtro, P a quantidade de preenchimento de zero (zero-padding) e S o tamanho do passo, então o tamanho de saída O do mapa de recursos ao longo dessa dimensão é dado por:
+
+
+
+
+
+**34. [Input, Filter, Output]**
+
+⟶ [Entrada, Filtro, Saída]
+
+
+
+
+**35. Remark: often times, Pstart=Pend≜P, in which case we can replace Pstart+Pend by 2P in the formula above.**
+
+⟶ Observação: diversas vezes, Pstart=Pend≜P, em cujo caso podemos substituir Pstart+Pen por 2P na fórmula acima.
+
+
+
+
+**36. Understanding the complexity of the model ― In order to assess the complexity of a model, it is often useful to determine the number of parameters that its architecture will have. In a given layer of a convolutional neural network, it is done as follows:**
+
+⟶ Entendendo a complexidade do modelo - Para avaliar a complexidade de um modelo, é geralmente útil determinar o número de parâmetros que a arquitetura deverá ter. Em uma determinada camada de uma rede neural convolucional, ela é dada da seguinte forma:
+
+
+
+
+**37. [Illustration, Input size, Output size, Number of parameters, Remarks]**
+
+⟶ [Ilustração, Tamanho da entrada, Tamanho da saída, Número de parâmetros, Observações]
+
+
+
+
+**38. [One bias parameter per filter, In most cases, S
+
+
+**39. [Pooling operation done channel-wise, In most cases, S=F]**
+
+⟶ [Operação de pooling feita pelo canal, Na maior parte dos casos, S=F]
+
+
+
+
+**40. [Input is flattened, One bias parameter per neuron, The number of FC neurons is free of structural constraints]**
+
+⟶ [Entrada é achatada, Um parâmetro de viés (bias parameter) por neurônio, O número de neurônios FC está livre de restrições estruturais]
+
+
+
+
+**41. Receptive field ― The receptive field at layer k is the area denoted Rk×Rk of the input that each pixel of the k-th activation map can 'see'. By calling Fj the filter size of layer j and Si the stride value of layer i and with the convention S0=1, the receptive field at layer k can be computed with the formula:**
+
+⟶ Campo receptivo - O campo receptivo na camada k é a área denotada por Rk×Rk da entrada que cada pixel do k-ésimo mapa de ativação pode 'ver'. Ao chamar Fj o tamanho do filtro da camada j e Si o valor do passo da camada i e com a convenção S0=1, o campo receptivo na camada k pode ser calculado com a fórmula:
+
+
+
+
+**42. In the example below, we have F1=F2=3 and S1=S2=1, which gives R2=1+2⋅1+2⋅1=5.**
+
+⟶ No exemplo abaixo, temos que F1=F2=3 e S1=S2=1, o que resulta em R2=1+2⋅1+2⋅1=5.
+
+
+
+
+**43. Commonly used activation functions**
+
+⟶ Funções de ativação comumente usadas
+
+
+
+
+**44. Rectified Linear Unit ― The rectified linear unit layer (ReLU) is an activation function g that is used on all elements of the volume. It aims at introducing non-linearities to the network. Its variants are summarized in the table below:**
+
+⟶ Unidade Linear Retificada (Rectified Linear Unit) - A camada unitária linear retificada (ReLU) é uma função de ativação g que é usada em todos os elementos do volume. Tem como objetivo introduzir não linearidades na rede. Suas variantes estão resumidas na tabela abaixo:
+
+
+
+
+**45. [ReLU, Leaky ReLU, ELU, with]**
+
+⟶ [ReLU, Leaky ReLU, ELU, com]
+
+
+
+
+**46. [Non-linearity complexities biologically interpretable, Addresses dying ReLU issue for negative values, Differentiable everywhere]**
+
+⟶ [Complexidades de não-linearidade biologicamente interpretáveis, Endereça o problema da ReLU para valores negativos, Diferenciável em todos os lugares]
+
+
+
+
+**47. Softmax ― The softmax step can be seen as a generalized logistic function that takes as input a vector of scores x∈Rn and outputs a vector of output probability p∈Rn through a softmax function at the end of the architecture. It is defined as follows:**
+
+⟶ Softmax - O passo de softmax pode ser visto como uma função logística generalizada que pega como entrada um vetor de pontuações x∈Rn e retorna um vetor de probabilidades p∈Rn através de uma função softmax no final da arquitetura. É definida como:
+
+
+
+
+**48. where**
+
+⟶ onde
+
+
+
+
+**49. Object detection**
+
+⟶ Detecção de objeto
+
+
+
+
+**50. Types of models ― There are 3 main types of object recognition algorithms, for which the nature of what is predicted is different. They are described in the table below:**
+
+⟶ Tipos de modelos - Existem 3 tipos de algoritmos de reconhecimento de objetos, para o qual a natureza do que é previsto é diferente para cada um. Eles estão descritos na tabela abaixo:
+
+
+
+
+**51. [Image classification, Classification w. localization, Detection]**
+
+⟶ [Classificação de imagem, Classificação com localização, Detecção]
+
+
+
+
+**52. [Teddy bear, Book]**
+
+⟶ [Urso de pelúcia, Livro]
+
+
+
+
+**53. [Classifies a picture, Predicts probability of object, Detects an object in a picture, Predicts probability of object and where it is located, Detects up to several objects in a picture, Predicts probabilities of objects and where they are located]**
+
+⟶ [Classifica uma imagem, Prevê a probabilidade de um objeto, Detecta um objeto em uma imagem, Prevê a probabilidade de objeto e onde ele está localizado, Detecta vários objetos em uma imagem, Prevê probabilidades de objetos e onde eles estão localizados]
+
+
+
+
+**54. [Traditional CNN, Simplified YOLO, R-CNN, YOLO, R-CNN]**
+
+⟶ [CNN tradicional, YOLO simplificado, R-CNN, YOLO, R-CNN]
+
+
+
+
+**55. Detection ― In the context of object detection, different methods are used depending on whether we just want to locate the object or detect a more complex shape in the image. The two main ones are summed up in the table below:**
+
+⟶ Detecção - No contexto da detecção de objetos, diferentes métodos são usados dependendo se apenas queremos localizar o objeto ou detectar uma forma mais complexa na imagem. Os dois principais são resumidos na tabela abaixo:
+
+
+
+
+**56. [Bounding box detection, Landmark detection]**
+
+⟶ [Detecção de caixa limite, Detecção de marco]
+
+
+
+
+**57. [Detects the part of the image where the object is located, Detects a shape or characteristics of an object (e.g. eyes), More granular]**
+
+⟶ [Detecta parte da imagem onde o objeto está localizado, Detecta a forma ou característica de um objeto (e.g. olhos), Mais granular]
+
+
+
+
+**58. [Box of center (bx,by), height bh and width bw, Reference points (l1x,l1y), ..., (lnx,lny)]**
+
+⟶ [Caixa central (bx,by), altura bh e largura bw, Pontos de referência (l1x,l1y), ..., (lnx,lny)]
+
+
+
+
+**59. Intersection over Union ― Intersection over Union, also known as IoU, is a function that quantifies how correctly positioned a predicted bounding box Bp is over the actual bounding box Ba. It is defined as:**
+
+⟶ Interseção sobre União (Intersection over Union) - Interseção sobre União, também conhecida como IoU, é uma função que quantifica quão corretamente posicionado uma caixa de delimitação predita Bp está sobre a caixa de delimitação real Ba. É definida por:
+
+
+
+
+**60. Remark: we always have IoU∈[0,1]. By convention, a predicted bounding box Bp is considered as being reasonably good if IoU(Bp,Ba)⩾0.5.**
+
+⟶ Observação: temos que IoU∈[0,1]. Por convenção, uma caixa de delimitação predita Bp é considerada razoavelmente boa se IoU(Bp,Ba)⩾0.5.
+
+
+
+
+**61. Anchor boxes ― Anchor boxing is a technique used to predict overlapping bounding boxes. In practice, the network is allowed to predict more than one box simultaneously, where each box prediction is constrained to have a given set of geometrical properties. For instance, the first prediction can potentially be a rectangular box of a given form, while the second will be another rectangular box of a different geometrical form.**
+
+⟶ Caixas de ancoragem (Anchor boxes) - Caixas de ancoragem é uma técnica usada para predizer caixas de delimitação que se sobrepõem. Na prática, a rede tem permissão para predizer mais de uma caixa simultaneamente, onde cada caixa prevista é restrita a ter um dado conjunto de propriedades geométricas. Por exemplo, a primeira predição pode ser potencialmente uma caixa retangular de uma determinada forma, enquanto a segunda pode ser outra caixa retangular de uma forma geométrica diferente.
+
+
+
+
+**62. Non-max suppression ― The non-max suppression technique aims at removing duplicate overlapping bounding boxes of a same object by selecting the most representative ones. After having removed all boxes having a probability prediction lower than 0.6, the following steps are repeated while there are boxes remaining:**
+
+⟶ Supressão não máxima (Non-max suppression) - A técnica supressão não máxima visa remover caixas de delimitação de um mesmo objeto que estão duplicadas e se sobrepõem, selecionando as mais representativas. Depois de ter removido todas as caixas que contém uma predição menor que 0.6. os seguintes passos são repetidos enquanto existem caixas remanescentes:
+
+
+
+
+**63. [For a given class, Step 1: Pick the box with the largest prediction probability., Step 2: Discard any box having an IoU⩾0.5 with the previous box.]**
+
+⟶ [Para uma dada classe, Passo 1: Pegue a caixa com a maior predição de probabilidade., Passo 2: Descarte todas as caixas que tem IoU⩾0.5 com a caixa anterior.]
+
+
+
+
+**64. [Box predictions, Box selection of maximum probability, Overlap removal of same class, Final bounding boxes]**
+
+⟶ [Predição de caixa, Seleção de caixa com máxima probabilidade, Remoção de sobreposições da mesma classe, Caixas de delimitação final]
+
+
+
+
+**65. YOLO ― You Only Look Once (YOLO) is an object detection algorithm that performs the following steps:**
+
+⟶ YOLO - Você Apenas Vê Uma Vez (You Only Look Once - YOLO) é um algoritmo de detecção de objeto que realiza os seguintes passos:
+
+
+
+
+**66. [Step 1: Divide the input image into a G×G grid., Step 2: For each grid cell, run a CNN that predicts y of the following form:, repeated k times]**
+
+⟶ [Passo 1: Divide a imagem de entrada em uma grade G×G., Passo 2: Para cada célula da grade, roda uma CNN que prevê o valor y da seguinte forma:, repita k vezes]
+
+
+
+
+**67. where pc is the probability of detecting an object, bx,by,bh,bw are the properties of the detected bouding box, c1,...,cp is a one-hot representation of which of the p classes were detected, and k is the number of anchor boxes.**
+
+⟶ onde pc é a probabilidade de detecção do objeto, bx,by,bh,bw são as propriedades das caixas delimitadoras detectadas, c1,...,cp é uma representação única (one-hot representation) de quais das classes p foram detectadas, e k é o número de caixas de ancoragem.
+
+
+
+
+**68. Step 3: Run the non-max suppression algorithm to remove any potential duplicate overlapping bounding boxes.**
+
+⟶ Passo 3: Rode o algoritmo de supressão não máximo para remover qualquer caixa delimitadora duplicada e que se sobrepõe.
+
+
+
+
+**69. [Original image, Division in GxG grid, Bounding box prediction, Non-max suppression]**
+
+⟶ [Imagem original, Divisão em uma grade GxG, Caixa delimitadora prevista, Supressão não máxima]
+
+
+
+
+**70. Remark: when pc=0, then the network does not detect any object. In that case, the corresponding predictions bx,...,cp have to be ignored.**
+
+⟶ Observação: Quando pc=0, então a rede não detecta nenhum objeto. Nesse caso, as predições correspondentes bx,...,cp devem ser ignoradas.
+
+
+
+
+**71. R-CNN ― Region with Convolutional Neural Networks (R-CNN) is an object detection algorithm that first segments the image to find potential relevant bounding boxes and then run the detection algorithm to find most probable objects in those bounding boxes.**
+
+⟶ R-CNN - Região com Redes Neurais Convolucionais (R-CNN) é um algoritmo de detecção de objetos que primeiro segmenta a imagem para encontrar potenciais caixas de delimitação relevantes e então roda o algoritmo de detecção para encontrar os objetos mais prováveis dentro das caixas de delimitação.
+
+
+
+
+**72. [Original image, Segmentation, Bounding box prediction, Non-max suppression]**
+
+⟶ [Imagem original, Segmentação, Predição da caixa delimitadora, Supressão não-máxima]
+
+
+
+
+**73. Remark: although the original algorithm is computationally expensive and slow, newer architectures enabled the algorithm to run faster, such as Fast R-CNN and Faster R-CNN.**
+
+⟶ Observação: embora o algoritmo original seja computacionalmente caro e lento, arquiteturas mais recentes, como o Fast R-CNN e o Faster R-CNN, permitiram que o algoritmo fosse executado mais rapidamente.
+
+
+
+
+**74. Face verification and recognition**
+
+⟶ Verificação facial e reconhecimento
+
+
+
+
+**75. Types of models ― Two main types of model are summed up in table below:**
+
+⟶ Tipos de modelos - Os dois principais tipos de modelos são resumidos na tabela abaixo:
+
+
+
+
+**76. [Face verification, Face recognition, Query, Reference, Database]**
+
+⟶ [Verificação facial, Reconhecimento facial, Consulta, Referência, Banco de dados]
+
+
+
+
+**77. [Is this the correct person?, One-to-one lookup, Is this one of the K persons in the database?, One-to-many lookup]**
+
+⟶ [Esta é a pessoa correta?, Pesquisa um-para-um, Esta é uma das K pessoas no banco de dados?, Pesquisa um-para-muitos]
+
+
+
+
+**78. One Shot Learning ― One Shot Learning is a face verification algorithm that uses a limited training set to learn a similarity function that quantifies how different two given images are. The similarity function applied to two images is often noted d(image 1,image 2).**
+
+⟶ Aprendizado de Disparo Único (One Shot Learning) - One Shot Learning é um algoritmo de verificação facial que utiliza um conjunto de treinamento limitado para aprender uma função de similaridade que quantifica o quão diferentes são as duas imagens. A função de similaridade aplicada a duas imagens é frequentemente denotada como d(imagem 1, imagem 2).
+
+
+
+
+**79. Siamese Network ― Siamese Networks aim at learning how to encode images to then quantify how different two images are. For a given input image x(i), the encoded output is often noted as f(x(i)).**
+
+⟶ Rede Siamesa (Siamese Network) - Siamese Networks buscam aprender como codificar imagens para depois quantificar quão diferentes são as duas imagens. Para uma imagem de entrada x(i), o resultado codificado é normalmente denotado como f(x(i)).
+
+
+
+
+**80. Triplet loss ― The triplet loss ℓ is a loss function computed on the embedding representation of a triplet of images A (anchor), P (positive) and N (negative). The anchor and the positive example belong to a same class, while the negative example to another one. By calling α∈R+ the margin parameter, this loss is defined as follows:**
+
+⟶ Perda tripla (Triplet loss) - A perda tripla ℓ é uma função de perda (loss function) computada na representação da encorporação de três imagens A (âncora), P (positiva) e N (negativa). O exemplo da âncora e positivo pertencem à mesma classe, enquanto o exemplo negativo pertence a uma classe diferente. Chamando o parâmetro de margem de α∈R+, essa função de perda é definida da seguinte forma:
+
+
+
+
+**81. Neural style transfer**
+
+⟶ Transferência de estilo neural
+
+
+
+
+**82. Motivation ― The goal of neural style transfer is to generate an image G based on a given content C and a given style S.**
+
+⟶ Motivação - O objetivo da transferência de estilo neural é gerar uma imagem G baseada num dado conteúdo C com um estilo S.
+
+
+
+
+**83. [Content C, Style S, Generated image G]**
+
+⟶ [Conteúdo C, Estulo S, Imagem gerada G]
+
+
+
+
+**84. Activation ― In a given layer l, the activation is noted a[l] and is of dimensions nH×nw×nc**
+
+⟶ Ativação - Em uma dada camada l, a ativação é denotada como a[l] e suas dimensões são nH×nw×nc
+
+
+
+
+**85. Content cost function ― The content cost function Jcontent(C,G) is used to determine how the generated image G differs from the original content image C. It is defined as follows:**
+
+⟶ Função de custo de conteúdo (Content cost function) - A função de custo de conteúdo Jcontent(C,G) é usada para determinar como a imagem gerada G difere da imagem de conteúdo original C. Ela é definida da seguinte forma:
+
+
+
+
+**86. Style matrix ― The style matrix G[l] of a given layer l is a Gram matrix where each of its elements G[l]kk′ quantifies how correlated the channels k and k′ are. It is defined with respect to activations a[l] as follows:**
+
+⟶ Matriz de estilo - A matriz de estilo G[l] de uma determinada camada l é a matriz de Gram em que cada um dos seus elementos G[l]kk′ quantificam quão correlacionados são os canais k e k′. Ela é definida com respeito às ativações a[l] da seguinte forma:
+
+
+
+
+**87. Remark: the style matrix for the style image and the generated image are noted G[l] (S) and G[l] (G) respectively.**
+
+⟶ Observação: a matriz de estilo para a imagem estilizada e para a imagem gerada são denotadas como G[l] (S) e G[l] (G), respectivamente.
+
+
+
+
+**88. Style cost function ― The style cost function Jstyle(S,G) is used to determine how the generated image G differs from the style S. It is defined as follows:**
+
+⟶ Função de custo de estilo (Style cost function) - A função de custo de estilo Jstyle(S,G) é usada para determinar como a imagem gerada G difere do estilo S. Ela é definida da seguinte forma:
+
+
+
+
+**89. Overall cost function ― The overall cost function is defined as being a combination of the content and style cost functions, weighted by parameters α,β, as follows:**
+
+⟶ Função de custo geral (Overall cost function) é definida como sendo a combinação das funções de custo do conteúdo e do estilo, ponderada pelos parâmetros α,β, como mostrado abaixo:
+
+
+
+
+**90. Remark: a higher value of α will make the model care more about the content while a higher value of β will make it care more about the style.**
+
+⟶ Observação: um valor de α maior irá fazer com que o modelo se preocupe mais com o conteúdo enquanto um maior valor de β irá fazer com que ele se preocupe mais com o estilo.
+
+
+
+
+**91. Architectures using computational tricks**
+
+⟶ Arquiteturas usando truques computacionais
+
+
+
+
+**92. Generative Adversarial Network ― Generative adversarial networks, also known as GANs, are composed of a generative and a discriminative model, where the generative model aims at generating the most truthful output that will be fed into the discriminative which aims at differentiating the generated and true image.**
+
+⟶ Rede Adversarial Gerativa (Generative Adversarial Network) - As Generaive Adversarial Networks, também conhecidas como GANs, são compostas de um modelo generativo e um modelo discriminativo, onde o modelo generativo visa gerar a saída mais verdadeira que será alimentada na discriminativa que visa diferenciar a imagem gerada e a imagem verdadeira.
+
+
+
+
+**93. [Training, Noise, Real-world image, Generator, Discriminator, Real Fake]**
+
+⟶ [Treinamento, Ruído, Imagem real, Gerador, Discriminador, Falsa real]
+
+
+
+
+**94. Remark: use cases using variants of GANs include text to image, music generation and synthesis.**
+
+⟶ Observação: casos de uso usando variações de GANs incluem texto para imagem, geração de música e síntese.
+
+
+
+
+**95. ResNet ― The Residual Network architecture (also called ResNet) uses residual blocks with a high number of layers meant to decrease the training error. The residual block has the following characterizing equation:**
+
+⟶ ResNet - A arquitetura de Rede Residual (também chamada de ResNet) usa blocos residuais com um alto número de camadas para diminuir o erro de treinamento. O bloco residual possui a seguinte equação caracterizadora:
+
+
+
+
+**96. Inception Network ― This architecture uses inception modules and aims at giving a try at different convolutions in order to increase its performance through features diversification. In particular, it uses the 1×1 convolution trick to limit the computational burden.**
+
+⟶ Rede de Iniciação - Esta arquitetura utiliza módulos de iniciação e visa experimentar diferentes convoluções, a fim de aumentar seu desempenho através da diversificação de recursos. Em particular, ele usa o truque de convolução 1×1 para limitar a carga computacional.
+
+
+
+
+**97. The Deep Learning cheatsheets are now available in [target language].**
+
+⟶ Os resumos de Aprendizagem Profunda estão disponíveis em português.
+
+
+
+
+**98. Original authors**
+
+⟶ Autores Originais
+
+
+
+
+**99. Translated by X, Y and Z**
+
+⟶ Traduzido por Leticia Portella
+
+
+
+
+**100. Reviewed by X, Y and Z**
+
+⟶ Revisado por Gabriel Fonseca
+
+
+
+
+**101. View PDF version on GitHub**
+
+⟶ Ver versão em PDF no GitHub.
+
+
+
+
+**102. By X and Y**
+
+⟶ Por X e Y
+
+