Hay un agujero calculado y de lenguaje. Los estudios de los sistemas neurales y los modelos de probabilidad no tienen un lenguaje común. Probablemente andamiaré este agujero de pensamiento y consideraré un esfuerzo más coordinado y un discurso entre estos campos, y daré una ejecución predecible (Github connect). En el caso de que numerosas palabras aquí sean diferentes para ti, salta al glosario.

Los autocodificadores variables son geniales. Nos permiten estructurar complejos modelos generativos de información, y ajustarlos a enormes conjuntos de datos. Pueden producir imágenes de caras anecdóticas de grandes nombres y de artesanía computarizada de altos objetivos.

Estos modelos también son los mejores de la clase. La inteligencia artificial hace que la edad de la imagen y apoya el aprendizaje. Los autocodificadores variables (VAEs) fueron caracterizados en 2013 por Kingma et al. Es más, Rezende et al…

¿Cómo podríamos hacer un lenguaje para hablar de los autocodificadores variacionales? ¿Qué tal si los consideramos primero utilizando sistemas neuronales, en ese punto utilizando la inducción variacional en modelos de probabilidad.

La perspectiva de la red neuronal

En el lenguaje de la red neuronal, un autoencoder variacional consiste en un codificador, un decodificador y una función de pérdida.

El codificador es un sistema neural. Su información es un punto de datos xx, su rendimiento es un retrato oculto zz, y tiene cargas y predisposiciones \ ~ thetaθ. Para ser sólido, supongamos que xx es una fotografía de 28 por 28 píxeles de un número escrito a mano. El codificador “codifica” la información, que es de 784784 dimensiones, en un espacio de representación inactivo (cubierto) zz, que es considerablemente menor que las 784784 medidas. Esto es comúnmente aludido como un “cuello de botella” en base a que el codificador debe familiarizarse con una presión competente de la información en este espacio de menor dimensión. ¿Qué tal si nos referimos al codificador q_\theta (z \mid x)q

​θ

(z∣x). Observamos que el espacio de dimensiones inferiores es estocástico: el codificador cede parámetros a q_\theta (z \mid x)q

​θ

(z∣x), que es un espesor de probabilidad gaussiana. Podemos hacer pruebas de este transporte para obtener estimaciones de las representaciones zz.

El decodificador es otra red neural. Su información es el retrato zz, cede los parámetros a la apropiación de la información de probabilidad, y tiene cargas e inclinaciones \ ~ -phiϕ. El decodificador está representado por p_\phi(x\mid z)p

​ϕ

(x∣z). Corriendo con el modelo de dígitos escritos manualmente, supongamos que las fotografías son de alto contraste y hablan a cada pixel como 00 u 11. La probabilidad de diseminación de un píxel solitario puede entonces hablarse utilizando una apropiación Bernoulli. El decodificador obtiene como información la representación inactiva de un dígito zz y produce 784784 parámetros de Bernoulli, uno para cada uno de los 784784 píxeles de la fotografía. El decodificador ‘descifra’ los números estimados genuinos en zz en 784784 números estimados genuinos en algún lugar en el rango de 00 y 11. Los datos del primer vector dimensional 784784 no pueden ser transmitidos magníficamente, ya que el decodificador sólo se acerca a una sinopsis de los datos (como un vector zz de menos de 784784 dimensiones). ¿Qué cantidad de datos se pierde? Lo medimos utilizando la probabilidad de reajuste del logaritmo p_\phi (x\mid z)logp

​ϕ

(x∣z) cuyas unidades son nats. Esta medida nos revela cuán adecuadamente el decodificador ha descubierto cómo rehacer una imagen de información xx dada su representación ociosa zz.

La capacidad de infortunio del autoencoder variacional es la probabilidad de registro negativo con un regularizador. Dado que no hay representaciones mundiales que sean compartidas por todos los puntos de datos, podemos descomponer el trabajo de infortunio en términos justos que dependen de un punto de datos solitario l_il

​i

​​ . La desgracia total es entonces \ ~ – suma de 1 \ ~ – N l_i∑

​i=1

​N

​​ l

​i

para los puntos de datos completos de NN. El trabajo de la desgracia l_il

​i

para el punto de datos x_ix

​i

es:

El término primario es la desgracia de la reproducción o la probabilidad de logaritmo negativo esperada del punto de datos ii-th. El deseo se toma en relación con la difusión del codificador sobre las representaciones. Este término insta al decodificador a averiguar cómo recrear la información. En el caso de que el rendimiento del decodificador no reproduzca bien la información, de hecho afirmamos que el decodificador parametriza una apropiación de probabilidad que no pone mucha masa de probabilidad en la información genuina. Por ejemplo, si probablemente mostraremos imágenes de alto contraste y nuestro modelo coloca una alta probabilidad de que haya puntos oscuros donde realmente hay puntos blancos, esto producirá la reproducción más extremadamente horrible que se pueda concebir. Una reproducción pobre traerá un enorme gasto en este trabajo de desgracia.

El término siguiente es un regularizador que introducimos (más adelante percibiremos cómo se infiere). Esta es la diferencia Kullback-Leibler entre la difusión del codificador q_\theta(z\mid x)q

​θ

(z∣x) y p(z)p(z). Esta disimilitud estima la cantidad de datos que se pierden (en unidades de nats) al utilizar qq para hablar con pp. Es una proporción de lo cerca que está qq de pp.

En el autoencoder variacional, pp se determina como una circulación típica estándar con un cero medio y una fluctuación, o p(z) = Normal(0,1)p(z)=Normal(0,1). En la remota posibilidad de que el codificador produzca representaciones zz que sean únicas en relación con las de la difusión típica estándar, recibirá un castigo en la desgracia. Este término regularizador significa “mantener las representaciones zz de cada dígito adecuadamente variadas”. Por si acaso excluimos el regularizador, el codificador podría descubrir cómo hacer trampa y dar a cada punto de datos una representación en un lugar alternativo del espacio euclidiano. Esto es horrible, a la luz del hecho de que entonces dos imágenes de un número similar (digamos un 2 compuesto por varios individuos, 2_{alice}2

alice ​alice

y 2_{bob}2

bob ​bob

) podría terminar con representaciones totalmente diferentes z_{alice}, z_{bob}z

alice ​alice

​​ ,z

bob ​bob

​​ . Necesitamos que el espacio de representación de zz sea significativo, así que castigamos esta conducta. Esto tiene el impacto de mantener las representaciones de números comparables cerca una de la otra (por ejemplo, así las representaciones del dígito dos {z_{alice}, z_{bob}, z_{ali}}z

alice ​alice

​​ ,z

bob ​bob

​​ ,z

ali ​ali

permanecer adecuadamente cerca).

Entrenamos el autoencoder variacional utilizando la caída en picado de la pendiente para mejorar la desgracia en cuanto a los parámetros del codificador y el decodificador \Nthetaθ y \Nphiϕ.

​∂θ

​∂l

y el decodificador se refresca de la misma manera.