Como científico de datos, debe conocer las técnicas adecuadas para interpretar el mecanismo de funcionamiento de un modelo. La interpretación es un aspecto esencial de la ciencia de datos. Cada vez que se crea un modelo con resultados precisos e impresionantes, hay que saber cómo funciona el mecanismo. Muchas personas generan un modelo a través de la codificación, pero no tienen ni idea de cómo los códigos crean el modelo y lo hacen funcionar.

Por ejemplo, estás construyendo un modelo que te ayudará a predecir los precios de las acciones. Observa que los precios de las acciones aumentan anormalmente de la noche a la mañana. Esto puede ocurrir por múltiples razones. Por lo tanto, puede utilizar la Estimación de Máxima Verosimilitud para encontrar la probabilidad del problema con la mayor probabilidad. Muchos profesionales de diferentes campos utilizan esta herramienta para la obtención de imágenes por satélite, resonancias magnéticas y muchas otras.
En esta guía, usted aprenderá sobre la Estimación de Máxima Verosimilitud en profundidad y cómo puede implementar esta herramienta para su modelo. Así que pongámonos en marcha.

Estimación por máxima verosimilitud

La estimación de máxima verosimilitud es un método para proporcionar soluciones estadísticas a los problemas relacionados con el modelo de aprendizaje automático. Le ofrece la posibilidad de establecer parámetros y maximizar la estimación de la probabilidad. Con esta técnica, puede asumir la salida del modelo a partir de los datos observados. La definición anterior de la estimación de máxima verosimilitud significa que para crear un modelo, debemos
1. Preparar un modelo que comprenda sus datos. Puede referirse al modelo como un proceso de generación de datos.
2. Tener la capacidad de obtener los datos del modelo y derivar la función de verosimilitud.
Después de obtener la función de verosimilitud, se dará cuenta de que la máxima verosimilitud es un problema de optimización simple.

Relación con el aprendizaje automático

Los problemas de aprendizaje automático aplicado y de estimación de la densidad se interconectan directamente entre sí. Es posible enmarcar los problemas relacionados con el modelo de aprendizaje automático como la estimación de la densidad de probabilidad. Al elegir el modelo y sus parámetros, hay que referirse a la hipótesis de modelización h y a los problemas para encontrar h, que explica mejor los datos X.
– P(X; h)
Ahora, para maximizar la función de verosimilitud, debemos identificar la hipótesis de modelización.
– maximizar L(X; h)
O bien, podemos expandirla como
– maximizar la suma i a n log(P(xi ; h))
En consecuencia, estimará la densidad de probabilidad del conjunto de datos. Esta técnica se utiliza sobre todo en los modelos de aprendizaje automático no supervisado. Puede utilizar la Estimación de Máxima Verosimilitud para los algoritmos de clustering.

Estimación de Máxima Verosimilitud y Algoritmos de Clustering

Puede utilizar eficazmente la Estimación de Máxima Verosimilitud para los modelos de aprendizaje automático supervisado. Podemos aplicar este método para los datos que incluyen variables de entrada y salida. Las variables de salida serían valores numéricos, y la clasificación y el modelo de regresión predictiva incluirán la etiqueta de clase.
La estimación de máxima verosimilitud es la probabilidad condicional estimada a partir de la salida (y), mientras que la entrada es (X) y la hipótesis de modelización es (h).
– maximizar L(y|X; h)
O bien, podemos expandirlo como
– maximizar la suma i a n log(P(yi|xi ; h))
Cuando el objetivo es predecir la y, en función de la x, se puede utilizar el estimador de máxima verosimilitud y estimar la probabilidad condicional mediante
P(y|x ; theta)
La mayoría de los modelos supervisados se basan en esta técnica de estimación, por lo que es una situación habitual. Esto significa que la Estimación de Máxima Verosimilitud ayudará a la estimación de la densidad y a encontrar un modelo supervisado y sus parámetros. Por lo tanto, esta técnica funciona como la base de la técnica de modelado lineal, como:
– Regresión logística, que ayuda a la clasificación binaria
– Regresión lineal, que ayuda a predecir un valor numérico.
En la regresión logística, el modelo separará las clases mediante la inclusión de conjuntos de coeficientes, definiéndolos como una línea. No se puede resolver este problema de forma analítica, sino utilizando el algoritmo de optimización eficiente. Los ejemplos incluyen el algoritmo BFGS o variantes.
Cuando consideramos la regresión lineal, el modelo incluirá conjuntos de coeficientes definiéndolo como una línea. Este problema se puede resolver mediante soluciones analíticas como el uso del álgebra lineal.
Una de las principales ventajas de la estimación por máxima verosimilitud en el aprendizaje automático es que mejora la calidad del modelo al aumentar el tamaño del conjunto de datos y la calidad del estimador.

Cómo implementar la estimación de máxima verosimilitud en Python

Puedes simplificar el proceso implementando la estimación de máxima verosimilitud en tu proyecto de aprendizaje automático. Para lograrlo, puede utilizar numerosas técnicas y enfoques matemáticos. A continuación, encontrará un enfoque para programar su modelo para la estimación de máxima verosimilitud

Paso 1: Importar las librerías al modelo

Importe todas las siguientes librerías al modelo:
import NumPy como np

import pandas as PD
import matplotlib pyplot as plt
import seaborn as sns
from scipy.optimize import minimize
import scipy.stats as stats

import pymc3 as pm3
import numdifftools as ndt
import statsmodels.api as sm
Ahora importamos GenericLikelihoodModel de statsmodels.base.model

Paso 2: Generar los datos

N = 1000
x = np.linspace(0,200,N)
e = np.random.normal(loc = 0.0, scale = 5.0, size = N)
y = 3*x + e

df = pd.DataFrame({‘y’:y, ‘x’:x})
df[‘constante’] = 1

Paso 3: Visualización del gráfico

Utilice el siguiente código de referencia para trazar el gráfico:
sns.regplot(df.x, df.y)

Paso 4: Analizar los datos

Puede analizar los datos mediante el siguiente trazado de datos con la línea OLS y los intervalos de confianza

Paso 5: Modelización de OLS mediante el uso de Statsmodels

Debido a que la regresión creada son datos continuos, puede calcular la Log-verosimilitud y los coeficientes utilizando sm.OLS.
Dividir las características y el objetivo
X = df[[‘constante’, ‘x’]]
Ajuste el modelo y resuma
sm.OLS(y,X).fit().summary()

Conclusión

La estimación de máxima verosimilitud es una técnica única y útil para ayudarle a estimar los parámetros del conjunto de datos o la distribución del conjunto de datos. Puede utilizar la herramienta para una muestra de población limitada o para identificar los valores de la media y la varianza. En la guía anterior, entendemos qué es la estimación de máxima verosimilitud y cómo se puede implementar esta técnica en un modelo de aprendizaje automático.