¿Qué son los parámetros?

A menudo en la IA utilizamos un modelo para representar el procedimiento que resulta en la información que se observa. Por ejemplo, podemos utilizar un modelo de bosques irregulares para ordenar si los clientes pueden dejar de ser miembros de una ayuda (conocido como demostración de agitación) o podemos utilizar un modelo directo para prever los ingresos que se crearán para una organización en función de la cantidad que puedan gastar en la promoción (esto sería un caso de recaída directa). Cada modelo contiene su propia disposición de parámetros que eventualmente caracteriza a lo que el modelo se asemeja.

Para un modelo directo, podemos componer esto como y = mx + c. En este modelo, x podría hablar de los gastos de publicidad y y podría ser el ingreso producido. m y c son parámetros para este modelo. Varias estimaciones de estos parámetros darán varias líneas (ver la figura de abajo).

Así que los parámetros caracterizan un esquema para el modelo. Es justo cuando se escogen cualidades explícitas para los parámetros que obtenemos un lanzamiento para el modelo que retrata una maravilla dada.

Aclaración natural de la estimación de probabilidad más extrema

La estimación de probabilidad más extrema es una técnica que decide los valores de los parámetros de un modelo. Las estimaciones de los parámetros se descubren con el objetivo final de que amplíen la probabilidad de que el procedimiento descrito por el modelo entregue la información que fue realmente observada.

La definición anterior puede en cualquier caso sonar algo oscura, así que qué tal si experimentamos una guía para ayudar a conseguirlo.

¿Qué tal si suponemos que hemos visto 10 información centrada en algún procedimiento. Por ejemplo, cada punto de referencia podría hablar del tiempo en segundos que tarda un suplente en responder a una pregunta de prueba en particular. Estos 10 focos de información aparecen en la figura de abajo

Inicialmente tenemos que elegir qué modelo creemos que mejor retrata el camino hacia la creación de la información. Esta parte es significativa. En cualquier caso, debemos tener un pensamiento inteligente sobre qué modelo utilizar. Esto normalmente se origina por tener alguna habilidad en el área, pero no examinaremos esto aquí.

Para esta información esperamos que el procedimiento de la era de la información pueda ser suficientemente descrito por una difusión gaussiana (ordinaria). La evaluación visual de la figura anterior recomienda que una diseminación Gaussiana es concebible a la luz del hecho de que una gran parte de los 10 puntos se agrupa en el centro con pocas direcciones disipadas hacia la izquierda y la derecha. (Establecer este tipo de elección sobre la marcha con sólo 10 focos de información es estúpido, sin embargo, dado que produje estos focos de información vamos a ir con él).

Revise que la difusión Gaussiana tiene 2 parámetros. La media, μ, y la desviación estándar, σ. Varias estimaciones de estos parámetros provocan varias curvas (simplemente como con las líneas rectas de arriba). Tenemos que darnos cuenta de qué curva fue con toda probabilidad responsable de hacer los focos de información que observamos… (Ver la figura de abajo). La estimación de la mayor probabilidad es una estrategia que descubrirá las estimaciones de μ y σ que dan como resultado la curva que mejor se ajusta a la información.

Cálculo de las estimaciones de máxima probabilidad

Ahora que tenemos una comprensión intuitiva de lo que es la estimación de máxima probabilidad podemos pasar a aprender cómo calcular los valores de los parámetros. Los valores que encontramos se llaman estimaciones de máxima verosimilitud (EMV).

De nuevo lo demostraremos con un ejemplo. Supongamos que esta vez tenemos tres puntos de datos y asumimos que se han generado a partir de un proceso que está adecuadamente descrito por una distribución gaussiana. Estos puntos son 9, 9,5 y 11. ¿Cómo calculamos las estimaciones de máxima verosimilitud de los valores de los parámetros de la distribución gaussiana μ y σ?

Lo que queremos calcular es la probabilidad total de observar todos los datos, es decir, la distribución de probabilidad conjunta de todos los puntos de datos observados. Para ello necesitaríamos calcular algunas probabilidades condicionales, lo que puede resultar muy difícil. Así que es aquí donde haremos nuestra primera suposición. La suposición es que cada punto de datos se genera independientemente de los otros. Esta suposición hace las matemáticas mucho más fáciles. Si los eventos (es decir, el proceso que genera los datos) son independientes, entonces la probabilidad total de observar todos los datos es el producto de observar cada punto de datos individualmente (es decir, el producto de las probabilidades marginales).

La densidad de probabilidad de observar un único punto de datos x, que se genera a partir de una distribución gaussiana viene dada por:

El semicolonial utilizado en la documentación P(x; μ, σ) está ahí para subrayar que las imágenes que aparecen después de él son parámetros de la circulación de la probabilidad. Por lo tanto, no debe ser confundido con una probabilidad contingente (a la que normalmente se le habla con una línea vertical, por ejemplo P(A| B)).

En nuestro modelo, el grosor de la probabilidad agregada (conjunta) de observar los tres focos de información viene dada por:

Simplemente necesitamos dar sentido a las estimaciones de μ y σ que resultan en dar la estimación más extrema de la articulación anterior.

En el caso de que hayas ocultado la analítica en tus clases de matemáticas, en ese momento es muy probable que sepas que hay una estrategia que puede ayudarnos a descubrir los máximos (y mínimos) de las capacidades. Se llama separación. Simplemente debemos localizar el subordinado de la capacidad, poner la capacidad subsidiaria a cero y después modificar la condición para que el parámetro de intriga sea el sujeto de la condición. Y lo que es más, voilà, tendremos nuestras estimaciones de MLE para nuestros parámetros. Experimentaré estos medios ahora, sin embargo espero que el usuario se dé cuenta de cómo realizar la separación en las capacidades normales. En caso de que quiera una aclaración progresiva punto por punto, en ese momento simplemente hágamelo saber en los comentarios.