Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

¿Qué son la correlación y la causalidad y cómo son extraordinarias?

Por lo menos dos factores considerados relacionados, en un contexto fáctico, si sus cualidades cambian de modo que a medida que la estimación de una variable aumenta o disminuye, también lo hace la estimación de la otra variable (a pesar de que podría ser de la otra manera).

Por ejemplo, para los dos factores “horas trabajadas” y “salario ganado” existe una conexión entre los dos si la expansión de las horas trabajadas está relacionada con un incremento de la remuneración ganada. En el caso de que consideremos los dos factores “costo” y “poder de obtención”, a medida que el costo de la mercancía expande la capacidad de un individuo para adquirir estos productos disminuye (esperando una paga consistente).

La correlación es una medida fáctica (comunicada como un número) que describe el tamaño y la relación entre al menos dos factores. Una relación entre los factores de uno y otro, en cualquier caso, no implica por consiguiente que el ajuste en una variable sea la razón del ajuste en las estimaciones de la otra variable.

La causalidad demuestra que una ocasión es la consecuencia del acontecimiento de la otra ocasión; por ejemplo, existe una conexión causal entre las dos ocasiones. Esto también se alude como circunstancias y resultados lógicos.

Hipotéticamente, la distinción entre los dos tipos de conexiones es cualquier cosa menos difícil de distinguir: una actividad o evento puede causar otro (por ejemplo, el fumar causa una expansión del peligro de crear un crecimiento maligno en los pulmones), o puede relacionarse con otro (por ejemplo, el fumar está relacionado con el abuso de licor, pero no causa adicción al licor). En la práctica, sea como fuere, sigue siendo difícil establecer inequívocamente las circunstancias y los resultados lógicos, contrastarlos y establecer la relación.

¿Por qué razón son significativas la correlación y la causalidad?

El objetivo de muchas investigaciones o investigaciones lógicas es distinguir el grado en que una variable se identifica con otra variable. Por ejemplo:

¿Hay una conexión entre el nivel de entrenamiento de un individuo y su bienestar?

¿La posesión de mascotas está relacionada con una vida más larga?

¿El esfuerzo de promoción de una organización incrementó sus tratos de artículos?

Estas y otras investigaciones están investigando si existe una conexión entre los dos factores, y en la remota posibilidad de que exista una relación, en ese momento esto puede controlar un examen ulterior para investigar si una actividad causa la otra. Al obtener la conexión y la causalidad, considera que los arreglos y proyectos que planean lograr un resultado ideal deben estar mejor enfocados.

¿Cómo se estima la conexión?

En el caso de dos factores, se estima una conexión fáctica mediante la utilización de un Coeficiente de Relación, al que se refiere la imagen (r), que es un número solitario que representa el nivel de conexión entre dos factores.

El valor numérico del coeficiente va de +1,0 a – 1,0, lo que da una señal de la calidad y el curso de la relación.

En la remota posibilidad de que el coeficiente de correlación tenga un valor negativo (por debajo de 0) demuestra una conexión negativa entre los factores. Esto implica que los factores se mueven de manera inversa (es decir, cuando uno construye diferentes reducciones, o cuando uno declina diferentes incrementos).

En la remota posibilidad de que el coeficiente de correlación tenga un valor positivo (más de 0) demuestra una conexión positiva entre los factores que implica que los dos factores se mueven en pareja, por ejemplo cuando una variable disminuye la otra adicionalmente, o cuando una variable construye la otra igualmente aumenta.

Cuando el coeficiente de conexión es 0, esto demuestra que no hay conexión entre los factores (una variable puede permanecer estable mientras diferentes incrementos o disminuciones).

Aunque el coeficiente de conexión es una medida útil, tiene sus restricciones:

Los coeficientes de correlación están típicamente conectados con la estimación de una relación recta.

Por ejemplo, en la remota posibilidad de que analice las horas trabajadas y el pago ganado por un comerciante que cobra una tarifa por hora por su trabajo, existe una relación directa (o en línea recta) ya que con cada hora extra trabajada el pago se incrementará en una suma fiable.

Suponiendo, en cualquier caso, que los cargos de los comerciantes dependientes de un subyacente sacan el gasto y un cargo por hora que lógicamente disminuye cuanto más se prolonga la actividad, la conexión entre las horas trabajadas y el salario sería no recta, donde el coeficiente de relación podría ser más bien 0.

Hay que tener cuidado al traducir la estimación de ‘r’. Es concebible descubrir conexiones entre son numerosos factores, de todas formas las conexiones pueden ser debidas a diferentes factores y no tienen nada que ver con los dos factores que se están considerando.

Por ejemplo, las ofertas de yogures congelados y las ofertas de protección solar pueden aumentar y disminuir a lo largo de un año de manera precisa, pero sería una relación que se debería a los impactos del período (es decir, en un clima más propicio para el tabaquismo se observa una expansión de los individuos que usan protección solar al igual que los que comen un postre) en lugar de una relación inmediata entre las ofertas de protección solar y el yogur congelado.

El coeficiente de conexión no debe utilizarse para decir nada sobre las circunstancias y la relación de resultados lógicos. Al observar la estimación de “r”, podemos inferir que dos factores están conectados, pero esa estimación de “r” no nos permite saber si una variable fue la razón del ajuste en la otra.

¿Por qué medios se podría establecer la causalidad?

La causalidad es el territorio de las percepciones que normalmente son malinterpretadas y abusadas por los individuos en la convicción confusa de que, sobre la base de que la información muestra una conexión, existe fundamentalmente una relación causal oculta.

La utilización de un informe controlado es el mejor método para establecer la causalidad entre los factores. En un informe controlado, el ejemplo o población es parte de dos, siendo los dos encuentros equivalentes en casi todos los sentidos. En ese momento, las dos reuniones obtienen varias medicinas, y se evalúan los resultados de cada reunión.

Por ejemplo, en la investigación terapéutica, una reunión puede recibir un tratamiento falso mientras que la otra recibe otro tipo de prescripción. En caso de que las dos reuniones tengan resultados perceptiblemente diversos, los diversos encuentros pueden haber causado los diversos resultados.

Por razones morales, hay puntos de confinamiento en la utilización de las investigaciones controladas; no sería conveniente utilizar dos reuniones equivalentes y que una de ellas experimente un movimiento destructivo mientras que otra no. Para vencer esta circunstancia, se utilizan frecuentemente los exámenes de observación para investigar la conexión y la causalidad para el número de habitantes en intriga. Los exámenes pueden echar un vistazo a las prácticas y resultados de las reuniones y observar cualquier progresión después de algún tiempo.

El objetivo de estos exámenes es proporcionar datos mensurables que se sumen a las diferentes fuentes de datos que se necesitarían para determinar si existe causalidad entre dos factores.

Aunque varios individuos pueden tener varias líneas de base al dar sus valoraciones, unas pocas personas, en general, dan puntuaciones altas en general, algunas son realmente exigentes a pesar de que están contentas con las cosas. Para evadir esta inclinación, podemos restar la calificación normal de cada cliente de todas las cosas al registrar la normalidad ponderada, e incluirla de nuevo para el cliente objetivo, aparecido como abajo.

Dos formas de calcular la similitud son la Correlación de Pearson y la Similitud de los Cosenos.

Esencialmente, el pensamiento es localizar los clientes más comparativos con su cliente objetivo (vecinos más cercanos) y ponderar sus evaluaciones de una cosa como el pronóstico de la calificación de esta cosa para el cliente objetivo.

Sin saber nada de las cosas y de los propios clientes, pensamos que dos clientes son comparativos cuando dan una cosa similar evaluaciones comparables. Comparativamente, para la FQ basada en Cosa, afirmamos que dos cosas son comparables cuando recibieron evaluaciones comparativas de un cliente equivalente. En ese momento, haremos expectativas para un cliente objetivo en una cosa determinando la normalidad ponderada de las evaluaciones en la mayoría de X cosas comparables de este cliente. Una parte clave del margen de maniobra de la FQ basada en las cosas es la solidez, es decir, que las evaluaciones de una cosa determinada no cambiarán esencialmente el tiempo extra, en contraste con los sabores de los individuos.

Esta técnica tiene muchas limitaciones. No trata bien la escasez cuando nadie en el área valoró una cosa que es la que intentas anticipar para el cliente objetivo. De la misma manera, no es tan competente en cuanto al desarrollo del número de clientes y artículos.

Factorización del marco

Dado que la dispersión y la versatilidad son las dos mayores dificultades para la estrategia estándar de CF, se trata de una técnica más desarrollada que descompone la primera red inadecuada en celosías de baja dimensión con variables inactivas/altas y menos dispersión. Eso es la Factorización de la Red.

Además de comprender los temas de la escasez y la versatilidad, hay una aclaración natural de por qué necesitamos redes de baja dimensión para hablar con la inclinación de los clientes. Un cliente dio grandes evaluaciones a la película Símbolo, Gravedad e Iniciación. No son realmente 3 suposiciones separadas, sino que indican que este cliente puede apoyar las películas de ciencia ficción y puede haber muchas más películas de ciencia ficción que este cliente pueda querer. En contraste con las películas explícitas, los puntos destacados inertes se comunican por rasgos de nivel más significativos, y la clase de Ciencia Ficción es uno de los puntos destacados ociosos para esta situación. Lo que la factorización del entramado, al final, nos da es cómo mucho de un cliente está alineado con muchos resaltados inertes, y cuánto una película encaja en esta disposición de resaltados inactivos. El beneficio de esto sobre el vecindario más cercano es que a pesar de que dos clientes no han valorado ninguna película equivalente, es todavía concebible descubrir la similitud entre ellos en la remota posibilidad de que compartan los gustos básicos comparables, de nuevo highlights inertes.

Para percibir cómo se factoriza una cuadrícula, lo primero que hay que comprender es la Descomposición del Valor Solitario (SVD). En vista de la matemática del polinomio directo, cualquier rejilla genuina R puede ser desintegrada en 3 redes U, Σ, y V. Siguiendo el modelo de la película, U es una red de elementos ociosos de cliente n × r, V es un marco de elementos inertes de película m × r. Σ es un marco de inclinación r × r que contiene las estimaciones solitarias de una red única, hablando sólo de lo importante que es un elemento particular para prever la inclinación del cliente.

Para ordenar las estimaciones de Σ disminuyendo la estimación total y truncar la red Σ a las primeras mediciones de k (k cualidades solitarias), podemos rehacer la red como el marco A. La determinación de k debería asegurar que A puede captar la gran mayoría de la fluctuación dentro del primer marco R, por lo que An es la estimación de R, A ≈ R. El contraste entre An y R es el error que se requiere para ser limitado. Esta es en realidad la idea de la investigación de la parte de la guía.

En el momento en que la cuadrícula R es gruesa, la U y la V podrían ser factorizadas eficazmente para el diagnóstico. Sea como fuere, una red de evaluaciones de cine es demasiado inadecuada. A pesar del hecho de que hay algunas estrategias de atribución para llenar las cualidades faltantes, iremos a una forma de programación para tratar simplemente de vivir con esas cualidades faltantes y descubrir redes de factorización U y V. En lugar de factorizar R por medio de SVD, estamos tratando de descubrir U y V legítimamente con el objetivo de que cuando U y V se incrementen de nuevo juntos la red de rendimiento R’ sea la estimación más cercana de R y no ya una red escasa. Esta estimación numérica se realiza típicamente con la Factorización de Red No Negativa para marcos recomendados ya que no hay cualidades negativas en las evaluaciones.

Vea la receta debajo. Echando un vistazo a la clasificación anticipada para el cliente y la cosa explícita, la cosa I se anota como un vector qᵢ, y el cliente u se anota como un vector pᵤ con el objetivo final de que el resultado de la mancha de estos dos vectores sea la clasificación anticipada para el cliente u en la cosa I. Este valor se exhibe en el marco R’ en el empuje u y el segmento I

¿Cómo encontramos los óptimos qᵢ y pᵤ? Como la mayoría de las tareas de aprendizaje de las máquinas, se define una función de pérdida para minimizar el costo de los errores.

rᵤᵢ son las evaluaciones genuinas de la red de cosas de clientes únicos. El proceso de avance consiste en localizar la cuadrícula ideal P creada por el vector pᵤ y la red Q hecha por el vector qᵢ para limitar el error garrafal entre las evaluaciones anticipadas rᵤᵢ’ y las evaluaciones genuinas rᵤᵢ. Asimismo, se ha añadido la regularización L2 para contrarrestar el exceso de equipamiento de los vectores cliente y cosa. Asimismo, es muy regular la inclusión del término de predisposición que en su mayor parte tiene 3 segmentos significativos: valoración normal de todas las cosas μ, valoración normal de la cosa I menos μ(anotado como bᵤ), valoración normal dada por el cliente u menos u(anotado como bᵢ).