O que são correlação e causalidade e como são extraordinárias?

Pelo menos dois fatores considerados como relacionados, em um cenário factual, se suas qualidades mudam de forma que, à medida que a estimativa de uma variável aumenta ou diminui, também muda a estimativa da outra variável (apesar do fato de que pode ser o contrário).

Por exemplo, para os dois fatores “horas trabalhadas” e “salário ganho” existe uma conexão entre os dois se a expansão em horas trabalhadas estiver relacionada a um incremento na remuneração auferida. Caso consideremos os dois fatores “custo” e “obtenção de energia”, na medida em que o custo da mercadoria expande a capacidade do indivíduo de adquirir estes produtos diminui (esperando uma remuneração consistente).

A correlação é uma medida factual (comunicada como um número) que retrata o tamanho e o rolamento de uma conexão entre pelo menos dois fatores. Uma relação entre os fatores, em qualquer caso, não implica, consequentemente, que o ajuste em uma variável seja o motivo do ajuste nas estimativas da outra variável.

A causa demonstra que uma ocasião é o efeito secundário do evento da outra ocasião; por exemplo, há uma conexão causal entre as duas ocasiões. Isto também é aludido como circunstâncias e resultados lógicos.

Hipoteticamente, a distinção entre os dois tipos de conexões é tudo menos difícil de distinguir – uma atividade ou evento pode causar outra (por exemplo, fumar causa uma expansão no perigo de criar crescimento maligno pulmonar), ou pode se relacionar com outra (por exemplo, fumar está relacionado com abuso de bebida, mas não causa vício em bebida). Praticamente falando, seja como for, permanece difícil construir inconfundivelmente circunstâncias e resultados lógicos, contrastados e estabelecendo a relação.

Por que razão a correlação e a causalidade são significativas?

O objetivo de muita pesquisa ou investigação lógica é distinguir o grau em que uma variável se identifica com outra variável. Por exemplo:

Existe uma conexão entre o nível de treinamento de um indivíduo e o seu bem estar?

A posse de animais de estimação está relacionada a viver mais tempo?

O esforço de promoção de uma organização aumentou seus negócios de itens?

Estas e outras investigações estão investigando se existe uma conexão entre os dois fatores, e na hipótese remota de que exista uma relação, nesse momento isso pode controlar um exame mais aprofundado para pesquisar se uma atividade causa a outra. Ao obter a conexão e a causalidade, considera os arranjos e projetos que planejam alcançar um resultado ideal para ser melhor focado.

Como é estimada a conexão?

Para dois fatores, uma conexão factual é estimada pela utilização de um Coeficiente de Relacionamento, falado pela imagem (r), que é um número solitário que retrata o nível de conexão entre dois fatores.

O valor numérico do coeficiente é de +1,0 a – 1,0, o que dá um sinal da qualidade e do curso da relação.

Na hipótese remota de o coeficiente de correlação ter um valor negativo (abaixo de 0), ele demonstra uma conexão negativa entre os fatores. Isto implica que os fatores se movem de forma inversa (ou seja, quando se constrói reduções diferentes, ou quando se diminui incrementos diferentes).

Na hipótese remota de o coeficiente de correlação ter um valor positivo (acima de 0) ele demonstra uma conexão positiva entre os fatores implicando que os dois fatores movimentam um casal, por exemplo, à medida que uma variável diminui a outra adicionalmente diminui, ou quando uma variável constrói a outra da mesma forma aumenta.

Quando o coeficiente de conexão é 0 isso demonstra que não há conexão entre os fatores (uma variável pode permanecer estável enquanto diferentes incrementos ou diminuições).

Embora o coeficiente de conexão seja uma medida útil, ele tem suas restrições:

Os coeficientes de correlação estão tipicamente ligados à estimativa de uma relação reta.

Por exemplo, na hipótese de você analisar as horas trabalhadas e o salário ganho por um profissional que cobra uma taxa horária pelo seu trabalho, há uma relação direta (ou linear), pois a cada hora extra trabalhada o salário será incrementado por uma soma confiável.

Assumindo, em qualquer caso, que o negociante cobra dependendo de um subjacente, retira a despesa e uma taxa horária que logicamente diminui quanto mais atrativa for a atividade, a conexão entre as horas trabalhadas e o salário seria não-estabelecida, onde o coeficiente de relação poderia ser mais parecido com 0.

É necessário cuidado ao traduzir a estimativa do ‘r’. É possível descobrir conexões entre inúmeros fatores, de qualquer forma as conexões podem ser devido a fatores diferentes e não têm nada a ver com os dois fatores que estão sendo considerados.

Por exemplo, as ofertas de iogurtes congelados e as ofertas de protetor solar podem aumentar e diminuir ao longo de um ano de forma precisa, mas seria uma relação que seria por causa dos impactos do período (ou seja, mais clima de fumaça vê uma expansão nos indivíduos que usam protetor solar como sobremesa) ao invés de por causa de qualquer conexão imediata entre ofertas de protetor solar e iogurte congelado.

O coeficiente de conexão não deve ser utilizado para dizer nada sobre circunstâncias e relação lógica de resultados. Olhando a estimativa de ‘r’, podemos inferir que dois fatores estão ligados, mas que a estima de ‘r’ não nos permite saber se uma variável foi o motivo do ajuste na outra.

Por que meios a causalidade poderia ser estabelecida?

A causalidade é o território das percepções que normalmente são mal interpretadas e abusadas por indivíduos na convicção confusa de que, com base na informação, existe uma conexão de que existe fundamentalmente uma relação causal oculta.

A utilização de um relatório controlado é o melhor método para estabelecer a causalidade entre os fatores. Em um relatório controlado, o exemplo ou população faz parte de dois, sendo as duas reuniões equivalentes em praticamente todas as formas. As duas reuniões nesse ponto recebem vários medicamentos, e os resultados de cada reunião são avaliados.

Por exemplo, em pesquisas terapêuticas, uma reunião pode receber um tratamento falso enquanto a outra reunião recebe outro tipo de prescrição. Caso as duas reuniões tenham resultados sensivelmente diferentes, os vários encontros podem ter causado os vários resultados.

Por razões morais, existem pontos de confinamento à utilização de investigações controladas; não seria adequado utilizar duas reuniões de monta e ter uma delas experimentando um movimento destrutivo enquanto diferente não o faz. Para derrotar esta circunstância, os exames observacionais são freqüentemente utilizados para pesquisar a conexão e a causa do número de habitantes em intrigas. Os exames podem dar uma olhada nas práticas e resultados dos encontros e observar qualquer progressão após algum tempo.

O objetivo destes exames é fornecer dados mensuráveis para adicionar a diferentes fontes de dados que seriam necessários para construir se existe causalidade entre dois fatores.

Enquanto vários indivíduos podem ter várias linhas de base ao dar avaliações, algumas pessoas, em geral, darão notas altas, algumas são realmente exigentes, apesar de estarem felizes com as coisas. Para fugir dessa inclinação, podemos subtrair a classificação normal de cada cliente de todas as coisas ao registrar o normal ponderado, e incluí-la de volta para o cliente alvo, apareceu como abaixo.

Duas formas de calcular similaridade são a Correlação Pearson e a Semelhança Cosina.

Essencialmente, o pensamento é localizar os clientes mais comparativos com seu cliente objetivo (vizinhos mais próximos) e ponderar suas avaliações de uma coisa como a previsão da classificação dessa coisa para o cliente alvo.

Sem saber nada sobre as coisas e os próprios clientes, achamos que dois clientes são comparativos quando dão uma coisa semelhante, avaliações comparáveis. Comparavelmente, para o Thing based CF, afirmamos que duas coisas são comparáveis quando eles recebem avaliações comparativas de um cliente equivalente. Nesse ponto, faremos expectativas para um cliente objetivo sobre uma coisa, determinando o peso normal das avaliações sobre a maioria das X coisas comparáveis desse cliente. Um ponto chave da margem de manobra do CF baseado na Coisa é a solidez que é que as avaliações em uma determinada coisa não mudarão essencialmente o tempo extra, em contraste com os sabores dos indivíduos.

Há muitas restrições desta técnica. Não lida bem com a parcimônia quando ninguém na área avalia uma coisa que é o que você está tentando antecipar para o cliente alvo. Da mesma forma, não é tão proficiente em computação quanto o desenvolvimento do número de clientes e itens.

Factorização de Estrutura

Como a esparsidade e a versatilidade são as duas maiores dificuldades para a estratégia padrão de CF, chega-se a uma técnica mais desenvolvida que decompõe a primeira rede inadequada a redes de baixa dimensão com variáveis/highlights inativos e menos esparsidade. Ou seja, a Factorização das Árvores.

Ao lado do aprofundamento das questões de esparsidade e versatilidade, há um esclarecimento natural do porquê de precisarmos de grades de baixa dimensão para falar com a inclinação dos clientes. Um cliente deu grandes avaliações para o símbolo do filme, a Gravidade e a Iniciação. Não são realmente 3 suposições separadas, mas sim indicando que este cliente pode apoiar filmes de ficção científica e que pode haver muito mais filmes de ficção científica que este cliente possa querer. Ao contrário dos filmes explícitos, os destaques inertes são comunicados por traços de nível mais significativo, e a classe de ficção científica é um dos destaques ociosos para esta situação. O que a fatorização da malha, no final das contas, nos dá é como muitos clientes estão alinhados com muitos destaques inertes, e o quanto um filme se encaixa neste arranjo de destaques inativos. O benefício dele em relação ao padrão mais próximo é que, apesar de dois clientes não terem avaliado nenhum filme equivalente, ainda é concebível descobrir a semelhança entre eles na chance remota de compartilharem os gostos básicos comparáveis, novamente os destaques inertes.

Para perceber como uma grade está sendo fatorizada, a primeira coisa a compreender é a Decomposição do Valor Solitário (SVD). Em vista da matemática polinomial direta, qualquer grid R genuíno pode ser desintegrado em 3 redes U, Σ, e V. Continuando utilizando o modelo de motion picture, U é uma rede de elementos n × r ociosos do cliente, V é uma estrutura de elementos inertes m × r do motion picture. Σ é uma estrutura r × r inclinada contendo as estimativas solitárias de uma rede única, apenas falando do quão significativo é um elemento em particular para prever a inclinação do cliente.

Para classificar as estimativas de Σ, diminuindo a estima total e truncando a rede Σ para as primeiras medidas k (k qualidades solitárias), podemos refazer a grade como estrutura A. A determinação de k deve garantir que A possa capturar a grande maioria das flutuações dentro da primeira estrutura R, então An é a estimativa de R, A ≈ R. O contraste entre An e R é o erro que deve ser limitado. Esta é, na verdade, a idéia da Guideline Part Investigation.

No ponto em que a grade R é espessa, U e V poderiam ser efetivamente fatorizados de forma diagnóstica. Seja como for, uma rede de avaliações do filme é muito inadequada. Apesar de haver algumas estratégias de atribuição para preencher as qualidades em falta, vamos a uma forma de programação para lidar simplesmente com essas qualidades em falta e descobrir as redes de fatores U e V. Ao invés de fatorizar R por meio de SVD, estamos tentando descobrir legitimamente U e V com o objetivo de que, quando U e V aumentaram novamente juntos, a malha de rendimento R’ é a estimativa mais próxima de R e não mais uma rede escassa. Esta estimativa numérica é tipicamente realizada com a Factorização da Rede Não-Negativa para os quadros de recomendação, uma vez que não há qualidades negativas nas avaliações.

Veja a receita por baixo. Pegando um gander na classificação antecipada para cliente e coisa explícita, a coisa I é notada como um vetor qᵢ, e o cliente u é notado como um vetor pᵤ com o objetivo final de que o resultado do speck desses dois vetores é a classificação antecipada para o cliente u na coisa I. Esse valor é exibido no framework R’ no push u e segmento I

Como podemos encontrar o melhor qᵢ e pᵤ? Como a maioria das tarefas de aprendizagem de máquinas, uma função de perda é definida para minimizar o custo dos erros.

rᵤᵢ é a avaliação genuína de uma rede única de relacionamentos com clientes. O processo de avanço é localizar a grade P ideal criada pelo vetor pᵤ e a rede Q feita pelo vetor qᵢ de forma a limitar todo o erro quadrado entre as avaliações antecipadas rᵤᵢ’ e as avaliações genuínas rᵤᵢ’. Da mesma forma, a regularização L2 foi adicionada para contrabalançar o super ajuste dos vetores cliente e thing vectors. É também muito regular incluir o termo predisposição que na sua maioria tem 3 segmentos significativos: classificação normal de todas as coisas μ, classificação normal das coisas I menos μ(anotado como bᵤ), classificação normal dada pelo cliente u menos u(anotado como bᵢ).