Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Regularização

Este é um tipo de regressão, que obriga/regulariza ou recuo dos medidores de coeficiente para zero. Como tal, esta estratégia desestimula a aprendizagem de um modelo progressivamente imprevisível ou adaptável, para se manter afastado do perigo de sobreajustamento.

Uma conexão direta para uma recidiva direta se assemelha a isto. Aqui Y fala com a conexão acadêmica e β fala com os medidores de coeficiente para vários fatores ou preditores(X).

Y ≈ β0 + β1X1 + β2X2 + … + βpXp

A técnica de encaixe inclui um trabalho infeliz, conhecido como sobra de quadrados inteiros ou RSS. Os coeficientes são escolhidos, a tal ponto que limitam esse trabalho de infortúnio.

Atualmente, isso modificará os coeficientes dependentes de suas informações de preparação. Caso haja comoção nas informações de preparação, nesse momento, os coeficientes avaliados não se somarão bem às informações futuras. Este é o local onde a regularização entra e recuar ou regularizar estes indicadores escolares para zero.

Regressão de cumeeira

A figura acima mostra uma recidiva de borda, onde o RSS é ajustado pela inclusão da quantidade de encolhimento. Atualmente, os coeficientes são avaliados através da limitação desta capacidade. Aqui, λ é o parâmetro de ajuste que escolhe a quantidade que precisamos para punir a adaptabilidade do nosso modelo. A expansão na adaptabilidade de um modelo é falada por incremento em seus coeficientes, e caso precisemos limitar a capacidade acima, nesse ponto esses coeficientes devem ser poucos. Este é o meio pelo qual o método de recidiva de borda evita que os coeficientes subam excessivamente alto. Da mesma forma, veja que murchamos a relação avaliada de cada fator com a reação, além do bloco β0, Esta captura é uma proporção da média estimada da reação quando xi1 = xi2 = … = xip = 0.

Quando λ = 0, o termo de punição não tem effect, e as avaliações criadas por recidiva de borda serão equivalentes a mínimos quadrados. Em qualquer caso, como λ→∞, o efeito da punição por contração se desenvolve, e as avaliações criadas por recidiva de borda coefficient se moverão para zero. Como pode ser visto, a escolha de uma estimativa decente do λ é básica. A aprovação cruzada se mostra útil por este motivo. As bitolas de coeficiente criadas por esta técnica são chamadas de padrão L2.

Os coeficientes que são criados pela estratégia de mínimos quadrados padrão são equívocos de escala, por exemplo, caso aumentemos cada contribuição por c, nesse ponto os coeficientes comparativos são escalados por um fator de 1/c. Nesta linha, com pouco respeito à escala do indicador, a ampliação do indicador e do coeficiente(Xjβj) continua como antes. Em qualquer caso, esta não é a situação com recidiva de borda, e desta forma, temos que institucionalizar os indicadores ou levar os indicadores para uma escala semelhante antes de realizar a recidiva de borda. A receita usada para fazer isso é dada abaixo.

Lasso

A Lasso é outra variedade, onde a capacidade acima é limitada. Incontestavelmente, esta variedade contrasta com as recidivas de borda apenas na punição dos altos coeficientes. Ela utiliza |βj|(modulus)ao invés de quadrados de β, como punição. Nas medidas, esta é conhecida como padrão L1.

Vamos investigar técnicas com um ponto de vista alternativo. A recidiva de borda pode ser pensada como uma condição em que a soma dos quadrados de coeficientes não é exatamente ou equivalente a s. Também, a corda pode ser pensada como uma condição em que a soma dos módulos de coeficientes não é exatamente ou equivalente a s. Aqui, s é uma conspiração que existe para cada estimativa do fator de encolhimento λ. Estas condições são adicionalmente aludidas como capacidades de limitação.

Considere que existem 2 parâmetros em um determinado número. Nesse ponto, conforme o detalhamento acima, a recidiva de borda é comunicada por β1² + β2² ≤ s. Isto sugere que os coeficientes de recidiva de borda têm o menor RSS(trabalho de perda) para todos os focos que existem no hover dado por β1² + β2² ≤ s.

Além disso, para a corda, a condição torna-se,|β1|+|β2|≤ s. Isto infere os coeficientes de corda têm o menor RSS(trabalho de perda) para todos os focos que existem na pedra preciosa dada por |β1|+|β2|≤ s.

A figura abaixo retrata estas condições.

A figura acima mostra as funções imperativas(zonas verdes), para laço(esquerda) e regressão de borda(direita), ao lado de formas para RSS(vermelho oval). Foca na oferta oval a estimativa de RSS. Para uma estimativa excepcionalmente enorme de s, as áreas verdes irão conter o ponto focal do oval, fazendo avaliações de coeficiente de ambos os sistemas de recidiva, equivalentes aos medidores de mínimos quadrados. Entretanto, esta não é a situação na figura acima. Para esta situação, os medidores de coeficiente de recidiva de cordas e bordas são dados pelo tempo first, quando uma oval contacta a área imperativa. Como a recidiva de borda tem um imperativo de rotunda sem focos afiados, este ponto de cruzamento não acontecerá, em sua maioria, em um hub, portanto a recidiva de borda coefficient avaliações serão apenas não-zero. Seja como for, a limitação da corda tem cantos em cada um dos tomahawks, portanto a oval irá freqüentemente atender a área requerida em um pivô. No momento em que isso acontecer, um dos coefficients se aproximará de zero. Em dimensões superiores (onde os parâmetros são consideravelmente superiores a 2), um número significativo das avaliações do coefficient pode subir a zero ao mesmo tempo.

Isto revela uma percepção da inegável carga de recidiva de borda, que é a interpretabilidade do modelo. Ele irá recuar os coeficientes para os indicadores menos significativos, próximo de zero. Seja como for, nunca os tornará precisamente zero. Ao final do dia, o último modelo incorporará todos os indicadores. No entanto, por conta da corda, a punição L1 tem o effect de obrigar uma parte das avaliações de coefficient a ser realmente equivalente a zero quando o parâmetro de afinação λ é enorme. Nesta linha, a técnica de amarrar também realiza a escolha da variável e é dito que rende modelos parcos.

O que a Regularização realiza?

Um modelo padrão de mínimos quadrados terá, em geral, alguma flutuação, por exemplo, este modelo não se resumirá bem a um índice informativo não igual à sua informação de preparação. A regularização, essencialmente, diminui a mudança do modelo, sem um incremento considerável em sua inclinação. Assim, o parâmetro de ajuste λ, utilizado nas estratégias de regularização retratadas acima, controla o efeito sobre a inclinação e flutuação. À medida que a estimativa do λ aumenta, diminui a estimativa dos coeficientes e, ao longo dessas linhas, diminui a flutuação. Até certo ponto, esta expansão em λ é útil, pois está apenas diminuindo a variância (abstendo-se, portanto, de sobreajustes), sem perder nenhuma propriedade significativa na informação. Seja como for, após certo valor, o modelo começa a perder propriedades significativas, oferecendo-se para ascender à inclinação do modelo e ao longo destas linhas subajustar. Consequentemente, a estimativa da λ deve ser deliberadamente escolhida.

Isso é tudo o que você vai precisar, para começar, a Regularização. É uma estratégia valiosa que pode ajudar a melhorar a precisão dos seus modelos de recaída. Uma biblioteca famosa por executar estes cálculos é a Scikit-Learn. Ela tem uma brilhante interface de programação que pode colocar seu modelo em execução com apenas algumas linhas de código em python.

línguas

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.