O que são parâmetros?

Frequentemente na IA utilizamos um modelo para retratar o procedimento que resulta nas informações que são observadas. Por exemplo, podemos utilizar um modelo de madeira irregular para ordenar se os clientes podem desistir de uma ajuda (conhecida como demonstração agitadora) ou podemos utilizar um modelo direto para prever a renda que será criada para uma organização contando com a quantia que eles podem gastar na promoção (este seria um caso de recidiva direta). Cada modelo contém seu próprio arranjo de parâmetros que eventualmente caracteriza o que o modelo se assemelha.

Para um modelo direto, podemos compor isto como y = mx + c. Neste modelo x poderia falar ao gasto publicitário e y pode ser a renda produzida. m e c são parâmetros para este modelo. Vários valores para estes parâmetros darão várias linhas (veja figura abaixo).

Assim, os parâmetros caracterizam um esboço para o modelo. É apenas quando qualidades explícitas são escolhidas para os parâmetros, que obtemos um lançamento para o modelo que retrata uma determinada maravilha.

Esclarecimento natural da estimativa da probabilidade mais extrema

A estimativa de probabilidade mais extrema é uma técnica que decide valores para os parâmetros de um modelo. As estimativas dos parâmetros são descobertas com o objetivo final de amplificar a probabilidade de que o procedimento descrito pelo modelo tenha fornecido as informações que foram realmente observadas.

A definição acima pode, de qualquer forma, soar um pouco obscura, então que tal experimentarmos um guia para ajudar a conseguir isso.

E se tivéssemos assistido a 10 informações focadas em algum procedimento? Por exemplo, cada ponto de dados pode falar com o tempo em segundos que é necessário um substituto para responder a uma pergunta específica do teste. Estes 10 focos de informação aparecem na figura abaixo

Inicialmente precisamos escolher o modelo que achamos que melhor retrata o caminho para a criação da informação. Esta parte é significativa. De qualquer forma, devemos ter uma idéia inteligente sobre qual modelo utilizar. Isso normalmente se origina de termos alguma habilidade de área, mas não vamos examinar isso aqui.

Para esta informação esperamos que o procedimento da era da informação possa ser suficientemente descrito por uma divulgação gaussiana (ordinária). A avaliação visual da figura acima recomenda que uma disseminação gaussiana é concebível à luz do fato de que uma grande parte dos 10 pontos está agrupada no centro com poucos direcionamentos dissipados para a esquerda e para a direita. (Fixar este tipo de escolha na mosca com apenas 10 focos de informação é estúpido, porém dado que eu produzi estes focos de informação nós vamos com ela).

Revise que a divulgação gaussiana tem 2 parâmetros. A média, μ, e o desvio padrão, σ. Várias estimativas desses parâmetros trazem várias curvas (simplesmente como nas linhas retas acima). Precisamos perceber qual curva foi, com toda probabilidade, responsável por fazer os focos de informação que observamos? (Veja figura abaixo). A maior estimativa de probabilidade é uma estratégia que vai descobrir as estimativas de μ e σ que resultam na curva que melhor se encaixa na informação.

Cálculo da Máxima Verossimilhança Estimada

Agora que temos uma compreensão intuitiva do que é a estimativa de máxima verosimilhança, podemos passar a aprender como calcular os valores dos parâmetros. Os valores que encontramos são chamados de estimativas de máxima verosimilhança (EML).

Mais uma vez vamos demonstrar isso com um exemplo. Suponha que tenhamos três pontos de dados desta vez e assumimos que eles foram gerados a partir de um processo que é adequadamente descrito por uma distribuição gaussiana. Estes pontos são 9, 9.5 e 11. Como calculamos as estimativas de máxima verosimilhança dos valores dos parâmetros da distribuição gaussiana μ e σ?

O que queremos calcular é a probabilidade total de observação de todos os dados, ou seja, a distribuição conjunta de probabilidade de todos os pontos de dados observados. Para isso, precisaríamos calcular algumas probabilidades condicionais, o que pode ficar muito difícil. Então é aqui que vamos fazer nossa primeira suposição. A suposição é que cada ponto de dados é gerado independentemente dos outros. Esta suposição torna a matemática muito mais fácil. Se os eventos (ou seja, o processo que gera os dados) são independentes, então a probabilidade total de observar todos os dados é o produto da observação de cada ponto de dados individualmente (ou seja, o produto das probabilidades marginais).

A densidade de probabilidade de se observar um único ponto de dados x, que é gerado a partir de uma distribuição gaussiana, é dada por:

O ponto e vírgula utilizado na documentação P(x; μ, σ) está lá para sublinhar que as imagens que aparecem após ele são parâmetros da probabilidade de circulação. Portanto, não deve ser confundida com uma probabilidade contingente (que é normalmente falada com uma linha vertical, por exemplo P(A| B)).

Em nosso modelo a espessura de probabilidade agregada (conjunta) de se observar os três focos de informação é dada por:

Precisamos simplesmente dar sentido às estimativas de μ e σ que resultam em dar a estimativa mais extrema da articulação acima.

Caso você tenha envolvido a análise em suas aulas de matemática, muito provavelmente saberá que existe uma estratégia que pode nos ajudar a descobrir os máximos (e mínimos) de capacidades. Chama-se separação. Devemos simplesmente localizar o subordinado da capacidade, definir a capacidade subsidiária para zero e depois modificar a condição para fazer do parâmetro de intriga o sujeito da condição. Além disso, voilà, teremos nossa estima pela EML para nossos parâmetros. Vou experimentar estes meios agora, porém espero que o usuário perceba como realizar a separação nas capacidades normais. Caso você queira um esclarecimento ponto por ponto progressivamente, nesse momento simplesmente me avise nas observações.