Como cientista de dados, deve compreender as técnicas adequadas para interpretar o mecanismo de trabalho de um modelo. A interpretação é um aspecto essencial da ciência de dados. Cada vez que se cria um modelo com resultados precisos e impressionantes, deve-se saber como funciona o mecanismo. Muitas pessoas geram um modelo através da codificação, mas não têm ideia de como os códigos criam o modelo e o fazem funcionar.
Por exemplo, está-se a construir um modelo que o ajudará a prever os preços das acções. Repara que os preços das acções aumentam anormalmente da noite para o dia. Isto pode acontecer por múltiplas razões. Portanto, pode usar a Estimativa da Máxima Probabilidade para encontrar a probabilidade do problema com a maior probabilidade. Muitos profissionais de diferentes áreas utilizam esta ferramenta para imagens de satélite, MRIs, e muitas outras.
Neste guia, aprenderá em profundidade sobre a Estimativa da Máxima Probabilidade e como pode implementar esta ferramenta para o seu modelo. Por isso, vamos a mexer.
Estimativa da Máxima Verossimilhança
A estimativa da probabilidade máxima é um método para fornecer soluções estatísticas a problemas relacionados com o modelo de aprendizagem da máquina. Dá-lhe a capacidade de definir parâmetros e maximizar a estimativa da verosimilhança. Com esta técnica, pode assumir a saída do modelo a partir dos dados observados. A definição acima da estimativa da máxima verosimilhança significa que, para criar um modelo, devemos:
1. Preparar um modelo que compreenda os seus dados. Pode referir-se ao modelo como um processo de geração de dados.
2. Ter a capacidade de obter os dados a partir do modelo e derivar a função de verosimilhança.
Depois de obter a função de probabilidade, perceberá que a máxima probabilidade é um simples problema de optimização.
Relação com a aprendizagem mecânica
Os problemas de aprendizagem da máquina aplicada e de estimativa da densidade interligam-se directamente uns com os outros. Problemas de enquadramento relacionados com o modelo de aprendizagem da máquina, uma vez que a estimativa da densidade de probabilidade é possível. Ao escolher o modelo e os seus parâmetros, deve referir-se à hipótese de modelação h e aos problemas para encontrar h, o que explica os dados X de uma melhor forma.
– P(X; h)
Agora, para maximizar a função de probabilidade, temos de identificar a hipótese de modelação.
– maximizar L(X; h)
Ou, podemos expandi-lo como:
– maximizar a soma i a n log(P(xi ; h))
Consequentemente, irá estimar a densidade de probabilidade do conjunto de dados. Esta técnica é principalmente utilizada em modelos de aprendizagem não supervisionada por máquinas. Pode-se usar a Estimativa da Máxima Probabilidade para Algoritmos de Aglomeração.
Estimativa da Máxima Verossimilhança e Algoritmos de Aglomeração
Pode utilizar eficazmente a máxima Estimativa de Probabilidade para modelos de aprendizagem supervisionada de máquinas. Podemos aplicar este método para os dados que incluem variáveis de entrada e saída. As variáveis de saída seriam valores numéricos, e a classificação e modelação de regressão preditiva incluirá a etiqueta de classe.
A Estimativa da Probabilidade Máxima é a probabilidade condicional estimada a partir do resultado (y), enquanto que a entrada é (X) e a hipótese de modelação é (h).
– maximizar L(y|X; h)
Ou, podemos expandi-lo como:
– maximizar a soma i a n log(P(yi|xi ; h))
Quando o seu objectivo é prever o y, dependendo do x, pode usar o estimador de máxima probabilidade e estimar a probabilidade condicional por:
P(y|x ; theta)
A maioria dos modelos supervisionados baseia-se nesta técnica de estimação, tornando-a uma situação comum. Isto significa que a Estimativa da Máxima Probabilidade ajudará a estimar a densidade e a encontrar um modelo supervisionado e os seus parâmetros. Portanto, esta técnica funciona como a base da técnica de modelação linear, como por exemplo:
– Regressão logística, que ajuda na classificação binária
– Regressão Linear, o que ajuda a prever um valor numérico.
Na regressão logística, o modelo irá separar as classes incluindo conjuntos de coeficientes, definindo-os como uma linha. Não se pode resolver este problema analiticamente, mas sim utilizando o algoritmo de optimização eficiente. Os exemplos incluem o algoritmo ou variantes do BFGS.
Quando consideramos a regressão linear, o modelo incluirá conjuntos de coeficientes, definindo-os como uma linha. É possível resolver este problema utilizando soluções analíticas como a utilização de álgebra linear.
Uma grande vantagem da estimativa da máxima probabilidade na aprendizagem da máquina é que melhora a qualidade do modelo ao aumentar o tamanho do conjunto de dados e a qualidade do estimador.
Como implementar a Estimativa da Máxima Verosimilhança em Python
Pode simplificar o processo, implementando a estimativa da máxima probabilidade no seu projecto de aprendizagem da máquina. Para o conseguir, pode utilizar numerosas técnicas e abordagens matemáticas. Abaixo, encontrará uma abordagem para programar o seu modelo para a estimativa da máxima verosimilhança
Passo 1: Importação das Bibliotecas para o Modelo
Importar todas as seguintes bibliotecas para o modelo:
importar NumPy como np
pandas de importação como PD
importação matplotlib pyplot como plt
importação de mares nascidos como pousadas
de scipy.optimize importar minimizar
importar scipy.stats como estatísticas
pymc3 importação como pm3
importação de numdifftools como ndt
statsmodels.api de importação como sm
Importar agora GenericLikelihoodModel de statsmodels.base.model
Passo 2: Geração dos dados
N = 1000
x = np.linspace(0,200,N)
e = np.random.normal(loc = 0.0, escala = 5.0, tamanho = N)
y = 3*x + e
df = pd.DataFrame({‘y’:y, ‘x’:x})
df[‘constante’] = 1
Passo 3: Visualização do Lote
Utilizar o seguinte código de referência para traçar o gráfico:
sns.regplot(df.x, df.y)
Passo 4: Analisar os dados
Pode analisar os dados seguindo o traçado de dados com a linha OLS e intervalos de confiança
Passo 5: Modelar OLS utilizando modelos Statsmodels
Como a regressão criada são dados contínuos, é possível calcular a probabilidade de registo e os coeficientes usando sm.OLS.
Características de divisão e alvo
X = df[[[‘constante’, ‘x’]]
Adaptar modelo e resumir
sm.OLS(y,X).fit().summary()
Conclusão
A estimativa da probabilidade máxima é uma técnica única e útil para o ajudar a estimar os parâmetros do conjunto de dados ou a distribuição a partir do conjunto de dados. Pode utilizar a ferramenta para uma amostra populacional limitada ou identificar valores médios e de variância. No guia acima, compreendemos o que é a Estimativa da Máxima Verosimilhança e como se pode implementar esta técnica num modelo de aprendizagem da máquina.