Pandas DataFrame é uma estrutura de dados bidimensional, potencialmente heterogênea, com eixos rotulados (linhas e colunas). A DataFrame é uma estrutura de dados bidimensional, ou seja, os dados são alinhados de forma tabular em linhas e colunas. Pandas DataFrame consiste em três componentes principais, os dados, linhas e colunas.
Criando um Pandas DataFrame
Na realidade, um Pandas DataFrame será feito através do empilhamento dos conjuntos de dados de estoques existentes, os estoques podem ser banco de dados SQL, registro CSV, e documento Exceed expectations. O Pandas DataFrame pode ser feito a partir dos rundowns, referência de palavras, e de um rundown de léxico e assim por diante. Dataframe pode ser feito de várias maneiras aqui são algumas maneiras diferentes pelas quais nós fazemos um quadro de dados:
Fazendo um quadro de dados utilizando o Rundown: O DataFrame pode ser feito utilizando um rundown solitário ou um rundown de registros.
# pandas de importação como pd
pandas de importação como p
# lista de cordas
lst = [‘Geeks’, ‘For’, ‘Geeks’, ‘is’,
portal’, ‘para’, ‘geeks’].
# Chamando DataFrame construtor na lista
df = pd.DataFrame(lst)
imprimir(df)

Fazendo DataFrame a partir de ditames de ndarray/registros: Para fazer DataFrame a partir de ditame de narray/lista, todas as narrações devem ter o mesmo comprimento. Na hipótese de o arquivo ser passado, nesse ponto a lista de comprimento deve ser equivalente ao comprimento das exibições. Na hipótese remota de que nenhum registro seja passado, nesse ponto, o arquivo será range(n) onde n é o comprimento do cluster.
# O código Python demonstra a criação de
# DataFrame from dict narray / lists
# Por padrão endereços.
pandas de importação como pd
# incializar dados de listas.
data = {‘Name’:[‘Tom’, ‘nick’, ‘krish’, ‘jack’],
Idade:[20, 21, 19, 18]}
# Criar DataFrame
df = pd.DataFrame(dados)
# Imprimir a saída.
imprimir(df)

Um esquema de informação é uma estrutura de informação bidimensional, ou seja, a informação é ajustada de forma proibida em linhas e seções. Podemos realizar atividades fundamentais em linhas/segmentos como escolher, apagar, incluir e renomear.
Escolha do segmento: Para escolher uma seção em Pandas DataFrame, podemos chegar aos segmentos chamando-os pelo nome de seu segmento.
# Pacote de pandas de importação
pandas de importação como pd
# Definir um dicionário contendo os dados do empregado
data = {‘Name’:[‘Jai’, ‘Princi’, ‘Gaurav’, ‘Anuj’],
Idade’:[27, 24, 22, 32],
Endereço:[‘Delhi’, ‘Kanpur’, ‘Allahabad’, ‘Kannauj’],
Qualificação:[‘Msc’, ‘MA’, ‘MCA’, ‘Phd’]}
# Converter o dicionário em DataFrame
df = pd.DataFrame(dados)
# selecione duas colunas
print(df[[‘Nome’, ‘Qualificação’]])

Seleção de Linhas: Os Pandas fornecem um método único para recuperar linhas de um quadro de dados. O método DataFrame.loc[] é usado para recuperar linhas de Pandas DataFrame. Linhas também podem ser selecionadas passando a localização inteira para uma função iloc[].
Nota: Estaremos usando o arquivo nba.csv nos exemplos abaixo.
# pacote pandas importador
pandas de importação como pd
# fazendo frame de dados do arquivo csv
dados = pd.read_csv(“nba.csv”, index_col =”Nome”)
# recuperando linha por método loc
primeiro = data.loc[“Avery Bradley”]
segundo = data.loc[“R.J. Hunter”]
print(first, “\nn”, second)
Saída:

Indexação e Seleção de Dados
A indexação em pandas implica apenas na escolha de linhas e seções específicas de informação de um DataFrame. Encomendar pode significar escolher cada uma das linhas e uma parte dos segmentos, uma parte das linhas e a totalidade das seções, ou uma parte de cada uma das linhas e segmentos. O pedido também pode ser conhecido como Subset Choice.
Seleção de uma única coluna
Para selecionar uma única coluna, basta colocar o nome da coluna no meio do colchete
# pacote pandas importador
pandas de importação como pd
# fazendo frame de dados do arquivo csv
dados = pd.read_csv(“nba.csv”, index_col =”Nome”)
# recuperando colunas por operador de indexação
primeiro = dados[“Idade”]
imprimir(primeiro)
Saída:

Indexação de um DataFrame usando .loc[ ]
Esta capacidade escolhe a informação pelo nome das linhas e segmentos. O indexador df.loc escolhe as informações de forma inesperada em comparação com simplesmente o administrador do pedido. Ele pode escolher subconjuntos de linhas ou segmentos. Pode também, ao mesmo tempo, selecionar subconjuntos de linhas e segmentos.
Seleção de uma única linha
Para selecionar uma única linha usando . loc[], colocamos um rótulo de uma única linha em uma função .loc.
# pacote pandas importador
pandas de importação como pd
# fazendo frame de dados do arquivo csv
dados = pd.read_csv(“nba.csv”, index_col =”Nome”)
# recuperando linha por método loc
primeiro = data.loc[“Avery Bradley”]segundo = data.loc[“R.J. Hunter”]
print(first, “\nn”, second)
Saída:
Como mostrado na imagem de saída, duas séries foram retornadas, já que havia apenas um parâmetro em ambos os tempos.

Indexação de um DataFrame utilizando .iloc[ ] :
Esta capacidade nos permite recuperar linhas e seções por posição. Para isso, teremos que indicar os locais das linhas que precisamos e os locais dos segmentos que também precisamos. O indexador df.iloc é fundamentalmente o mesmo que o df.loc, mas utiliza apenas áreas numéricas para fazer suas escolhas.
Para selecionar uma única linha usando .iloc[], podemos passar um único número inteiro para a função .iloc[].
pandas de importação como pd
# fazendo frame de dados do arquivo csv
dados = pd.read_csv(“nba.csv”, index_col =”Nome”)
# recuperando filas pelo método iloc
linha2 = data.iloc[3]

Informações em falta podem acontecer quando nenhum dado é acomodado em pelo menos uma coisa ou para uma unidade inteira. Informações em falta é um problema muito grande, na realidade, a situação. A Informação em Falta pode também aludir como valores de NA(Não Acessível) em pandas.
# importação de pandas como pd
pandas de importação como pd
# importação numpy como np
importação numérica como np
# dicionário de listas
dict = {‘First Score’:[100, 90, np.nan, 95],
Segunda Pontuação: [30, 45, 56, np.nan],
Terceira pontuação:[np.nan, 40, 80, 98]}
# criando um dataframe a partir da lista
df = pd.DataFrame(dict)
# usando a função isull()
df.isull()

Verificação das qualidades em falta utilizando isull() e notnull() :
Para verificar as qualidades em falta no Pandas DataFrame, utilizamos uma capacidade isull() e notnull(). Ambos os trabalhos ajudam a verificar se um valor é NaN ou não. Essas capacidades também podem ser utilizadas no Pandas DataFrame para descobrir qualidades inválidas em um arranjo.
# importação de pandas como pd
pandas de importação como pd
# importação numpy como np
importação numérica como np
# dicionário de listas
dict = {‘First Score’:[100, 90, np.nan, 95],
Segunda Pontuação: [30, 45, 56, np.nan],
Terceira pontuação:[np.nan, 40, 80, 98]}
# criando um dataframe a partir do dicionário
df = pd.DataFrame(dict)
# preenchendo valor em falta usando fillna()
df.fillna(0)

Preenchendo qualidades em falta utilizando fillna(), supplant() e introduce() :
Para preencher qualidades inválidas em um conjunto de dados, usamos fillna(), supplant() e add() para trabalhar essas capacidades suplantando as estimações de NaN com alguma estimativa própria. Todas estas capacidades ajudam a preencher uma estima inválida em conjuntos de dados de um DataFrame. O trabalho Introduce() é usado fundamentalmente para preencher os valores de NA no quadro de dados, mas utiliza diferentes sistemas de adição para preencher as qualidades em falta, ao invés de codificar o valor.
# importação de pandas como pd
pandas de importação como pd
# importação numpy como np
importação numérica como np
# dicionário de listas
dict = {‘First Score’:[100, 90, np.nan, 95],
Segunda Pontuação: [30, np.nan, 45, 56],
Terceira Pontuação:[52, 40, 80, 98],
Quarta pontuação:[np.nan, np.nan, np.nan, 65]}
# criando um dataframe a partir do dicionário
df = pd.DataFrame(dict)
df

como deixamos filas com pelo menos um valor Nan (valor Nulo)
# importação de pandas como pd
pandas de importação como pd
# importação numpy como np
importação numérica como np
# dicionário de listas
dict = {‘First Score’:[100, 90, np.nan, 95],
Segunda Pontuação: [30, np.nan, 45, 56],
Terceira Pontuação:[52, 40, 80, 98],
Quarta pontuação:[np.nan, np.nan, np.nan, 65]}
# criando um dataframe a partir do dicionário
df = pd.DataFrame(dict)
# usando a função dropna()
df.dropna()
