Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Pandas DataFrame é uma estrutura de dados bidimensional, potencialmente heterogênea, com eixos rotulados (linhas e colunas). A DataFrame é uma estrutura de dados bidimensional, ou seja, os dados são alinhados de forma tabular em linhas e colunas. Pandas DataFrame consiste em três componentes principais, os dados, linhas e colunas.

Criando um Pandas DataFrame

Na realidade, um Pandas DataFrame será feito através do empilhamento dos conjuntos de dados de estoques existentes, os estoques podem ser banco de dados SQL, registro CSV, e documento Exceed expectations. O Pandas DataFrame pode ser feito a partir dos rundowns, referência de palavras, e de um rundown de léxico e assim por diante. Dataframe pode ser feito de várias maneiras aqui são algumas maneiras diferentes pelas quais nós fazemos um quadro de dados:

Fazendo um quadro de dados utilizando o Rundown: O DataFrame pode ser feito utilizando um rundown solitário ou um rundown de registros.

# pandas de importação como pd

pandas de importação como p

# lista de cordas

lst = [‘Geeks’, ‘For’, ‘Geeks’, ‘is’,

            portal’, ‘para’, ‘geeks’].

# Chamando DataFrame construtor na lista

df = pd.DataFrame(lst)

imprimir(df)

Fazendo DataFrame a partir de ditames de ndarray/registros: Para fazer DataFrame a partir de ditame de narray/lista, todas as narrações devem ter o mesmo comprimento. Na hipótese de o arquivo ser passado, nesse ponto a lista de comprimento deve ser equivalente ao comprimento das exibições. Na hipótese remota de que nenhum registro seja passado, nesse ponto, o arquivo será range(n) onde n é o comprimento do cluster.

# O código Python demonstra a criação de

# DataFrame from dict narray / lists

# Por padrão endereços.

pandas de importação como pd

# incializar dados de listas.

data = {‘Name’:[‘Tom’, ‘nick’, ‘krish’, ‘jack’],

        Idade:[20, 21, 19, 18]}

# Criar DataFrame

df = pd.DataFrame(dados)

# Imprimir a saída.

imprimir(df)

Um esquema de informação é uma estrutura de informação bidimensional, ou seja, a informação é ajustada de forma proibida em linhas e seções. Podemos realizar atividades fundamentais em linhas/segmentos como escolher, apagar, incluir e renomear.

Escolha do segmento: Para escolher uma seção em Pandas DataFrame, podemos chegar aos segmentos chamando-os pelo nome de seu segmento.

# Pacote de pandas de importação

pandas de importação como pd

# Definir um dicionário contendo os dados do empregado

data = {‘Name’:[‘Jai’, ‘Princi’, ‘Gaurav’, ‘Anuj’],

        Idade’:[27, 24, 22, 32],

        Endereço:[‘Delhi’, ‘Kanpur’, ‘Allahabad’, ‘Kannauj’],

        Qualificação:[‘Msc’, ‘MA’, ‘MCA’, ‘Phd’]}

# Converter o dicionário em DataFrame

df = pd.DataFrame(dados)

# selecione duas colunas

print(df[[‘Nome’, ‘Qualificação’]])

Seleção de Linhas: Os Pandas fornecem um método único para recuperar linhas de um quadro de dados. O método DataFrame.loc[] é usado para recuperar linhas de Pandas DataFrame. Linhas também podem ser selecionadas passando a localização inteira para uma função iloc[].

Nota: Estaremos usando o arquivo nba.csv nos exemplos abaixo.

# pacote pandas importador

pandas de importação como pd

# fazendo frame de dados do arquivo csv

dados = pd.read_csv(“nba.csv”, index_col =”Nome”)

# recuperando linha por método loc

primeiro = data.loc[“Avery Bradley”]

segundo = data.loc[“R.J. Hunter”]

print(first, “\nn”, second)

Saída:

Indexação e Seleção de Dados

A indexação em pandas implica apenas na escolha de linhas e seções específicas de informação de um DataFrame. Encomendar pode significar escolher cada uma das linhas e uma parte dos segmentos, uma parte das linhas e a totalidade das seções, ou uma parte de cada uma das linhas e segmentos. O pedido também pode ser conhecido como Subset Choice.

Seleção de uma única coluna

Para selecionar uma única coluna, basta colocar o nome da coluna no meio do colchete

# pacote pandas importador

pandas de importação como pd

# fazendo frame de dados do arquivo csv

dados = pd.read_csv(“nba.csv”, index_col =”Nome”)

# recuperando colunas por operador de indexação

primeiro = dados[“Idade”]

imprimir(primeiro)

Saída:

Indexação de um DataFrame usando .loc[ ]

Esta capacidade escolhe a informação pelo nome das linhas e segmentos. O indexador df.loc escolhe as informações de forma inesperada em comparação com simplesmente o administrador do pedido. Ele pode escolher subconjuntos de linhas ou segmentos. Pode também, ao mesmo tempo, selecionar subconjuntos de linhas e segmentos.

Seleção de uma única linha

Para selecionar uma única linha usando . loc[], colocamos um rótulo de uma única linha em uma função .loc.

# pacote pandas importador

pandas de importação como pd

# fazendo frame de dados do arquivo csv

dados = pd.read_csv(“nba.csv”, index_col =”Nome”)

# recuperando linha por método loc

primeiro = data.loc[“Avery Bradley”]segundo = data.loc[“R.J. Hunter”]

print(first, “\nn”, second)

Saída:

Como mostrado na imagem de saída, duas séries foram retornadas, já que havia apenas um parâmetro em ambos os tempos.

Indexação de um DataFrame utilizando .iloc[ ] :

Esta capacidade nos permite recuperar linhas e seções por posição. Para isso, teremos que indicar os locais das linhas que precisamos e os locais dos segmentos que também precisamos. O indexador df.iloc é fundamentalmente o mesmo que o df.loc, mas utiliza apenas áreas numéricas para fazer suas escolhas.

Para selecionar uma única linha usando .iloc[], podemos passar um único número inteiro para a função .iloc[].

pandas de importação como pd

# fazendo frame de dados do arquivo csv

dados = pd.read_csv(“nba.csv”, index_col =”Nome”)

# recuperando filas pelo método iloc

linha2 = data.iloc[3]

Informações em falta podem acontecer quando nenhum dado é acomodado em pelo menos uma coisa ou para uma unidade inteira. Informações em falta é um problema muito grande, na realidade, a situação. A Informação em Falta pode também aludir como valores de NA(Não Acessível) em pandas.

# importação de pandas como pd

pandas de importação como pd

# importação numpy como np

importação numérica como np

# dicionário de listas

dict = {‘First Score’:[100, 90, np.nan, 95],

        Segunda Pontuação: [30, 45, 56, np.nan],

        Terceira pontuação:[np.nan, 40, 80, 98]}

# criando um dataframe a partir da lista

df = pd.DataFrame(dict)

# usando a função isull() 

df.isull()

Verificação das qualidades em falta utilizando isull() e notnull() :

Para verificar as qualidades em falta no Pandas DataFrame, utilizamos uma capacidade isull() e notnull(). Ambos os trabalhos ajudam a verificar se um valor é NaN ou não. Essas capacidades também podem ser utilizadas no Pandas DataFrame para descobrir qualidades inválidas em um arranjo.

# importação de pandas como pd

pandas de importação como pd

# importação numpy como np

importação numérica como np

# dicionário de listas

dict = {‘First Score’:[100, 90, np.nan, 95],

        Segunda Pontuação: [30, 45, 56, np.nan],

        Terceira pontuação:[np.nan, 40, 80, 98]}

# criando um dataframe a partir do dicionário

df = pd.DataFrame(dict)

# preenchendo valor em falta usando fillna() 

df.fillna(0)

Preenchendo qualidades em falta utilizando fillna(), supplant() e introduce() :

Para preencher qualidades inválidas em um conjunto de dados, usamos fillna(), supplant() e add() para trabalhar essas capacidades suplantando as estimações de NaN com alguma estimativa própria. Todas estas capacidades ajudam a preencher uma estima inválida em conjuntos de dados de um DataFrame. O trabalho Introduce() é usado fundamentalmente para preencher os valores de NA no quadro de dados, mas utiliza diferentes sistemas de adição para preencher as qualidades em falta, ao invés de codificar o valor.

# importação de pandas como pd

pandas de importação como pd

# importação numpy como np

importação numérica como np

# dicionário de listas

dict = {‘First Score’:[100, 90, np.nan, 95],

        Segunda Pontuação: [30, np.nan, 45, 56],

        Terceira Pontuação:[52, 40, 80, 98],

        Quarta pontuação:[np.nan, np.nan, np.nan, 65]}

# criando um dataframe a partir do dicionário

df = pd.DataFrame(dict)

df

como deixamos filas com pelo menos um valor Nan (valor Nulo)

# importação de pandas como pd

pandas de importação como pd

# importação numpy como np

importação numérica como np

# dicionário de listas

dict = {‘First Score’:[100, 90, np.nan, 95],

        Segunda Pontuação: [30, np.nan, 45, 56],

        Terceira Pontuação:[52, 40, 80, 98],

        Quarta pontuação:[np.nan, np.nan, np.nan, 65]}

# criando um dataframe a partir do dicionário

df = pd.DataFrame(dict)

# usando a função dropna() 

df.dropna()