Pandas DataFrame è una struttura dati tabulare bidimensionale, potenzialmente eterogenea, con assi etichettati (righe e colonne). Un DataFrame è una struttura dati bidimensionale, cioè i dati sono allineati in modo tabulare in righe e colonne. Pandas DataFrame consiste di tre componenti principali, i dati, le righe e le colonne.

Creazione di un DataFrame Panda

In realtà, un DataFrame Pandas sarà realizzato impilando i set di dati provenienti da stockpiling esistenti, stockpiling può essere SQL Database, record CSV, e documento Exceed expectations. I DataFrame Pandas possono essere realizzati a partire dai rundown, dai riferimenti alle parole, e da un rundown del lessico e così via. Dataframe può essere fatto in vari modi qui ci sono alcuni modi diversi con cui facciamo un data frame:

Creazione di un frame di dati utilizzando Rundown: DataFrame può essere fatto utilizzando un rundown solitario o un rundown di record.

# Importa panda come pd

importare panda come p

# elenco di stringhe

lst = [‘Geek’, ‘For’, ‘Geek’, ‘is’,

            portale’, ‘per’, ‘Geek’]

# Chiamare il costruttore del DataFrame sulla lista

df = pd.DataFrame(lst)

stampa(df)

Fare DataFrame da dict of ndarray/registrazioni: Per fare DataFrame da dict of narray/list, tutti i narray devono essere della stessa lunghezza. Nella remota possibilità che quel file venga passato, a quel punto la lista di lunghezza dovrebbe essere equivalente alla lunghezza degli oggetti esposti. Nella remota possibilità che non venga passato nessun record, a quel punto, come ovvio, il file sarà range(n) dove n è la lunghezza del cluster.

# Il codice Python dimostra di creare

# DataFrame da dict narray / liste

# Per gli indirizzi di default.

importare panda come pd

# intializzare i dati delle liste.

data = {‘Nome’:[‘Tom’, ‘nick’, ‘krish’, ‘jack’],

        Età:[20, 21, 19, 18]}

# Crea DataFrame

df = pd.DataFrame(dati)

# Stampa l’uscita.

stampa(df)

Uno schema informativo è una struttura informativa bidimensionale, vale a dire che le informazioni sono regolate in modo proibito in linee e sezioni. Possiamo svolgere attività fondamentali su linee/segmenti come la scelta, la cancellazione, l’inclusione e la ridenominazione.

Scelta del segmento: per scegliere una sezione in Pandas DataFrame, possiamo arrivare ai segmenti chiamandoli con il nome del loro segmento.

# Importa il pacchetto panda

importare panda come pd

# Definire un dizionario contenente i dati dei dipendenti

data = {‘Nome’:[‘Jai’, ‘Princi’, ‘Gaurav’, ‘Anuj’],

        Età: [27, 24, 22, 32],

        Indirizzo: [‘Delhi’, ‘Kanpur’, ‘Allahabad’, ‘Kannauj’],

        Qualificazione’:[‘Msc’, ‘MA’, ‘MCA’, ‘Phd’]}

# Convertire il dizionario in DataFrame

df = pd.DataFrame(dati)

# seleziona due colonne

stampa(df[[[[‘Nome’, ‘Qualifica’]])

Selezione della fila: I panda forniscono un metodo unico per recuperare le righe da un Data frame. Il metodo DataFrame.loc[] è usato per recuperare righe da DataFrame Pandas. Le righe possono anche essere selezionate passando la posizione intera ad una funzione iloc[].

Nota: Useremo il file nba.csv negli esempi seguenti.

# Importazione di panda

importare panda come pd

# fare frame di dati da file csv

data = pd.read_csv(“nba.csv”, index_col =”Nome”)

# recuperando la riga con il metodo loc

first = data.loc[“Avery Bradley”]

secondo = data.loc[“R.J. Hunter”]

stampa(primo, “\n \n \n \n \n \n), secondo)

Uscita:

Indicizzazione e selezione dei dati

Indicizzare in panda significa semplicemente scegliere specifiche linee e sezioni di informazioni da un DataFrame. Ordinare potrebbe significare scegliere ognuna delle linee e una porzione dei segmenti, una porzione delle linee e la totalità delle sezioni, o una porzione di ognuna delle linee e dei segmenti. L’ordinazione può anche essere conosciuta come Scelta del Sottoinsieme.

Selezione di una singola colonna

Per selezionare una singola colonna, basta inserire il nome della colonna in mezzo alla parentesi

# Importazione di panda

importare panda come pd

# fare frame di dati da file csv

data = pd.read_csv(“nba.csv”, index_col =”Nome”)

# recupero delle colonne da parte dell’operatore di indicizzazione

prima = dati[“Età”]

stampa(prima)

Uscita:

Indicizzazione di un DataFrame utilizzando .loc[ ]

Questa capacità sceglie le informazioni in base al nome delle linee e dei segmenti. L’indicizzatore df.loc sceglie le informazioni in modo inaspettato rispetto al semplice amministratore dell’ordine. Può scegliere sottoinsiemi di linee o segmenti. Allo stesso tempo può anche selezionare sottoinsiemi di linee e segmenti.

Selezione di una singola riga

Per selezionare una singola riga con . loc[], abbiamo inserito un’etichetta di una singola riga in una funzione .loc.

# Importazione di panda

importare panda come pd

# fare frame di dati da file csv

data = pd.read_csv(“nba.csv”, index_col =”Nome”)

# recuperando la riga con il metodo loc

primo = data.loc[“Avery Bradley”]secondo = data.loc[“R.J. Hunter”].

stampa(primo, “\n \n \n \n \n \n), secondo)

Uscita:

Come mostrato nell’immagine di uscita, sono state restituite due serie, poiché c’era un solo parametro per entrambe le volte.

Indicizzazione di un DataFrame utilizzando .iloc[ ] :

Questa capacità ci permette di recuperare linee e sezioni per posizione. Per fare questo, dovremo indicare i luoghi delle linee di cui abbiamo bisogno e i luoghi dei segmenti di cui abbiamo bisogno. L’indicizzatore df.iloc è fondamentalmente lo stesso df.loc, ma utilizza solo aree numeriche per fare le sue scelte.

Per selezionare una singola riga con la funzione .iloc[], possiamo passare un singolo numero intero alla funzione .iloc[].

importare panda come pd

# fare frame di dati da file csv

data = pd.read_csv(“nba.csv”, index_col =”Nome”)

# recupero delle righe con il metodo iloc

riga2 = data.iloc[3]

Le informazioni mancanti possono verificarsi quando non sono presenti i dati di almeno una cosa o di un’intera unità. L’informazione mancante è un problema enorme, in realtà, la situazione. Le informazioni mancanti possono anche alludere a valori NA (non accessibili) nei panda.

# Importare panda come pd

importare panda come pd

# Importare intorpidito come np

importare intorpidito come np

# dizionario delle liste

dict = {‘Primo Punteggio’:[100, 90, np.nan, 95],

        Secondo punteggio: [30, 45, 56, np.nan],

        “Terzo Punteggio”:[np.nan, 40, 80, 98]}

# creando un dataframe da una lista

df = pd.DataFrame(dict)

# usando la funzione isull() 

df.isull()

Controllo delle qualità mancanti utilizzando isull() e notnull() :

Per verificare le qualità mancanti nei DataFrame Pandas, utilizziamo una capacità isull() e notnull(). Entrambi aiutano a verificare se un valore è NaN o meno. Queste capacità possono anche essere utilizzate in Pandas Arrangement in modo da scoprire qualità non valide in un accordo.

# Importare panda come pd

importare panda come pd

# Importare intorpidito come np

importare intorpidito come np

# dizionario delle liste

dict = {‘Primo Punteggio’:[100, 90, np.nan, 95],

        Secondo punteggio: [30, 45, 56, np.nan],

        “Terzo Punteggio”:[np.nan, 40, 80, 98]}

# creando un dataframe dal dizionario

df = pd.DataFrame(dict)

# riempire il valore mancante usando fillna() 

df.fillna(0)

Riempimento di qualità mancanti utilizzando fillna(), supplant() e introduce() :

Per riempire le qualità non valide in un set di dati, usiamo fillna(), supplant() e add() lavorare queste capacità sostitutive delle stime NaN con una stima propria. Tutte queste capacità aiutano a riempire una stima non valida in un dataset di un DataFrame. Il lavoro di introduzionee() è fondamentalmente usato per riempire le stime di NA nel data frame, ma utilizza diversi sistemi di aggiunta per riempire le qualità mancanti, invece di codificare il valore in modo rigido.

# Importare panda come pd

importare panda come pd

# Importare intorpidito come np

importare intorpidito come np

# dizionario delle liste

dict = {‘Primo Punteggio’:[100, 90, np.nan, 95],

        Secondo punteggio: [30, np.nan, 45, 56],

        Terzo punto: [52, 40, 80, 98],

        Quarto Punteggio: [np.nan, np.nan, np.nan, np.nan, 65]}

# creando un dataframe dal dizionario

df = pd.DataFrame(dict)

df

ow lasciamo cadere le righe con almeno un valore Nan (valore Null)

# Importare panda come pd

importare panda come pd

# Importare intorpidito come np

importare intorpidito come np

# dizionario delle liste

dict = {‘Primo Punteggio’:[100, 90, np.nan, 95],

        Secondo punteggio: [30, np.nan, 45, 56],

        Terzo punto: [52, 40, 80, 98],

        Quarto Punteggio: [np.nan, np.nan, np.nan, np.nan, 65]}

# creando un dataframe dal dizionario

df = pd.DataFrame(dict)

# usando la funzione dropna() 

df.dropna()