Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Pandas DataFrame is een tweedimensionale, potentieel heterogene gegevensstructuur in tabelvorm met gelabelde assen (rijen en kolommen). Een DataFrame is een tweedimensionale datastructuur, d.w.z. dat de gegevens in rijen en kolommen in tabelvorm worden uitgelijnd. Pandas DataFrame bestaat uit drie hoofdcomponenten, de data, rijen en kolommen.

Het creëren van een Pandas DataFrame

In werkelijkheid zal een Pandas DataFrame worden gemaakt door het stapelen van de datasets uit de bestaande voorraad, de voorraad kan SQL Database, CSV record, en Exceed expectations document zijn. Pandas DataFrame kan worden gemaakt uit de overzichten, woordreferenties, en uit een overzicht van lexicons en zo verder. Dataframe kan op verschillende manieren worden gemaakt hier zijn een paar verschillende manieren waarop we een dataframe maken:

Het maken van een dataframe met behulp van Rundown: DataFrame kan worden gemaakt met behulp van een eenzame opsomming of een opsomming van records.

# Panda’s importeren als pd

importpanda’s als p

# lijst van strijkers

lst = [‘Geeks’, ‘Voor’, ‘Geeks’, ‘is’,

[Portal], ‘voor’, ‘Geeks’]

# Oproep aan DataFrame constructeur op lijst

df = pd.DataFrame(lst)

afdruk(df)

DataFrame maken van dictaat van ndarray/records: Om DataFrame van dict of narray/list te maken, moet al het narray van dezelfde lengte zijn. Bij de kans dat het bestand wordt gepasseerd, zou de lengte lijst op dat moment gelijk moeten zijn aan de lengte van de tentoongestelde stukken. Bij de buitenkans dat er geen record wordt gepasseerd, zal het bestand op dat moment als vanzelfsprekend range(n) zijn waar n de clusterlengte is.

# Python code tonen het creëren van

# DataFrame van dict narray / lijsten

# Standaard adressen.

importpanda’s als pd

# intialiseer gegevens van lijsten.

gegevens = {“naam”:[“Tom”, “nick”, “krish”, “jack”],

Leeftijd: [20, 21, 19, 18].

# Creëer DataFrame

df = pd.DataFrame(gegevens)

# Print de uitvoer.

afdrukken(df)

Een Information outline is een tweedimensionale informatiestructuur, d.w.z. dat informatie op een verboden manier wordt aangepast in lijnen en secties. We kunnen fundamentele activiteiten uitvoeren op lijnen/segmenten zoals kiezen, wissen, inclusief en hernoemen.

Segmentkeuze: Om een sectie in Pandas DataFrame te kiezen, kunnen we ofwel bij de segmenten komen door ze bij de naam van het segment aan te roepen.

# Panda’s importeren

importpanda’s als pd

# Definieer een woordenboek met werknemersgegevens

gegevens = {“Naam”:[“Jai”, “Princi”, “Gaurav”, “Anuj”],

Leeftijd’: [27, 24, 22, 32],

Adres:[‘Delhi’, ‘Kanpur’, ‘Allahabad’, ‘Kannauj’],

Kwalificatie”:[‘Msc’, ‘MA’, ‘MCA’, ‘Phd’].

# Zet het woordenboek om in DataFrame

df = pd.DataFrame(gegevens)

# selecteer twee kolommen

print(df[[[‘Naam’, ‘Kwalificatie’]])

Rij selectie: Panda’s bieden een unieke methode om rijen op te halen uit een Data frame. DataFrame.loc[] methode wordt gebruikt om rijen op te halen uit Pandas DataFrame. Rijen kunnen ook geselecteerd worden door een gehele locatie door te geven aan een iloc[] functie.

Opmerking: We gebruiken het nba.csv bestand in onderstaande voorbeelden.

# het importeren van panda’s pakket

importpanda’s als pd

# het maken van dataframe uit csv-bestand

data = pd.read_csv(“nba.csv”, index_col =”Name”)

# het ophalen van rij door loc-methode

eerste = data.loc[“Avery Bradley”].

tweede = data.loc[“R.J. Hunter”]

Druk (ten eerste, “nee”, ten tweede)…

Uitgang:

Indexering en selectie van gegevens

Indexering in panda’s betekent dat er alleen maar specifieke lijnen en delen van informatie uit een DataFrame moeten worden gekozen. Bestellen kan betekenen het kiezen van elk van de lijnen en een deel van de segmenten, een deel van de lijnen en het geheel van de secties, of een deel van elk van de lijnen en segmenten. Bestellen kan ook worden aangeduid als Subset Choice.

Een enkele kolom kiezen

Om een enkele kolom te selecteren, zetten we gewoon de naam van de kolom tussen de haakjes.

# het importeren van panda’s pakket

importpanda’s als pd

# het maken van dataframe uit csv-bestand

data = pd.read_csv(“nba.csv”, index_col =”Name”)

# het ophalen van kolommen door het indexeren van de operator

eerste = gegevens[“Leeftijd”]

Druk (eerst)

Uitgang:

Het indexeren van een DataFrame met behulp van .loc[ ]

Deze capaciteit kiest de informatie bij de naam van de lijnen en segmenten. De df.loc-indexer kiest de informatie op een onverwachte manier in vergelijking met de ordende beheerder. Hij kan subsets van lijnen of segmenten kiezen. Tegelijkertijd kan hij ook subsets van lijnen en segmenten selecteren.

Een enkele rij selecteren

Om een enkele rij te selecteren met behulp van .loc[], plaatsen we een enkel rijlabel in een .loc-functie.

# panda’s importeren

importpanda’s als pd

# het maken van dataframe uit csv-bestand

data = pd.read_csv(“nba.csv”, index_col =”Name”)

# het ophalen van rij door loc-methode

eerste = data.loc[“Avery Bradley”] tweede = data.loc[“R.J. Hunter”].

Druk (ten eerste, “nee”, ten tweede)…

Uitgang:

Zoals te zien is in de afbeelding van de uitgang, zijn er twee series teruggegeven, omdat er slechts één parameter was in beide gevallen.

Het indexeren van een DataFrame met behulp van .iloc[ ] :

Deze capaciteit stelt ons in staat om lijnen en secties op positie te herstellen. Om dat te doen, moeten we de plaatsen van de lijnen die we nodig hebben en de plaatsen van de segmenten die we nodig hebben ook aangeven. De df.iloc indexer is in principe hetzelfde als df.loc maar gebruikt alleen de nummergebieden om zijn keuzes te maken.

Om een enkele rij te selecteren met behulp van .iloc[], kunnen we een enkel geheel getal doorgeven aan de functie .iloc[].

Panda’s importeren als pd

# het maken van dataframe uit csv-bestand

data = pd.read_csv(“nba.csv”, index_col =”Name”)

# het ophalen van rijen met de iloc-methode

rij2 = data.iloc[3]

Ontbrekende informatie kan gebeuren wanneer er geen gegevens zijn ondergebracht voor ten minste één ding of voor een hele eenheid. Ontbrekende informatie is een zeer groot probleem, in werkelijkheid de situatie. Ontbrekende informatie kan ook in panda’s verwijzen naar NA-waarden (Niet Toegankelijk).

# het importeren van panda’s als pd

importpanda’s als pd

# het importeren van numpy als np

importnummer als np

# woordenboek van lijsten

dict = {‘First Score’: [100, 90, np.nan, 95],

Tweede Score’: 30, 45, 56, np.nan,

Derde Score: [np.nan, 40, 80, 98]}

# het creëren van een dataframe uit de lijst

df = pd.DataFrame(dict)

# met behulp van isull() functie

df.isull()

Het controleren op ontbrekende kwaliteiten door gebruik te maken van isull() en notnull() :

Om de ontbrekende kwaliteiten in Pandas DataFrame te controleren, gebruiken we een capaciteit isull() en notnull(). Beide werken helpen bij het controleren of een waarde NaN is of niet. Deze capaciteit kan ook worden gebruikt in Pandas Arrangement om ongeldige kwaliteiten in een regeling te ontdekken.

# het importeren van panda’s als pd

importpanda’s als pd

# het importeren van numpy als np

importnummer als np

# woordenboek van lijsten

dict = {‘First Score’: [100, 90, np.nan, 95],

Tweede Score’: 30, 45, 56, np.nan,

Derde Score: [np.nan, 40, 80, 98]}

# het creëren van een dataframe uit woordenboek

df = pd.DataFrame(dict)

# het vullen van ontbrekende waarde met behulp van fillna()

df.fillna(0)

Het vullen van ontbrekende kwaliteiten met behulp van fillna(), verdringen() en introduceren() :

Om ongeldige kwaliteiten in een dataset op te vullen, gebruiken we fillna(), supplant() en voegen() deze capaciteit toe in plaats van de NaN-achternissen met een eigen inschatting. Al deze capaciteiten helpen bij het vullen van een ongeldige waardering in datasets van een DataFrame. Introduceer() werk wordt fundamenteel gebruikt om NA-achting in het dataframe te vullen, maar het maakt gebruik van verschillende additionele systemen om de ontbrekende kwaliteiten te vullen in tegenstelling tot het hard-coderen van de waarde.

# het importeren van panda’s als pd

importpanda’s als pd

# het importeren van numpy als np

importnummer als np

# woordenboek van lijsten

dict = {‘First Score’: [100, 90, np.nan, 95],

Tweede Score’: 30, np.nan, 45, 56],

Derde Score’: [52, 40, 80, 98],

Vierde Score’: [np.nan, np.nan, np.nan, 65].

# het creëren van een dataframe uit woordenboek

df = pd.DataFrame(dict)

df

ow we laten rijen vallen met minstens één Nan-waarde (Nulwaarde)

# het importeren van panda’s als pd

importpanda’s als pd

# het importeren van numpy als np

importnummer als np

# woordenboek van lijsten

dict = {‘First Score’: [100, 90, np.nan, 95],

Tweede Score’: 30, np.nan, 45, 56],

Derde Score’: [52, 40, 80, 98],

Vierde Score’: [np.nan, np.nan, np.nan, 65].

# het creëren van een dataframe uit woordenboek

df = pd.DataFrame(dict)

# met behulp van dropna() functie

df.dropna()