Pandas DataFrame ist eine zweidimensionale größenveränderbare, potenziell heterogene tabellarische Datenstruktur mit beschrifteten Achsen (Zeilen und Spalten). Ein Datenrahmen ist eine zweidimensionale Datenstruktur, d.h. die Daten sind tabellarisch in Zeilen und Spalten ausgerichtet. Pandas DataFrame besteht aus drei Hauptkomponenten, den Daten, Zeilen und Spalten.

Erstellen eines Pandas-Datenrahmens

In Wirklichkeit wird ein Pandas DataFrame durch Stapeln der Datensätze aus dem vorhandenen Vorrat erstellt, der Vorrat kann aus einer SQL-Datenbank, einem CSV-Datensatz und einem Dokument “Erwartungen übertreffen” bestehen. Ein Pandas DataFrame kann aus den Übersichten, Wortreferenzen, einem Übersichtslexikon usw. erstellt werden. Ein Datenrahmen kann auf verschiedene Weise erstellt werden, hier sind einige verschiedene Möglichkeiten, wie wir einen Datenrahmen erstellen:

Erstellen eines Datenrahmens unter Verwendung von Rundown: DataFrame kann unter Verwendung eines einzelnen Rundowns oder eines Rundowns von Datensätzen erstellt werden.

# Pandas als pd importieren

Pandas importieren als p

# Liste von Zeichenketten

lst = [‘Deppen’, ‘Für’, ‘Deppen’, ‘ist’,

            ‘Portal’, ‘für’, ‘Geeks’]

# Aufruf des DataFrame-Konstruktors auf Liste

df = pd.DatenRahmen(lst)

drucken(df)

Erstellen von DataFrame aus dem Diktat von ndarray/records: Um aus dem Diktat von narray/list einen DataFrame zu erstellen, müssen alle Narrays die gleiche Länge haben. Für den Fall, dass die Datei übergeben wird, sollte die Länge der Liste an diesem Punkt der Länge der Exponate entsprechen. Für den Fall, dass zufällig kein Datensatz übergeben wird, wird die Datei an diesem Punkt selbstverständlich range(n) sein, wobei n die Clusterlänge ist.

# Python-Code demonstrieren das Erstellen

# DataFrame from dict narray / Listen

# Standard-Adressen.

Pandas als pd importieren

# Daten von Listen zu initialisieren.

Daten = {‘Name’:[‘Tom’, ‘nick’, ‘krish’, ‘jack’],

        ‘Alter’:[20, 21, 19, 18]}

# Datenrahmen erstellen

df = pd.DatenRahmen(Daten)

# Drucken Sie die Ausgabe aus.

drucken(df)

Ein Informationsumriss ist eine zweidimensionale Informationsstruktur, d.h. Informationen werden in Zeilen und Abschnitten in verbotener Weise angepasst. An Zeilen/Abschnitten können grundlegende Aktivitäten wie Auswählen, Löschen, Einschließen und Umbenennen durchgeführt werden.

Segmentauswahl: Um einen Abschnitt im Pandas DataFrame auszuwählen, können wir entweder zu den Segmenten gelangen, indem wir sie mit ihrem Segmentnamen aufrufen.

# Pandas-Paket importieren

Pandas als pd importieren

# Definieren Sie ein Wörterbuch mit Mitarbeiterdaten

Daten = {‘Name’:[‘Jai’, ‘Prinzip’, ‘Gaurav’, ‘Anuj’],

        Alter”:[27, 24, 22, 32],

        Anschrift”:[‘Delhi’, ‘Kanpur’, ‘Allahabad’, ‘Kannauj’],

        ‘Qualifikation’:[‘Msc’, ‘MA’, ‘MCA’, ‘Phd’]}

# Das Wörterbuch in DataFrame konvertieren

df = pd.DatenRahmen(Daten)

# zwei Spalten auswählen

drucken(df[[[‘Name’, ‘Qualifikation’]])

Zeilenauswahl: Pandas bieten eine einzigartige Methode zum Abrufen von Zeilen aus einem Datenrahmen. Die Methode DataFrame.loc[] wird verwendet, um Zeilen aus Pandas DataFrame abzurufen. Zeilen können auch durch Übergeben der ganzzahligen Position an eine iloc[]-Funktion ausgewählt werden.

Hinweis: In den folgenden Beispielen wird die Datei nba.csv verwendet.

# Pandas-Paket importieren

Pandas als pd importieren

# Datenrahmen aus csv-Datei erstellen

Daten = pd.read_csv(“nba.csv”, index_col =”Name”)

# Abrufen von Zeile nach Loc-Methode

erste = data.loc[“Avery Bradley”]

Sekunde = data.loc[“R.J. Hunter”]

drucken(erstens, “\n\n\n\n”, zweitens)

Ausgabe:

Indizierung und Auswahl von Daten

Indexierung in Pandas bedeutet, dass nur bestimmte Zeilen und Abschnitte von Informationen aus einem DataFrame ausgewählt werden müssen. Ordnen könnte bedeuten, jede einzelne der Linien und einen Teil der Segmente, einen Teil der Linien und die Gesamtheit der Abschnitte oder einen Teil jeder einzelnen der Linien und Segmente auszuwählen. Das Ordnen kann auch als Subset Choice bezeichnet werden.

Auswählen einer einzelnen Spalte

Um eine einzelne Spalte auszuwählen, setzen wir einfach den Namen der Spalte zwischen die Klammer

# Pandas-Paket importieren

Pandas als pd importieren

# Datenrahmen aus csv-Datei erstellen

Daten = pd.read_csv(“nba.csv”, index_col =”Name”)

# Abrufen von Spalten durch Indexierungsoperator

erste = Daten[“Alter”]

drucken(zuerst)

Ausgabe:

Indizierung eines Datenrahmens mit .loc[ ]

Diese Kapazität wählt Informationen anhand der Namen der Linien und Segmente aus. Der df.loc-Indexer wählt Informationen auf unerwartete Weise im Vergleich zum einfachen Bestelladministrator aus. Er kann Teilmengen von Linien oder Segmenten auswählen. Er kann ebenfalls gleichzeitig Teilmengen von Linien und Segmenten auswählen.

Auswählen einer einzelnen Zeile

Um eine einzelne Zeile mit . loc[] auszuwählen, fügen wir eine einzelne Zeilenbezeichnung in eine .loc-Funktion ein.

# Pandas-Paket importieren

Pandas als pd importieren

# Datenrahmen aus csv-Datei erstellen

Daten = pd.read_csv(“nba.csv”, index_col =”Name”)

# Abrufen von Zeile nach Loc-Methode

erste = data.loc[“Avery Bradley”]zweite = data.loc[“R.J. Hunter”]

drucken(erstens, “\n\n\n\n”, zweitens)

Ausgabe:

Wie im Ausgabebild gezeigt, wurden zwei Serien zurückgegeben, da beide Male nur ein Parameter vorhanden war.

Indizierung eines Datenrahmens unter Verwendung von .iloc[ ] :

Diese Kapazität ermöglicht es uns, Linien und Abschnitte nach Position zu bergen. Dazu müssen wir die Orte der Linien, die wir benötigen, und die Orte der Abschnitte, die wir ebenfalls benötigen, angeben. Der df.iloc-Indexer ist im Grunde genommen derselbe wie df.loc, verwendet aber nur Nummernbereiche, um seine Auswahl zu treffen.

Um eine einzelne Zeile mit .iloc[] auszuwählen, können wir eine einzelne Ganzzahl an die Funktion .iloc[] übergeben.

Pandas als pd importieren

# Datenrahmen aus csv-Datei erstellen

Daten = pd.read_csv(“nba.csv”, index_col =”Name”)

# Abrufen von Zeilen durch die iloc-Methode

Zeile2 = Daten.iloc[3]

Fehlende Informationen können auftreten, wenn mindestens eine Sache oder eine ganze Einheit keine Daten enthält. Fehlende Informationen sind ein sehr großes Problem, in Wirklichkeit die Situation. Fehlende Informationen können auch als NA(Not Accessible)-Werte bei Pandas angedeutet werden.

# Pandas als pd importieren

Pandas als pd importieren

# Importieren von numpy als np

numpy als np importieren

# Wörterbuch der Listen

dict = {‘Erste Bewertung’:[100, 90, np.nan, 95],

        Zweiter Spielstand”: [30, 45, 56, np.nan],

        ‘Dritte Bewertung’:[np.nan, 40, 80, 98]}

# Erstellen eines Datenrahmens aus der Liste

df = pd.DatenRahmen(dict)

# Verwendung der Funktion isnull() 

df.isnull()

Prüfung auf fehlende Qualitäten unter Verwendung von isnull() und notnull() :

Um fehlende Qualitäten im Pandas DataFrame zu überprüfen, verwenden wir eine Kapazität isnull() und notnull(). Beide Arbeiten helfen bei der Prüfung, ob ein Wert NaN ist oder nicht. Diese Kapazitäten können ebenfalls in der Pandas-Anordnung verwendet werden, um ungültige Qualitäten in einer Anordnung zu entdecken.

# Pandas als pd importieren

Pandas als pd importieren

# Importieren von numpy als np

numpy als np importieren

# Wörterbuch der Listen

dict = {‘Erste Bewertung’:[100, 90, np.nan, 95],

        Zweiter Spielstand”: [30, 45, 56, np.nan],

        ‘Dritte Bewertung’:[np.nan, 40, 80, 98]}

# Erstellen eines Datenrahmens aus dem Wörterbuch

df = pd.DatenRahmen(dict)

# fehlenden Wert mittels fillna() auffüllen 

df.fillna(0)

Auffüllen fehlender Qualitäten mit fillna(), supplant() und introduce() :

Um ungültige Qualitäten in einem Datensatz zu füllen, verwenden wir fillna(), supplant() und add(). Diese Kapazitäten verdrängen die NaN-Schätzungen mit einer eigenen Einschätzung. All diese Kapazitäten helfen beim Ausfüllen ungültiger Werte in Datensätzen eines DataFrames. Die Introduce()-Arbeit wird grundsätzlich dazu verwendet, NA-Schätzwerte in den Datenrahmen zu füllen, wobei jedoch verschiedene Additionssysteme verwendet werden, um die fehlenden Qualitäten zu füllen, im Gegensatz zur harten Kodierung des Wertes.

# Pandas als pd importieren

Pandas als pd importieren

# Importieren von numpy als np

numpy als np importieren

# Wörterbuch der Listen

dict = {‘Erste Bewertung’:[100, 90, np.nan, 95],

        Zweiter Spielstand”: [30, np.nan, 45, 56],

        Dritte Partitur”:[52, 40, 80, 98],

        Vierte Wertung:[np.nan, np.nan, np.nan, 65]}

# Erstellen eines Datenrahmens aus dem Wörterbuch

df = pd.DatenRahmen(dict)

df

ie lassen wir Zeilen mit mindestens einem Nan-Wert (Null-Wert) fallen

# Pandas als pd importieren

Pandas als pd importieren

# Importieren von numpy als np

numpy als np importieren

# Wörterbuch der Listen

dict = {‘Erste Bewertung’:[100, 90, np.nan, 95],

        Zweiter Spielstand”: [30, np.nan, 45, 56],

        Dritte Partitur”:[52, 40, 80, 98],

        Vierte Wertung:[np.nan, np.nan, np.nan, 65]}

# Erstellen eines Datenrahmens aus dem Wörterbuch

df = pd.DatenRahmen(dict)

# Verwendung der Funktion dropna() 

df.dropna()