Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Pandas DataFrame est une structure de données tabulaires bidimensionnelle à taille variable, potentiellement hétérogène, avec des axes étiquetés (lignes et colonnes). Un DataFrame est une structure de données bidimensionnelle, c’est-à-dire que les données sont alignées de manière tabulaire en lignes et en colonnes. Le DataFrame de Pandas se compose de trois éléments principaux, les données, les lignes et les colonnes.

Créer un cadre de données pour les pandas

En réalité, un Pandas DataFrame sera réalisé en empilant les ensembles de données provenant du stockage existant, le stockage peut être une base de données SQL, un enregistrement CSV et un document “Exceed expectations”. Les Pandas DataFrame peuvent être faites à partir des listes, des références de mots, d’une liste de lexique, etc. Les dataframes peuvent être réalisées de différentes manières : voici quelques manières différentes de réaliser une dataframe :

Réalisation d’une trame de données à l’aide de Rundown : DataFrame peut être réalisée à partir d’une liste isolée ou d’une liste d’enregistrements.

# importer les pandas en tant que pd

importer les pandas en tant que p

# liste des chaînes

lst = [“Geeks”, “For”, “Geeks”, “is”,

            portail”, “pour”, “geeks”]

# Appel au constructeur de DataFrame sur la liste

df = pd.DataFrame(lst)

imprimer(df)

Création de DataFrame à partir de données de tableaux/enregistrements : Pour créer un DataFrame à partir d’une liste de récits, tous les récits doivent être de même longueur. Si, par malchance, le fichier est transmis, la longueur de la liste doit alors être équivalente à celle des pièces à conviction. S’il y a peu de chances qu’aucun enregistrement ne soit transmis, à ce stade, le fichier sera bien entendu de la longueur (n), où n est la longueur du groupe.

# Le code Python démontre la création

# DataFrame à partir d’un récit / de listes

# Par défaut, les adresses.

importer les pandas en tant que pd

# initialiser les données des listes.

data = {“Nom” : [Tom, nick, krish, jack],

        Âge” : [20, 21, 19, 18]}

# Créer un DataFrame

df = pd.DataFrame(data)

# Imprimez la sortie.

imprimer(df)

Un schéma d’information est une structure d’information bidimensionnelle, c’est-à-dire que l’information est ajustée de manière interdite en lignes et en sections. Nous pouvons effectuer des activités fondamentales sur des lignes/segments comme choisir, effacer, inclure et renommer.

Choix des segments : pour choisir une section dans Pandas DataFrame, nous pouvons soit accéder aux segments en les appelant par leur nom.

# Paquet de pandas d’importation

importer les pandas en tant que pd

# Définir un dictionnaire contenant les données des employés

data = [Nom] : [Jai], ‘Princi’, ‘Gaurav’, ‘Anuj’],

        Âge” : [27, 24, 22, 32],

        Adresse” : [Delhi, Kanpur, Allahabad, Kannauj],

        Qualification : [Msc, MA, MCA, Phd]].

# Convertir le dictionnaire en DataFrame

df = pd.DataFrame(data)

# sélectionner deux colonnes

print(df[[“Nom”, “Qualification”])

Sélection des rangées : Les pandas offrent une méthode unique pour récupérer des lignes dans un cadre de données. La méthode DataFrame.loc[] est utilisée pour récupérer les lignes de la DataFrame de Pandas. Les lignes peuvent également être sélectionnées en passant l’emplacement d’un nombre entier à une fonction iloc[].

Note : Nous utiliserons le fichier nba.csv dans les exemples ci-dessous.

# paquet d’importation de pandas

importer les pandas en tant que pd

# faire un cadre de données à partir d’un fichier csv

données = pd.read_csv(“nba.csv”, index_col = “Nom”)

# récupérer une ligne par la méthode loc

first = data.loc [“Avery Bradley”]

second = data.loc [“R.J. Hunter”]

print(premier, “\n\n\n\n”, second)

Sortie :

Indexation et sélection des données

L’indexation dans les pandas signifie qu’il suffit de choisir des lignes et des sections d’information spécifiques dans un DataFrame. Commander peut signifier choisir chacune des lignes et une partie des segments, une partie des lignes et la totalité des sections, ou une partie de chacune des lignes et des segments. La commande peut également être connue sous le nom de choix de sous-ensemble.

Sélection d’une seule colonne

Pour sélectionner une seule colonne, il suffit de mettre le nom de la colonne entre parenthèses

# paquet d’importation de pandas

importer les pandas en tant que pd

# faire un cadre de données à partir d’un fichier csv

données = pd.read_csv(“nba.csv”, index_col = “Nom”)

# récupération des colonnes par opérateur d’indexation

first = données [Âge]

imprimer(première)

Sortie :

Indexation d’une DataFrame à l’aide de .loc[ ].

Cette capacité choisit les informations par le nom des lignes et des segments. L’indexeur df.loc choisit l’information de manière inattendue par rapport au simple administrateur de la commande. Il peut choisir des sous-ensembles de lignes ou de segments. Il peut également sélectionner en même temps des sous-ensembles de lignes et de segments.

Sélection d’une seule ligne

Afin de sélectionner une seule ligne en utilisant . loc[], nous mettons un label de ligne unique dans une fonction .loc.

# paquet d’importation de pandas

importer les pandas en tant que pd

# faire un cadre de données à partir d’un fichier csv

données = pd.read_csv(“nba.csv”, index_col = “Nom”)

# récupérer une ligne par la méthode loc

premier = data.loc[“Avery Bradley”]second = data.loc[“R.J. Hunter”].

print(premier, “\n\n\n\n”, second)

Sortie :

Comme le montre l’image de sortie, deux séries ont été renvoyées car il n’y avait qu’un seul paramètre à chaque fois.

Indexation d’une DataFrame à l’aide de .iloc [ ] :

Cette capacité nous permet de récupérer des lignes et des sections par position. Pour ce faire, nous devrons indiquer les emplacements des lignes dont nous avons besoin et les emplacements des segments dont nous avons également besoin. L’indexeur df.iloc est fondamentalement le même que df.loc, mais il n’utilise que des zones numériques pour faire ses choix.

Afin de sélectionner une seule ligne en utilisant la fonction .iloc[], nous pouvons passer un seul entier à la fonction .iloc[].

importer les pandas en tant que pd

# faire un cadre de données à partir d’un fichier csv

données = pd.read_csv(“nba.csv”, index_col = “Nom”)

# récupération des lignes par la méthode iloc

row2 = data.iloc [3]

Des informations manquantes peuvent se produire lorsqu’aucune donnée n’est disponible pour au moins une chose ou pour une unité entière. Les informations manquantes constituent un problème très important, en fait, la situation. Les informations manquantes peuvent également faire allusion aux valeurs NA (non accessible) dans les pandas.

# importer les pandas en tant que pd

importer les pandas en tant que pd

# importer numpy en tant que np

import numpy as np

# dictionnaire des listes

dict = {“First Score” : [100, 90, np.nan, 95],

        “Second Score” : [30, 45, 56, np.nan],

        Troisième score : [np.nan, 40, 80, 98]}

# créer un cadre de données à partir d’une liste

df = pd.DataFrame(dict)

# en utilisant la fonction isull() 

df.isull()

Vérification des qualités manquantes à l’aide de isull() et notnull() :

Afin de vérifier les qualités manquantes dans Pandas DataFrame, nous utilisons une capacité isull() et notnull(). Ces deux travaux permettent de vérifier si une valeur est NaN ou non. Ces capacités peuvent également être utilisées dans Pandas Arrangement afin de découvrir des qualités non valables dans un arrangement.

# importer les pandas en tant que pd

importer les pandas en tant que pd

# importer numpy en tant que np

import numpy as np

# dictionnaire des listes

dict = {“First Score” : [100, 90, np.nan, 95],

        “Second Score” : [30, 45, 56, np.nan],

        Troisième score : [np.nan, 40, 80, 98]}

# créer une trame de données à partir d’un dictionnaire

df = pd.DataFrame(dict)

# remplir la valeur manquante en utilisant fillna() 

df.fillna(0)

Combler les qualités manquantes en utilisant fillna(), supplant() et introduce() :

Afin de remplir les qualités non valides dans un ensemble de données, nous utilisons les travaux fillna(), supplant() et add() ; ces capacités supplantent les estimations NaN avec une estimation propre. Toutes ces capacités aident à remplir des estimations non valables dans les ensembles de données d’une DataFrame. Le travail d’introduction() est fondamentalement utilisé pour remplir les estimations de la NA dans la base de données, mais il utilise différents systèmes d’addition pour combler les qualités manquantes, plutôt que de coder la valeur.

# importer les pandas en tant que pd

importer les pandas en tant que pd

# importer numpy en tant que np

import numpy as np

# dictionnaire des listes

dict = {“First Score” : [100, 90, np.nan, 95],

        “Second Score” : [30, np.nan, 45, 56],

        Troisième score” : [52, 40, 80, 98],

        “Quatrième score” : [np.nan, np.nan, np.nan, 65]}

# créer une trame de données à partir d’un dictionnaire

df = pd.DataFrame(dict)

df

omment faire tomber les lignes avec au moins une valeur Nan (valeur nulle)

# importer les pandas en tant que pd

importer les pandas en tant que pd

# importer numpy en tant que np

import numpy as np

# dictionnaire des listes

dict = {“First Score” : [100, 90, np.nan, 95],

        “Second Score” : [30, np.nan, 45, 56],

        Troisième score” : [52, 40, 80, 98],

        “Quatrième score” : [np.nan, np.nan, np.nan, 65]}

# créer une trame de données à partir d’un dictionnaire

df = pd.DataFrame(dict)

# en utilisant la fonction dropna() 

df.dropna()