Pandas DataFrame jest dwuwymiarową, potencjalnie niejednorodną tabelaryczną strukturą danych z oznaczonymi osiami (wiersze i kolumny). Data frame jest dwuwymiarową strukturą danych, tzn. dane są wyrównane tabelarycznie w wierszach i kolumnach. Pandas DataFrame składa się z trzech głównych komponentów, danych, wierszy i kolumn.

Tworzenie Pandas DataFrame (Pandas DataFrame)

W rzeczywistości, Pandas DataFrame będzie tworzony poprzez układanie zbiorów danych z istniejących składów, składowanie może być SQL Database, rekord CSV i dokument Exceed expectations. Pandas DataFrame może być wykonany z rundowns, word reference, i z rundown leksykonu i tak dalej. Dataframe może być wykonany na różne sposoby tutaj jest kilka różnych sposobów na zrobienie ramki danych:

Tworzenie ramki danych z wykorzystaniem Rundown: DataFrame może być zrobiona z wykorzystaniem samotnego cofania lub cofania rekordów.

# zaimportuj pandas jako pd

importować pandki jak p

# lista strun

lst = [“Geeks”, “For”, “Geeks”, “jest”,

“portal”, “dla”, “Geeków”]

# Wywołanie konstruktora DataFrame na liście

df = pd.DataFrame(lst)

druk(df)

Wykonywanie DataFrame z dyktanda ndarray/rekordów: Aby wykonać DataFrame z dyktanda narray/listy, wszystkie narracje muszą być tej samej długości. Przy wyłączonej możliwości przekazania pliku, w tym momencie lista długości powinna być równoważna z długością eksponatów. Przy wyłączonej szansie nieprzekazania żadnego rekordu, w tym momencie, jako rzecz oczywista, plik będzie miał zakres(n), gdzie n jest długością klastra.

# Kod Pythona pokazuje tworzenie

# DataFrame from dict narray / lists

# Domyślne adresy.

import pand jako pd

# inicjują dane z list.

data = {“Name”:[‘Tom’, ‘nick’, ‘krish’, ‘jack’],

“Wiek”:[20, 21, 19, 18]}

# Create DataFrame

df = pd.DataFrame(data)

# Print the output.

print(df)

Zarys informacji to dwuwymiarowa struktura informacyjna, tzn. informacje są ustawiane w sposób zabroniony w wierszach i przekrojach. Na liniach/segmentach możemy wykonywać podstawowe czynności, takie jak wybieranie, kasowanie, włączanie i zmiana nazwy.

Wybór segmentu: Aby wybrać sekcję w Pandas DataFrame, możemy albo dostać się do segmentów, nazywając je po nazwie segmentu.

# Importuj pakiet pand

import pand jako pd

# Zdefiniuj słownik zawierający dane pracowników

data = {“Name”:[“Jai”, “Princi”, “Gaurav”, “Anuj”],

“Wiek”:[27, 24, 22, 32],

“Adres”: [‘Delhi’, ‘Kanpur’, ‘Allahabad’, ‘Kannauj’],

“Kwalifikacja”: [“Msc”, “MA”, “MCA”, “Phd”]}

# Przekonwertuj słownik na DataFrame

df = pd.DataFrame(data)

# wybierz dwie kolumny

print(df[[“Name”, “Qualification”]])

Wybór wiersza: Pandas zapewniają unikalną metodę pobierania wierszy z ramki danych. Metoda DataFrame.loc[] jest stosowana do pobierania wierszy z Pandas DataFrame. Wiersze można również wybrać przez przekazanie położenia liczb całkowitych do funkcji iloc[].

Uwaga: W poniższych przykładach będziemy używać pliku nba.csv.

# import pakietu pandas

import pand jako pd

# Tworzenie ramki danych z pliku csv

data = pd.read_csv(“nba.csv”, index_col = “Nazwa”)

# retrieving row by loc method

First = data.loc[“Avery Bradley”]

second = data.loc[“R.J. Hunter”]

Print(first, “\n\n\n”, second)

Wyjście:

Indeksowanie i wybór danych

Indeksowanie w pandach oznacza wybór konkretnych linii i odcinków informacji z DataFrame. Zamawianie może oznaczać wybranie każdej z linii i części segmentów, części linii i całości odcinków lub części każdej z linii i segmentów. Zamówienie może być również nazywane wyborem podzbiorów.

Wybieranie pojedynczych kolumn

Aby wybrać pojedynczą kolumnę, wystarczy między nawiasami umieścić jej nazwę

# importując paczkę pandasów

import pand jako pd

# Tworzenie ramki danych z pliku csv

data = pd.read_csv(“nba.csv”, index_col = “Nazwa”)

# pobieranie kolumn przez operatora indeksującego

pierwszy = dane[“Wiek”]

Druk(pierwszy)

Wyjście:

Indeksowanie DataFrame za pomocą .loc[ ]

Zdolność ta wybiera informacje według nazw linii i segmentów. Indekser df.loc wybiera informacje w nieoczekiwany sposób w porównaniu do zwykłego administratora zamówień. Może on wybrać podzbiory linii lub segmentów. Jednocześnie może wybierać podzbiory linii i segmentów.

Wybieranie pojedynczego wiersza

Aby wybrać pojedynczy wiersz za pomocą .loc[], umieszczamy w funkcji .loc etykietę pojedynczego wiersza.

# import pakietu pandas

import pand jako pd

# Tworzenie ramki danych z pliku csv

data = pd.read_csv(“nba.csv”, index_col = “Nazwa”)

# retrieving row by loc method

first = data.loc[“Avery Bradley”]second = data.loc[“R.J. Hunter”]

Print(first, “\n\n\n”, second)

Wyjście:

Jak pokazano na obrazie wyjściowym, zwrócone zostały dwie serie, ponieważ w obu przypadkach był tylko jeden parametr.

Indexing a DataFrame using .iloc[ ] :

Ta zdolność pozwala nam na odzyskiwanie linii i sekcji według pozycji. Aby to zrobić, będziemy musieli wskazać miejsca linii, których potrzebujemy i miejsca segmentów, które również potrzebujemy. Indekser df.iloc jest zasadniczo taki sam jak df.loc, ale używa tylko obszarów numerycznych do dokonywania wyborów.

Aby wybrać pojedynczy wiersz za pomocą .iloc[], możemy przekazać jedną liczbę całkowitą do funkcji .iloc[].

zaimportować pandas jako pd

# Tworzenie ramki danych z pliku csv

data = pd.read_csv(“nba.csv”, index_col = “Nazwa”)

# pobieranie wierszy metodą iloc

row2 = data.iloc[3]

Brakujące informacje mogą się zdarzyć, gdy żadne dane nie są umieszczone przynajmniej w jednym miejscu lub dla całej jednostki. Brakująca informacja jest w rzeczywistości bardzo poważnym problemem. Brakujące informacje mogą również odnosić się do wartości NA(Not Accessible) w pandasach.

# importując pandas jako pd

import pand jako pd

# importując zdrętwiały jak np.

importować zdrętwiały jak np.

# słownik list

dict = {‘First Score’:[100, 90, np.nan, 95],

“Drugi wynik”: [30, 45, 56, np.nan],

{y:i}”Trzeci wynik”:[np. 40, 80, 98]}

# tworzenie ramki danych z listy

df = pd.DataFrame(dict)

# za pomocą funkcji isnull()

df.isnull()

Sprawdzanie brakujących cech przy użyciu isnull() i notnull() :

Aby sprawdzić brakujące jakości w Pandas DataFrame, wykorzystujemy pojemność isnull() oraz notnull(). Obie te funkcje pomagają w sprawdzeniu, czy wartość jest NaN czy nie. Pojemność ta może być również wykorzystana w układzie Pandas, aby wykryć nieprawidłowe jakości w układzie.

# importowanie pand jako pd

import pand jako pd

# importując zdrętwiały jak np.

importować zdrętwiały jak np.

# słownik list

dict = {‘First Score’:[100, 90, np.nan, 95],

“Drugi wynik”: [30, 45, 56, np.nan],

{y:i}”Trzeci wynik”:[np. 40, 80, 98]}

# creating a dataframe from dictionary

df = pd.DataFrame(dict)

# uzupełnianie brakującej wartości za pomocą fillna()

df.fillna(0)

Uzupełnianie brakujących jakości przy użyciu fillna(), supplant() i introduce() :

Aby uzupełnić nieważne jakości w zbiorze danych, używamy fillna(), supplant() i add(), które zastępują szacunki NaN z pewnymi własnymi szacunkami. Wszystkie te pojemności pomagają w wypełnianiu nieprawidłowych oszacowań w zbiorach danych DataFrame. Praca Introduce() jest zasadniczo używana do wypełniania szacunków NA w ramce danych, ale wykorzystuje różne systemy add() do wypełniania brakujących cech, w przeciwieństwie do twardego kodowania wartości.

# importowanie pand jako pd

import pand jako pd

# importując zdrętwiały jak np.

importować zdrętwiały jak np.

# słownik list

dict = {‘First Score’:[100, 90, np.nan, 95],

“Drugi wynik”: [30, np.nan, 45, 56],

“Trzeci wynik”:[52, 40, 80, 98],

“Czwarty punkt”: [np.nan, np.nan, np.nan, 65]}

# creating a dataframe from dictionary

df = pd.DataFrame(dict)

df

zrzucamy rzędy z co najmniej jedną wartością Nan (wartość Null)

# importując pandas jako pd

import pand jako pd

# importując zdrętwiały jak np.

importować zdrętwiały jak np.

# słownik list

dict = {‘First Score’:[100, 90, np.nan, 95],

“Drugi wynik”: [30, np.nan, 45, 56],

“Trzeci wynik”:[52, 40, 80, 98],

“Czwarty punkt”: [np.nan, np.nan, np.nan, 65]}

# creating a dataframe from dictionary

df = pd.DataFrame(dict)

# za pomocą funkcji dropna()

df.dropna()