Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

El DataFrame de Pandas es una estructura de datos tabulares bidimensional, potencialmente heterogénea, con ejes etiquetados (filas y columnas). Un DataFrame es una estructura de datos bidimensional, es decir, los datos se alinean de forma tabular en filas y columnas. El DataFrame de Pandas consta de tres componentes principales, los datos, las filas y las columnas.

Creando un DataFrame de Pandas

En realidad, un Pandas DataFrame se hará apilando los conjuntos de datos de las reservas existentes, la reserva puede ser una base de datos SQL, un registro CSV y un documento de expectativas de superación. El Pandas DataFrame se puede hacer a partir de los rundowns, referencia de palabras, y de un rundown de léxico y así sucesivamente. El Dataframe se puede hacer de varias maneras, aquí hay algunas formas diferentes de hacer un marco de datos:

Haciendo un marco de datos utilizando Rundown: El DataFrame puede hacerse utilizando un rundown solitario o un rundown de registros.

# importar pandas como pd

importar pandas como p

# lista de cuerdas

lst = [‘Geeks’, ‘For’, ‘Geeks’, ‘is’,

            “portal”, “para”, “Geeks”]

# Llamando al constructor del DataFrame en la lista

df = pd.DataFrame(lst)

print(df)

Haciendo el DataFrame a partir del dictado de ndarray/registros: Para hacer un DataFrame a partir de un narrador o lista, todos los narradores deben ser de la misma longitud. En el caso de que se pase el archivo, en ese momento la lista de longitud debe ser equivalente a la longitud de las pruebas. En el caso de que no se pase ningún registro, en ese punto, por supuesto, el archivo será rango(n) donde n es la longitud del cluster.

# El código Python demuestra la creación

# DataFrame de dict narray / listas

# Por defecto las direcciones.

importar pandas como pd

# incializar los datos de las listas.

datos = {‘Nombre’:[‘Tom’, ‘nick’, ‘krish’, ‘jack’],

        “Edad”:[20, 21, 19, 18]}

# Crear DataFrame

df = pd.DataFrame(datos)

# Imprime la salida.

print(df)

Un esquema de información es una estructura de información bidimensional, es decir, la información se ajusta de forma prohibida en líneas y secciones. Podemos realizar actividades fundamentales en líneas/segmentos como elegir, borrar, incluir y renombrar.

Elección del segmento: Para elegir una sección en el Pandas DataFrame, podemos llegar a los segmentos llamándolos por el nombre de su segmento.

# Paquete de importación de pandas

importar pandas como pd

# Definir un diccionario que contenga los datos del empleado

datos = {‘Nombre’:[‘Jai’, ‘Princi’, ‘Gaurav’, ‘Anuj’],

        “Edad”:[27, 24, 22, 32],

        “Dirección”:[‘Delhi’, ‘Kanpur’, ‘Allahabad’, ‘Kannauj’],

        “Calificación”:[‘Msc’, ‘MA’, ‘MCA’, ‘Phd’]}

# Convertir el diccionario en DataFrame

df = pd.DataFrame(datos)

# Seleccionar dos columnas…

print(df[[[‘Nombre’, ‘Calificación’]])

Selección de filas: Los pandas proporcionan un método único para recuperar filas de un marco de datos. El método DataFrame.loc[] se utiliza para recuperar filas del DataFrame de Pandas. Las filas también pueden ser seleccionadas pasando la ubicación entera a una función iloc[].

Nota: Usaremos el archivo nba.csv en los siguientes ejemplos.

# Importando el paquete de pandas

importar pandas como pd

# Haciendo un marco de datos del archivo csv

datos = pd.read_csv(“nba.csv”, index_col =”Nombre”)

# Recuperando la fila por el método de loc

primero = data.loc[“Avery Bradley”]

segundo = data.loc[“R.J. Hunter”]

Imprimir (primero, “\N”, segundo)

Salida:

Indización y selección de datos

La indexación en los medios de los pandas implica sólo elegir líneas y secciones específicas de información de un DataFrame. El ordenamiento podría significar elegir cada una de las líneas y una porción de los segmentos, una porción de las líneas y la totalidad de las secciones, o una porción de cada una de las líneas y segmentos. El ordenamiento también puede ser conocido como “Selección de subconjuntos”.

Seleccionando una sola columna…

Para seleccionar una sola columna, simplemente ponemos el nombre de la columna entre el paréntesis

# Importando el paquete de pandas

importar pandas como pd

# Haciendo un marco de datos del archivo csv

datos = pd.read_csv(“nba.csv”, index_col =”Nombre”)

# Recuperando columnas por el operador de indexación

first = data[“Age”]

imprimir (primero)

Salida:

Indexando un DataFrame usando .loc[ ]

Esta capacidad elige la información por el nombre de las líneas y segmentos. El indexador df.loc escoge la información de manera inesperada en comparación con el simple administrador de pedidos. Puede elegir subconjuntos de líneas o segmentos. Puede igualmente, al mismo tiempo, seleccionar subconjuntos de líneas y segmentos.

Seleccionar una sola fila…

Para seleccionar una sola fila usando . loc[], ponemos una etiqueta de una sola fila en una función .loc.

# Importando el paquete de pandas

importar pandas como pd

# Haciendo un marco de datos del archivo csv

datos = pd.read_csv(“nba.csv”, index_col =”Nombre”)

# Recuperando la fila por el método de loc

primero = data.loc[“Avery Bradley”]segundo = data.loc[“R.J. Hunter”]

Imprimir (primero, “\N”, segundo)

Salida:

Como se muestra en la imagen de salida, se devolvieron dos series ya que sólo había un parámetro en ambas ocasiones.

Indexando un DataFrame utilizando .iloc[ ] :

Esta capacidad nos permite recuperar líneas y secciones por posición. Para ello, tendremos que indicar los lugares de las líneas que necesitamos y los lugares de los segmentos que también necesitamos. El indexador df.iloc es fundamentalmente el mismo que el df.loc, pero sólo utiliza áreas de números para hacer sus elecciones.

Para seleccionar una sola fila usando .iloc[], podemos pasar un solo entero a la función .iloc[].

importar pandas como pd

# Haciendo un marco de datos del archivo csv

datos = pd.read_csv(“nba.csv”, index_col =”Nombre”)

# Recuperando filas por el método Iloc

row2 = data.iloc[3]

La falta de información puede ocurrir cuando no se acomoda ningún dato al menos para una cosa o para una unidad entera. La falta de información es un problema muy grande, en realidad, la situación. La información faltante puede también aludir a los valores NA (No Accesible) en los pandas.

# importando pandas como pd

importar pandas como pd

# importando numpy como np

importar numpy como np

# Diccionario de listas

dict = {‘First Score’:[100, 90, np.nan, 95],

        “Segunda puntuación”: [30, 45, 56, np.nan],

        Tercera puntuación: [np.nan, 40, 80, 98]}

# creando un marco de datos de la lista

df = pd.DataFrame(dict)

# usando la función isull() 

df.isull()

Comprobando las cualidades que faltan utilizando isull() y notnull() :

Para comprobar las cualidades que faltan en el DataFrame de Pandas, utilizamos una capacidad isull() y no null(). Ambos trabajos ayudan a comprobar si una valía es NaN o no. Esta capacidad también puede ser utilizada en el Arreglo de Pandas para descubrir cualidades inválidas en un arreglo.

# importando pandas como pd

importar pandas como pd

# importando numpy como np

importar numpy como np

# Diccionario de listas

dict = {‘First Score’:[100, 90, np.nan, 95],

        “Segunda puntuación”: [30, 45, 56, np.nan],

        Tercera puntuación: [np.nan, 40, 80, 98]}

# creando un marco de datos del diccionario

df = pd.DataFrame(dict)

# llenando el valor faltante usando fillna() 

df.fillna(0)

Rellenar las cualidades que faltan utilizando fillna(), suplantar() e introducir() :

Para llenar las cualidades inválidas en un conjunto de datos, usamos fillna(), supplant() y add() trabajar estas capacidades suplantando las estimaciones de NaN con alguna estimación propia. Todas estas capacidades ayudan a llenar las estimaciones inválidas en los conjuntos de datos de un DataFrame. El trabajo de introduce() se utiliza fundamentalmente para llenar las estimaciones de NA en el marco de datos, pero utiliza diferentes sistemas de adición para llenar las cualidades que faltan, en lugar de codificar duramente el valor.

# importando pandas como pd

importar pandas como pd

# importando numpy como np

importar numpy como np

# Diccionario de listas

dict = {‘First Score’:[100, 90, np.nan, 95],

        “Segunda puntuación”: [30, np.nan, 45, 56],

        “Tercera puntuación”: [52, 40, 80, 98],

        Cuarta puntuación:[np.nan, np.nan, np.nan, 65]}

# creando un marco de datos del diccionario

df = pd.DataFrame(dict)

df

cómo dejamos caer las filas con al menos un valor Nan (valor nulo)

# importando pandas como pd

importar pandas como pd

# importando numpy como np

importar numpy como np

# Diccionario de listas

dict = {‘First Score’:[100, 90, np.nan, 95],

        “Segunda puntuación”: [30, np.nan, 45, 56],

        “Tercera puntuación”: [52, 40, 80, 98],

        Cuarta puntuación:[np.nan, np.nan, np.nan, 65]}

# creando un marco de datos del diccionario

df = pd.DataFrame(dict)

# usando la función dropna() 

df.dropna()