Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Pandas DataFrame – это двумерная масштабируемая, потенциально гетерогенная табличная структура данных с маркированными осями (строками и столбцами). Рамка данных – это двумерная структура данных, т.е. данные выравниваются в табличной форме в строках и столбцах. Pandas DataFrame состоит из трех основных компонентов – данных, строк и столбцов.

Создание Pandas DataFrame

В действительности, Pandas DataFrame будет создан путем стекирования наборов данных из существующих запасов, складирование может быть базой данных SQL, записью CSV и документом “Превышение ожиданий”. Pandas DataFrame может быть выполнен из сводок, словарных ссылок и лексики и так далее. Датафрейм может быть сделан в различных манерах здесь несколько различных способов, с помощью которых мы делаем фрейм данных:

Создание фрейма данных с помощью Rundown: DataFrame можно сделать, используя единственный скандал или скандал записей.

# импорт панд как pd

импортировать панд как p

# список строк

lst = [‘Geeks”, ‘For’, ‘Geeks’, ‘is”,

“Портал”, “за”, “Чокнутые”]

# Вызов конструктора DataFrame в списке

df = pd.DataFrame(lst)

печать(df)

Создание DataFrame из dict of ndarray/ записей: Чтобы сделать DataFrame из dict of indarray/list, все повествование должно быть одинаковой длины. При случайной передаче этого файла, в этот момент список длин должен быть эквивалентен длине экспонатов. При выключенной вероятности, что никакая запись не будет передана, в этой точке, конечно же, файл будет иметь диапазон(n), где n – длина кластера.

# Код на питоне демонстрирует создание

# DataFrame из дикторского повествования / списков

# По умолчанию адреса.

импортировать панд как pd

# инициализируйте данные списков.

data = {‘Name’:[‘Tom’, ‘nick’, ‘krish’, ‘jack’],

“Возраст”:[20, 21, 19, 18]]

# Создать DataFrame

df = pd.DataFrame(data)

# Печатайте вывод.

печать(df)

Информационный контур – это двумерная информационная структура, т.е. информация в строках и сечениях корректируется запрещенным образом. Мы можем выполнять фундаментальные действия с линиями/сегментами, такие как выбор, стирание, включение и переименование.

Выбор сегмента: Чтобы выбрать участок в Pandas DataFrame, мы можем либо добраться до сегментов, назвав их по имени сегмента.

# Импорт пакета панд

импортировать панд в виде pd

# Определите словарь, содержащий данные о сотрудниках.

данные = {‘Имя”:[‘Джай’, ‘Принцип’, ‘Гаурав’, ‘Анудж’],

“Возраст”:[27, 24, 22, 32],

Адрес: [“Дели”, “Канпур”, “Аллахабад”, “Каннаудж”],

Квалификация: [‘Msc’, ‘MA’, ‘MCA’, ‘Phd’]]

# Преобразуйте словарь в DataFrame.

df = pd.DataFrame(данные)

# выберите две колонки

print(df[[‘Name’, ‘Qualification’]])

Выбор ряда: Панды обеспечивают уникальный метод извлечения рядов из фрейма данных. Метод DataFrame.loc[] используется для извлечения строк из DataFrame Пандаса. Строки также могут быть выбраны путем передачи целочисленного местоположения в функцию iloc[].

Замечание: В следующих примерах мы будем использовать файл nba.csv.

# импорт пакета pandas

импортировать панд в виде pd

# создание фрейма данных из csv-файла

data = pd.read_csv(“nba.csv”, index_col = “Имя”)

# извлечение строки методом локализации

first = data.loc[“Эйвери Брэдли”]

второй = data.loc[“R.J. Hunter”]

print(first, “\n\n\n”, second)

Выход:

Индексирование и выбор данных

Индексирование в пандах означает лишь выбор конкретных строк и разделов информации из DataFrame. Порядок может означать выбор каждой из линий и части отрезков, части линий и всего отрезка, или части каждой из линий и отрезков. Порядок может быть также известен как Subset Choice (Выбор подмножества).

Выбор отдельных столбцов

Для того, чтобы выбрать один столбец, мы просто помещаем название столбца между скобками.

# импорт пакета панд

импортировать панд в виде pd

# создание фрейма данных из csv-файла

data = pd.read_csv(“nba.csv”, index_col = “Имя”)

# извлечение колонок оператором индексирования

first = data[“Возраст”]

печать(первая)

Выход:

Индексирование DataFrame с помощью .loc[ ]

Эта емкость выбирает информацию по названию линий и сегментов. Индексатор df.loc выбирает информацию неожиданным образом по сравнению с простым администратором заказа. Он может выбирать подмножества линий или сегментов. Одновременно он может выбирать подмножества линий и сегментов.

Выбор одной строки

Для того, чтобы выбрать одну строку с помощью .loc[], мы помещаем метку одной строки в функцию .loc.

# импорт пакета панд

импортировать панд в виде pd

# создание фрейма данных из csv-файла

data = pd.read_csv(“nba.csv”, index_col = “Имя”)

# извлечение строки методом локализации

первый = data.loc[“Эйвери Брэдли”] второй = data.loc[“Р.Джей Хантер”]

print(first, “\n\n\n”, second)

Выход:

Как показано на выходном изображении, были возвращены две серии, так как в обоих случаях был только один параметр.

Индексирование DataFrame с использованием .iloc[ ] :

Эта возможность позволяет восстанавливать линии и сечения по позициям. Для этого нам нужно указать нужные нам места линий, а также места нужных нам сегментов. Индексатор df.iloc по своей сути такой же, как и df.loc, но использует только числовые области, чтобы сделать свой выбор.

Для того, чтобы выбрать одну строку с помощью .iloc[], мы можем передать одно целое число в функцию .iloc[].

импортировать панд как pd

# создание фрейма данных из csv-файла

data = pd.read_csv(“nba.csv”, index_col = “Имя”)

# извлечение строк методом iloc

row2 = data.iloc[3]

Пропущенная информация может произойти в том случае, если в ней не содержится никакой информации, по крайней мере, об одной вещи или о целой единице измерения. Пропущенная информация – это очень большая проблема, на самом деле, ситуация. Пропущенная информация может также упоминаться как ценности АН (недоступные) у панд.

# импорт панд как pd

импортировать панд в виде pd

# импорт numpy as np

импорт онемелый как пшт

# словарь списков

dict = {‘First Score’:[100, 90, np.nan, 95],

“Второй балл”: [30, 45, 56, np.nan],

“Третий балл”: [np.nan, 40, 80, 98]]

# создание кадра данных из списка

df = pd.DataFrame(dict)

# используя функцию isnull()

df.isnull()

Проверка отсутствующих качеств с помощью isnull() и notnull() :

Чтобы проверить недостающие качества в Pandas DataFrame, мы используем isnull() и notnull(). Оба вида работы помогают проверить, является ли ценность NaN или нет. Эти возможности также могут быть использованы в Pandas Arrangement для обнаружения недействительных качеств в компоновке.

# импорт панд как pd

импортировать панд в виде pd

# импорт numpy as np

импорт онемелый как пшт

# словарь списков

dict = {‘First Score’:[100, 90, np.nan, 95],

“Второй балл”: [30, 45, 56, np.nan],

“Третий балл”: [np.nan, 40, 80, 98]]

# создание кадра данных из словаря

df = pd.DataFrame(dict)

# заполнение недостающего значения с помощью fillna()

df.fillna(0)

Заполнение недостающих качеств с помощью fillna(), supplant() и introduce() :

Чтобы заполнить недействительные качества в наборе данных, мы используем fillna(), supplant() и add(), работая с этими емкостями, вытесняющими NaN-оценки с некоторой собственной оценкой. Все эти возможности помогают заполнить неправильные оценки в наборах данных DataFrame. Работа функции Introduce() в основном используется для заполнения оценок NA в фрейме данных, но она использует различные системы добавления для заполнения недостающих качеств в отличие от жесткого кодирования.

# импорт панд как pd

импортировать панд в виде pd

# импорт numpy as np

импорт онемелый как пшт

# словарь списков

dict = {‘First Score’:[100, 90, np.nan, 95],

“Второй балл”: [30, np.nan, 45, 56],

“Третий балл”:[52, 40, 80, 98],

Четвертая оценка: [np.nan, np.nan, np.nan, 65]}

# создание кадра данных из словаря

df = pd.DataFrame(dict)

df

мы опускаем строки с хотя бы одним значением Nan (Null value).

# импорт панд как pd

импортировать панд в виде pd

# импорт numpy as np

импорт онемелый как пшт

# словарь списков

dict = {‘First Score’:[100, 90, np.nan, 95],

“Второй балл”: [30, np.nan, 45, 56],

“Третий балл”:[52, 40, 80, 98],

Четвертая оценка: [np.nan, np.nan, np.nan, 65]}

# создание кадра данных из словаря

df = pd.DataFrame(dict)

# используя функцию dropna()

df.dropna()