Pandas DataFrame – это двумерная масштабируемая, потенциально гетерогенная табличная структура данных с маркированными осями (строками и столбцами). Рамка данных – это двумерная структура данных, т.е. данные выравниваются в табличной форме в строках и столбцах. Pandas DataFrame состоит из трех основных компонентов – данных, строк и столбцов.
Создание Pandas DataFrame
В действительности, Pandas DataFrame будет создан путем стекирования наборов данных из существующих запасов, складирование может быть базой данных SQL, записью CSV и документом “Превышение ожиданий”. Pandas DataFrame может быть выполнен из сводок, словарных ссылок и лексики и так далее. Датафрейм может быть сделан в различных манерах здесь несколько различных способов, с помощью которых мы делаем фрейм данных:
Создание фрейма данных с помощью Rundown: DataFrame можно сделать, используя единственный скандал или скандал записей.
# импорт панд как pd
импортировать панд как p
# список строк
lst = [‘Geeks”, ‘For’, ‘Geeks’, ‘is”,
“Портал”, “за”, “Чокнутые”]
# Вызов конструктора DataFrame в списке
df = pd.DataFrame(lst)
печать(df)
Создание DataFrame из dict of ndarray/ записей: Чтобы сделать DataFrame из dict of indarray/list, все повествование должно быть одинаковой длины. При случайной передаче этого файла, в этот момент список длин должен быть эквивалентен длине экспонатов. При выключенной вероятности, что никакая запись не будет передана, в этой точке, конечно же, файл будет иметь диапазон(n), где n – длина кластера.
# Код на питоне демонстрирует создание
# DataFrame из дикторского повествования / списков
# По умолчанию адреса.
импортировать панд как pd
# инициализируйте данные списков.
data = {‘Name’:[‘Tom’, ‘nick’, ‘krish’, ‘jack’],
“Возраст”:[20, 21, 19, 18]]
# Создать DataFrame
df = pd.DataFrame(data)
# Печатайте вывод.
печать(df)
Информационный контур – это двумерная информационная структура, т.е. информация в строках и сечениях корректируется запрещенным образом. Мы можем выполнять фундаментальные действия с линиями/сегментами, такие как выбор, стирание, включение и переименование.
Выбор сегмента: Чтобы выбрать участок в Pandas DataFrame, мы можем либо добраться до сегментов, назвав их по имени сегмента.
# Импорт пакета панд
импортировать панд в виде pd
# Определите словарь, содержащий данные о сотрудниках.
данные = {‘Имя”:[‘Джай’, ‘Принцип’, ‘Гаурав’, ‘Анудж’],
“Возраст”:[27, 24, 22, 32],
Адрес: [“Дели”, “Канпур”, “Аллахабад”, “Каннаудж”],
Квалификация: [‘Msc’, ‘MA’, ‘MCA’, ‘Phd’]]
# Преобразуйте словарь в DataFrame.
df = pd.DataFrame(данные)
# выберите две колонки
print(df[[‘Name’, ‘Qualification’]])
Выбор ряда: Панды обеспечивают уникальный метод извлечения рядов из фрейма данных. Метод DataFrame.loc[] используется для извлечения строк из DataFrame Пандаса. Строки также могут быть выбраны путем передачи целочисленного местоположения в функцию iloc[].
Замечание: В следующих примерах мы будем использовать файл nba.csv.
# импорт пакета pandas
импортировать панд в виде pd
# создание фрейма данных из csv-файла
data = pd.read_csv(“nba.csv”, index_col = “Имя”)
# извлечение строки методом локализации
first = data.loc[“Эйвери Брэдли”]
второй = data.loc[“R.J. Hunter”]
print(first, “\n\n\n”, second)
Выход:
Индексирование и выбор данных
Индексирование в пандах означает лишь выбор конкретных строк и разделов информации из DataFrame. Порядок может означать выбор каждой из линий и части отрезков, части линий и всего отрезка, или части каждой из линий и отрезков. Порядок может быть также известен как Subset Choice (Выбор подмножества).
Выбор отдельных столбцов
Для того, чтобы выбрать один столбец, мы просто помещаем название столбца между скобками.
# импорт пакета панд
импортировать панд в виде pd
# создание фрейма данных из csv-файла
data = pd.read_csv(“nba.csv”, index_col = “Имя”)
# извлечение колонок оператором индексирования
first = data[“Возраст”]
печать(первая)
Выход:
Индексирование DataFrame с помощью .loc[ ]
Эта емкость выбирает информацию по названию линий и сегментов. Индексатор df.loc выбирает информацию неожиданным образом по сравнению с простым администратором заказа. Он может выбирать подмножества линий или сегментов. Одновременно он может выбирать подмножества линий и сегментов.
Выбор одной строки
Для того, чтобы выбрать одну строку с помощью .loc[], мы помещаем метку одной строки в функцию .loc.
# импорт пакета панд
импортировать панд в виде pd
# создание фрейма данных из csv-файла
data = pd.read_csv(“nba.csv”, index_col = “Имя”)
# извлечение строки методом локализации
первый = data.loc[“Эйвери Брэдли”] второй = data.loc[“Р.Джей Хантер”]
print(first, “\n\n\n”, second)
Выход:
Как показано на выходном изображении, были возвращены две серии, так как в обоих случаях был только один параметр.
Индексирование DataFrame с использованием .iloc[ ] :
Эта возможность позволяет восстанавливать линии и сечения по позициям. Для этого нам нужно указать нужные нам места линий, а также места нужных нам сегментов. Индексатор df.iloc по своей сути такой же, как и df.loc, но использует только числовые области, чтобы сделать свой выбор.
Для того, чтобы выбрать одну строку с помощью .iloc[], мы можем передать одно целое число в функцию .iloc[].
импортировать панд как pd
# создание фрейма данных из csv-файла
data = pd.read_csv(“nba.csv”, index_col = “Имя”)
# извлечение строк методом iloc
row2 = data.iloc[3]
Пропущенная информация может произойти в том случае, если в ней не содержится никакой информации, по крайней мере, об одной вещи или о целой единице измерения. Пропущенная информация – это очень большая проблема, на самом деле, ситуация. Пропущенная информация может также упоминаться как ценности АН (недоступные) у панд.
# импорт панд как pd
импортировать панд в виде pd
# импорт numpy as np
импорт онемелый как пшт
# словарь списков
dict = {‘First Score’:[100, 90, np.nan, 95],
“Второй балл”: [30, 45, 56, np.nan],
“Третий балл”: [np.nan, 40, 80, 98]]
# создание кадра данных из списка
df = pd.DataFrame(dict)
# используя функцию isnull()
df.isnull()
Проверка отсутствующих качеств с помощью isnull() и notnull() :
Чтобы проверить недостающие качества в Pandas DataFrame, мы используем isnull() и notnull(). Оба вида работы помогают проверить, является ли ценность NaN или нет. Эти возможности также могут быть использованы в Pandas Arrangement для обнаружения недействительных качеств в компоновке.
# импорт панд как pd
импортировать панд в виде pd
# импорт numpy as np
импорт онемелый как пшт
# словарь списков
dict = {‘First Score’:[100, 90, np.nan, 95],
“Второй балл”: [30, 45, 56, np.nan],
“Третий балл”: [np.nan, 40, 80, 98]]
# создание кадра данных из словаря
df = pd.DataFrame(dict)
# заполнение недостающего значения с помощью fillna()
df.fillna(0)
Заполнение недостающих качеств с помощью fillna(), supplant() и introduce() :
Чтобы заполнить недействительные качества в наборе данных, мы используем fillna(), supplant() и add(), работая с этими емкостями, вытесняющими NaN-оценки с некоторой собственной оценкой. Все эти возможности помогают заполнить неправильные оценки в наборах данных DataFrame. Работа функции Introduce() в основном используется для заполнения оценок NA в фрейме данных, но она использует различные системы добавления для заполнения недостающих качеств в отличие от жесткого кодирования.
# импорт панд как pd
импортировать панд в виде pd
# импорт numpy as np
импорт онемелый как пшт
# словарь списков
dict = {‘First Score’:[100, 90, np.nan, 95],
“Второй балл”: [30, np.nan, 45, 56],
“Третий балл”:[52, 40, 80, 98],
Четвертая оценка: [np.nan, np.nan, np.nan, 65]}
# создание кадра данных из словаря
df = pd.DataFrame(dict)
df
мы опускаем строки с хотя бы одним значением Nan (Null value).
# импорт панд как pd
импортировать панд в виде pd
# импорт numpy as np
импорт онемелый как пшт
# словарь списков
dict = {‘First Score’:[100, 90, np.nan, 95],
“Второй балл”: [30, np.nan, 45, 56],
“Третий балл”:[52, 40, 80, 98],
Четвертая оценка: [np.nan, np.nan, np.nan, 65]}
# создание кадра данных из словаря
df = pd.DataFrame(dict)
# используя функцию dropna()
df.dropna()