Кадр данных является структурой табличных данных. Обычно, это содержит данные, где строки являются наблюдениями, и столбцы являются переменными различных типов. В то время как "кадр данных" или "кадр данных" являются термином, использованным для этого понятия на нескольких языках (R, Spark Apache, deedle, Клен, библиотека панд в Python и библиотека DataFrames в Julia), "таблица" является термином, использованным в MATLAB и SQL.
Кадр данных является структурой табличных данных. Обычно, это содержит данные, где строки являются наблюдениями, и столбцы являются переменными различных типов. В то время как кадр данных или кадр данных являются термином, использованным для этого понятия на нескольких языках (R, Spark Apache, deedle, Клен, библиотека панд в Python и библиотека DataFrames в Julia), таблица является термином, использованным в MATLAB и SQL.
Разделы ниже соответствуют каждому языку, который использует этот термин и нацелен на уровень аудитории, только знакомой с данным языком.
data.frame
в RКадры данных (класс объекта data.frame
) одна из основных структур табличных данных на языке R, вместе с матрицами. В отличие от матриц, каждый столбец может быть различным типом данных. С точки зрения реализации кадр данных является a list
из векторов - столбцов равной длины.
Ввести ?data.frame
для справки, создающей кадр данных. Пример:
data.frame( x = letters[1:5], y = 1:5, z = (1:5) > 3 ) # x y z # 1 a 1 FALSE # 2 b 2 FALSE # 3 c 3 FALSE # 4 d 4 TRUE # 5 e 5 TRUE
Связанные функции включают is.data.frame
, который тестирует, является ли объект a data.frame
; и as.data.frame
, который принуждает много других структур данных к data.frame
(посредством отправки S3 посмотрите ?S3
). base
r data.frame
s были расширены или изменены для создания новых структур данных несколькими пакетами R, включая data.table и tibble. Для дополнительных материалов для чтения см. абзац на Кадрах данных в ручном Введении CRAN к R
Библиотека панд в Python является канонической платформой табличных данных на стеке SciPy, и DataFrame является своим двумерным объектом данных. Это - в основном прямоугольная антенная решетка как 2D numpy ndarray, но со связанными индексами на каждой оси, которая может использоваться для выравнивания. Как в R, с точки зрения реализации, столбцы несколько расположены по приоритетам по строкам: DataFrame напоминает словарь с именами столбцов как ключи и Ряд (одномерная структура данных панд) как значения.
После импорта numpy и панд под обычными псевдонимами (import numpy as np
, import pandas as pd
), мы можем создать DataFrame несколькими способами, такими как передача словаря имен столбцов и значений:
>>> pd.DataFrame({"x": list("abcde"), "y": range(1,6), "z": np.arange(1,6) > 3}) x y z 0 a 1 False 1 b 2 False 2 c 3 False 3 d 4 True 4 e 5 True
Spark DataFrame является распределенным набором данных, организованных в именованные столбцы. Это концептуально эквивалентно таблице в реляционной базе данных или кадру данных в R/Python, но с более богатой оптимизацией под капотом. DataFrames может быть создан из огромного количества источников, таких как: файлы структурированных данных, таблицы в Hive, внешних базах данных или существующем RDDs. (источник)
DataFrame является одной из структур основных данных в Клене. Кадры данных являются списком переменных, известных как DataSeries, которые отображены в прямоугольной сетке. Каждый столбец (переменная) в DataFrame имеет ту же длину, однако, каждая переменная может иметь другой тип, такой как целое число, плавание, строка, имя, булевская переменная, и т.д.
Когда распечатано, Кадры данных напоминают матрицы, в которых они просматриваются как прямоугольная сетка, но основное отличие - то, что первая строка соответствует столбцу (переменные) имена, и первый столбец соответствует строке (отдельные) имена. Они располагают в ряд, и столбцы рассматривают как метаинформацию заголовка и не являются частью данных. Кроме того, к данным, хранившим в DataFrame, можно получить доступ с помощью этих названий заголовка, а также по стандарту пронумерованный индекс. Для получения дополнительной информации см. Руководство по DataFrames в Справке Программирования Клена онлайн.