Кадр данных является структурой табличных данных. Обычно, это содержит данные, где строки являются наблюдениями, и столбцы являются переменными различных типов. В то время как "кадр данных" или "кадр данных" являются термином, использованным для этого понятия на нескольких языках (R, Spark Apache, deedle, Клен, библиотека панд в Python и библиотека DataFrames в Julia), "таблица" является термином, использованным в MATLAB и SQL.

Кадр данных является структурой табличных данных. Обычно, это содержит данные, где строки являются наблюдениями, и столбцы являются переменными различных типов. В то время как кадр данных или кадр данных являются термином, использованным для этого понятия на нескольких языках (R, Spark Apache, deedle, Клен, библиотека панд в Python и библиотека DataFrames в Julia), таблица является термином, использованным в MATLAB и SQL.

Разделы ниже соответствуют каждому языку, который использует этот термин и нацелен на уровень аудитории, только знакомой с данным языком.

data.frame в R

Кадры данных (класс объекта data.frame) одна из основных структур табличных данных на языке R, вместе с матрицами. В отличие от матриц, каждый столбец может быть различным типом данных. С точки зрения реализации кадр данных является a list из векторов - столбцов равной длины.

Ввести ?data.frame для справки, создающей кадр данных. Пример:

data.frame( x = letters[1:5], y = 1:5, z = (1:5) > 3 ) # x y z # 1 a 1 FALSE # 2 b 2 FALSE # 3 c 3 FALSE # 4 d 4 TRUE # 5 e 5 TRUE 

Связанные функции включают is.data.frame, который тестирует, является ли объект a data.frame; и as.data.frame, который принуждает много других структур данных к data.frame (посредством отправки S3 посмотрите ?S3). base data.frames были расширены или изменены для создания новых структур данных несколькими пакетами R, включая и . Для дополнительных материалов для чтения см. абзац на Кадрах данных в ручном Введении CRAN к R


DataFrame в библиотеке панд Python

Библиотека панд в Python является канонической платформой табличных данных на стеке SciPy, и DataFrame является своим двумерным объектом данных. Это - в основном прямоугольная антенная решетка как 2D numpy ndarray, но со связанными индексами на каждой оси, которая может использоваться для выравнивания. Как в R, с точки зрения реализации, столбцы несколько расположены по приоритетам по строкам: DataFrame напоминает словарь с именами столбцов как ключи и Ряд (одномерная структура данных панд) как значения.

После импорта numpy и панд под обычными псевдонимами (import numpy as np, import pandas as pd), мы можем создать DataFrame несколькими способами, такими как передача словаря имен столбцов и значений:

>>> pd.DataFrame({"x": list("abcde"), "y": range(1,6), "z": np.arange(1,6) > 3}) x y z 0 a 1 False 1 b 2 False 2 c 3 False 3 d 4 True 4 e 5 True 

DataFrame в Spark Apache

Spark DataFrame является распределенным набором данных, организованных в именованные столбцы. Это концептуально эквивалентно таблице в реляционной базе данных или кадру данных в R/Python, но с более богатой оптимизацией под капотом. DataFrames может быть создан из огромного количества источников, таких как: файлы структурированных данных, таблицы в Hive, внешних базах данных или существующем RDDs. (источник)


DataFrame в клене

DataFrame является одной из структур основных данных в Клене. Кадры данных являются списком переменных, известных как DataSeries, которые отображены в прямоугольной сетке. Каждый столбец (переменная) в DataFrame имеет ту же длину, однако, каждая переменная может иметь другой тип, такой как целое число, плавание, строка, имя, булевская переменная, и т.д.

Когда распечатано, Кадры данных напоминают матрицы, в которых они просматриваются как прямоугольная сетка, но основное отличие - то, что первая строка соответствует столбцу (переменные) имена, и первый столбец соответствует строке (отдельные) имена. Они располагают в ряд, и столбцы рассматривают как метаинформацию заголовка и не являются частью данных. Кроме того, к данным, хранившим в DataFrame, можно получить доступ с помощью этих названий заголовка, а также по стандарту пронумерованный индекс. Для получения дополнительной информации см. Руководство по DataFrames в Справке Программирования Клена онлайн.