Как легко распределять строки с повторяющимися именами? [dубликат]

Question 1

Документация для tidyr предполагает, что сбор и распространение транзитивны, но следующий пример с данными «iris» показывает, что это не так, но непонятно, почему. Любое разъяснение было бы с благодарностью

iris.df = as.data.frame(iris)
long.iris.df = iris.df %>% gather(key = feature.measure, value = size, -Species)
w.iris.df = long.iris.df %>% spread(key = feature.measure, value = size, -Species)

Я ожидал, что кадр данных «w.iris.df» будет таким же, как «iris.df», но вместо этого получил следующую ошибку:

«Ошибка: повторяющиеся идентификаторы для строк (1, 2, 3, 4, 5, 6, 7, 8, 9 ...»

Мой общий вопрос: как отменить приложение «собирать «на таком наборе данных.

Question 2

вмешательство Хэдли было неудивительно совершенным ... но я закончил тем, что немного сработал с синтаксисом после этого ... так что для чего это стоит, я публикую полностью действующий код (извините, мой синтаксис немного отличается от выше):

library(tidyr)
library(dplyr)

wide <- 
  iris %>%
  mutate(row = row_number()) %>%
  gather(vars, val, -Species, -row) %>%
  spread(vars, val)

head(wide)
#   Species row Petal.Length Petal.Width Sepal.Length Sepal.Width
# 1  setosa   1          1.4         0.2          5.1         3.5
# 2  setosa   2          1.4         0.2          4.9         3.0
# 3  setosa   3          1.3         0.2          4.7         3.2
# 4  setosa   4          1.5         0.2          4.6         3.1
# 5  setosa   5          1.4         0.2          5.0         3.6
# 6  setosa   6          1.7         0.4          5.4         3.9

head(iris)
# Sepal.Length Sepal.Width Petal.Length Petal.Width Species
# 1          5.1         3.5          1.4         0.2  setosa
# 2          4.9         3.0          1.4         0.2  setosa
# 3          4.7         3.2          1.3         0.2  setosa
# 4          4.6         3.1          1.5         0.2  setosa
# 5          5.0         3.6          1.4         0.2  setosa
# 6          5.4         3.9          1.7         0.4  setosa

Они одинаковы ... просто нужно переупорядочить, если у вас это похоже ...

wide <- wide[,c(3, 4, 5, 6, 1)]  ## Reorder and then remove "row" column

и сделано.

David Arenburg · Answer 1 · 15 August 2018 в 16:41

вмешательство Хэдли было неудивительно совершенным ... но я закончил тем, что немного сработал с синтаксисом после этого ... так что для чего это стоит, я публикую полностью действующий код (извините, мой синтаксис немного отличается от выше):

library(tidyr)
library(dplyr)

wide <- 
  iris %>%
  mutate(row = row_number()) %>%
  gather(vars, val, -Species, -row) %>%
  spread(vars, val)

head(wide)
#   Species row Petal.Length Petal.Width Sepal.Length Sepal.Width
# 1  setosa   1          1.4         0.2          5.1         3.5
# 2  setosa   2          1.4         0.2          4.9         3.0
# 3  setosa   3          1.3         0.2          4.7         3.2
# 4  setosa   4          1.5         0.2          4.6         3.1
# 5  setosa   5          1.4         0.2          5.0         3.6
# 6  setosa   6          1.7         0.4          5.4         3.9

head(iris)
# Sepal.Length Sepal.Width Petal.Length Petal.Width Species
# 1          5.1         3.5          1.4         0.2  setosa
# 2          4.9         3.0          1.4         0.2  setosa
# 3          4.7         3.2          1.3         0.2  setosa
# 4          4.6         3.1          1.5         0.2  setosa
# 5          5.0         3.6          1.4         0.2  setosa
# 6          5.4         3.9          1.7         0.4  setosa

Они одинаковы ... просто нужно переупорядочить, если у вас это похоже ...

wide <- wide[,c(3, 4, 5, 6, 1)]  ## Reorder and then remove "row" column

и сделано.

Как легко распределять строки с повторяющимися именами? [dубликат]

1 ответ

Другие вопросы по тегам:

Похожие вопросы: