Документация для tidyr предполагает, что сбор и распространение транзитивны, но следующий пример с данными «iris» показывает, что это не так, но непонятно, почему. Любое разъяснение было бы с благодарностью
iris.df = as.data.frame(iris)
long.iris.df = iris.df %>% gather(key = feature.measure, value = size, -Species)
w.iris.df = long.iris.df %>% spread(key = feature.measure, value = size, -Species)
Я ожидал, что кадр данных «w.iris.df» будет таким же, как «iris.df», но вместо этого получил следующую ошибку:
«Ошибка: повторяющиеся идентификаторы для строк (1, 2, 3, 4, 5, 6, 7, 8, 9 ...»Мой общий вопрос: как отменить приложение «собирать «на таком наборе данных.
вмешательство Хэдли было неудивительно совершенным ... но я закончил тем, что немного сработал с синтаксисом после этого ... так что для чего это стоит, я публикую полностью действующий код (извините, мой синтаксис немного отличается от выше):
library(tidyr)
library(dplyr)
wide <-
iris %>%
mutate(row = row_number()) %>%
gather(vars, val, -Species, -row) %>%
spread(vars, val)
head(wide)
# Species row Petal.Length Petal.Width Sepal.Length Sepal.Width
# 1 setosa 1 1.4 0.2 5.1 3.5
# 2 setosa 2 1.4 0.2 4.9 3.0
# 3 setosa 3 1.3 0.2 4.7 3.2
# 4 setosa 4 1.5 0.2 4.6 3.1
# 5 setosa 5 1.4 0.2 5.0 3.6
# 6 setosa 6 1.7 0.4 5.4 3.9
head(iris)
# Sepal.Length Sepal.Width Petal.Length Petal.Width Species
# 1 5.1 3.5 1.4 0.2 setosa
# 2 4.9 3.0 1.4 0.2 setosa
# 3 4.7 3.2 1.3 0.2 setosa
# 4 4.6 3.1 1.5 0.2 setosa
# 5 5.0 3.6 1.4 0.2 setosa
# 6 5.4 3.9 1.7 0.4 setosa
Они одинаковы ... просто нужно переупорядочить, если у вас это похоже ...
wide <- wide[,c(3, 4, 5, 6, 1)] ## Reorder and then remove "row" column
и сделано.