Ich versuche, eine kumulative Summe für zwei separate Gruppen zu finden und jede dieser Summen in separaten Spalten aufzulisten.

Hier ist der Datenrahmen, sortiert nach Zeit:

time  group  value
0     A      0
0     B      0
0     A      0
1     A      0
1     B      1
1     B      0
2     B      1
2     A      1
2     A      1
2     A     -1
3     A      0
3     B      1

Dies ist, was ich muss, um Cumsum nach Gruppe zu finden und die Cumsum-Spalte zu erstellen:

df$cumsum <- ave(df$value, df$group, FUN=cumsum)

time  group  value  cumsum
0     A      0      0
0     B      0      0
0     A      0      0
1     A      0      0
1     B      1      1
1     B      0      1
2     B      1      2
2     A      1      1
2     A      1      2
2     A     -1      1
3     A      0      1
3     B      1      3

Wie ist es möglich, die Ergebnisse in zwei Spalten zu trennen, eine für A und eine für B? Wäre es alternativ möglich, einen bedingten Cumsum zu finden? In jedem Fall möchte ich, dass die Ergebnisse folgendermaßen aussehen:

time  group  value  cumsum_A  cumsum_B
0      A      0     0         0
0      B      0     0         0
0      A      0     0         0
1      A      0     0         0
1      B      1     0         1
1      B      0     0         1
2      B      1     0         2
2      A      1     1         2
2      A      1     2         2
2      A     -1     1         2
3      A      0     1         2
3      B      1     1         3

Vielen Dank!

2
Andrew 26 Juni 2019 im 02:26

3 Antworten

Beste Antwort

Sie können zuerst die unique -Werte herausfinden und mit sapply / lapply -Schleife cumsum für jeden von ihnen bedingt berechnen.

unique_val <- unique(df$group)
df[paste0("cumsum_", unique_val)] <- lapply(unique_val, 
                     function(x) cumsum((df$group == x) * df$value))

df
#   time group value cumsum_A cumsum_B
#1     0     A     0        0        0
#2     0     B     0        0        0
#3     0     A     0        0        0
#4     1     A     0        0        0
#5     1     B     1        0        1
#6     1     B     0        0        1
#7     2     B     1        0        2
#8     2     A     1        1        2
#9     2     A     1        2        2
#10    2     A    -1        1        2
#11    3     A     0        1        2
#12    3     B     1        1        3
1
Ronak Shah 26 Juni 2019 im 00:13

Sie können auch if_else verwenden, um value durch 0 zu ersetzen, wenn es nicht wie unten beschrieben zur gewünschten Gruppe gehört. dplyr ist hier nicht erforderlich (benutze base::ifelse und vermeide mutate)

library(tidyverse)
df1 <- structure(list(time = c(0L, 0L, 0L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L), group = c("A", "B", "A", "A", "B", "B", "B", "A", "A", "A", "A", "B"), value = c(0L, 0L, 0L, 0L, 1L, 0L, 1L, 1L, 1L, -1L, 0L, 1L)), class = "data.frame", row.names = c(NA, -12L))
df1 %>%
  mutate(
    cumsum_A = cumsum(if_else(group == "A", value, 0L)),
    cumsum_B = cumsum(if_else(group == "B", value, 0L))
  )
#>    time group value cumsum_A cumsum_B
#> 1     0     A     0        0        0
#> 2     0     B     0        0        0
#> 3     0     A     0        0        0
#> 4     1     A     0        0        0
#> 5     1     B     1        0        1
#> 6     1     B     0        0        1
#> 7     2     B     1        0        2
#> 8     2     A     1        1        2
#> 9     2     A     1        2        2
#> 10    2     A    -1        1        2
#> 11    3     A     0        1        2
#> 12    3     B     1        1        3

Erstellt am 25.06.2019 durch das reprex-Paket (v0.3.0)

1
Calum You 26 Juni 2019 im 01:02

Hier ist eine Option mit table und colCumsums

library(matrixStats)
nm1 <- paste0("cumsum_", unique(df1$group))
df1[nm1] <- colCumsums(table(seq_len(nrow(df1)),df1$group) * df1$value)
df1
#   time group value cumsum_A cumsum_B
#1     0     A     0        0        0
#2     0     B     0        0        0
#3     0     A     0        0        0
#4     1     A     0        0        0
#5     1     B     1        0        1
#6     1     B     0        0        1
#7     2     B     1        0        2
#8     2     A     1        1        2
#9     2     A     1        2        2
#10    2     A    -1        1        2
#11    3     A     0        1        2
#12    3     B     1        1        3

Oder eine andere Option ist model.matrix

colCumsums((model.matrix(~  group -1, df1)) * df1$value)

Oder das model.matrix mit tidyverse

library(tidyverse)
df1 %>%
    model.matrix( ~group - 1, .) %>%
    as_tibble %>% 
    mutate_all(~ cumsum(. * df1$value)) %>% 
    rename_all(~ str_replace(., "group", "cumsum")) %>%
    bind_cols(df1, .)
#    time group value cumsumA cumsumB
#1     0     A     0       0       0
#2     0     B     0       0       0
#3     0     A     0       0       0
#4     1     A     0       0       0
#5     1     B     1       0       1
#6     1     B     0       0       1
#7     2     B     1       0       2
#8     2     A     1       1       2
#9     2     A     1       2       2
#10    2     A    -1       1       2
#11    3     A     0       1       2
#12    3     B     1       1       3

Oder verwenden Sie count zusammen mit spread

df1 %>%
      mutate(rn = row_number()) %>%
      dplyr::count(group, rn) %>% 
      mutate(group = str_c("cumsum", group)) %>%
      spread(group, n, fill = 0) %>% 
      mutate_at(-1, ~ cumsum(. * df1$value)) %>% 
      select(-rn) %>%
      bind_cols(df1, .)

Daten

df1 <- structure(list(time = c(0L, 0L, 0L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 
3L, 3L), group = c("A", "B", "A", "A", "B", "B", "B", "A", "A", 
"A", "A", "B"), value = c(0L, 0L, 0L, 0L, 1L, 0L, 1L, 1L, 1L, 
-1L, 0L, 1L)), class = "data.frame", row.names = c(NA, -12L))
0
akrun 26 Juni 2019 im 00:53