как получить количество строк каждой группы в пандах после groupby [duplicate]

Question 1

У меня был ответ здесь. Я хотел отметить его как правильный ответ, но он был удален (автором ответа?). Ответ был обходным решением проблемы. Я собираюсь повторить это ниже. Возможно, это может помочь кому-то еще:

Масштабирование частоты процессора работает после добавления acpi=off к параметрам загрузки ядра, но есть недостаток: только 1 процессорное ядро.

Чтобы иметь все ядра и частоту масштабирования CPU, нужно понизить ядро до 4.1.26. http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.26-wily/.

В качестве примечания: с помощью этой версии ядра у меня были некоторые проблемы с драйвером WiFi (b43). Он не загружается автоматически NetworkManager, но его необходимо загружать вручную в rc.local.

Question 2

Мы можем легко сделать это, используя groupby и count. Но мы должны помнить об использовании функции reset_index ().

df[['col1','col2','col3','col4']].groupby(['col1','col2']).count().\
reset_index()

Question 3

Question 4

Быстрый ответ:

Самый простой способ получить количество строк для каждой группы - это вызвать .size(), который возвращает Series:

df.groupby(['col1','col2']).size()

Обычно вы хотите, чтобы это в качестве DataFrame (вместо Series), чтобы вы могли:

df.groupby(['col1', 'col2']).size().reset_index(name='counts')

Если вы хотите узнать, как вычислить количество строк и другое статистика для каждой группы продолжает читать ниже.

Подробный пример:

Рассмотрим следующий пример dataframe:

In [2]: df
Out[2]: 
  col1 col2  col3  col4  col5  col6
0    A    B  0.20 -0.61 -0.49  1.49
1    A    B -1.53 -1.01 -0.39  1.82
2    A    B -0.44  0.27  0.72  0.11
3    A    B  0.28 -1.32  0.38  0.18
4    C    D  0.12  0.59  0.81  0.66
5    C    D -0.13 -1.65 -1.64  0.50
6    C    D -1.42 -0.11 -0.18 -0.44
7    E    F -0.00  1.42 -0.26  1.17
8    E    F  0.91 -0.47  1.35 -0.34
9    G    H  1.48 -0.63 -1.14  0.17

Сначала давайте использовать .size(), чтобы получить строку counts:

In [3]: df.groupby(['col1', 'col2']).size()
Out[3]: 
col1  col2
A     B       4
C     D       3
E     F       2
G     H       1
dtype: int64

Затем давайте использовать .size().reset_index(name='counts'), чтобы получить количество строк:

In [4]: df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Out[4]: 
  col1 col2  counts
0    A    B       4
1    C    D       3
2    E    F       2
3    G    H       1

Включая результаты для получения дополнительной статистики

Когда вы хотите рассчитать статистику по сгруппированным данным, она обычно выглядит так:

In [5]: (df
   ...: .groupby(['col1', 'col2'])
   ...: .agg({
   ...:     'col3': ['mean', 'count'], 
   ...:     'col4': ['median', 'min', 'count']
   ...: }))
Out[5]: 
            col4                  col3      
          median   min count      mean count
col1 col2                                   
A    B    -0.810 -1.32     4 -0.372500     4
C    D    -0.110 -1.65     3 -0.476667     3
E    F     0.475 -0.47     2  0.455000     2
G    H    -0.630 -0.63     1  1.480000     1

. Результат выше немного раздражает, потому что из-за вложенных столбцов, а также потому, что количество строк подсчитывается по столбцу.

Чтобы получить больше контроля над выходом, я обычно разбиваю статистику на отдельные агрегации, которые затем объединяю с помощью join. Это выглядит так:

In [6]: gb = df.groupby(['col1', 'col2'])
   ...: counts = gb.size().to_frame(name='counts')
   ...: (counts
   ...:  .join(gb.agg({'col3': 'mean'}).rename(columns={'col3': 'col3_mean'}))
   ...:  .join(gb.agg({'col4': 'median'}).rename(columns={'col4': 'col4_median'}))
   ...:  .join(gb.agg({'col4': 'min'}).rename(columns={'col4': 'col4_min'}))
   ...:  .reset_index()
   ...: )
   ...: 
Out[6]: 
  col1 col2  counts  col3_mean  col4_median  col4_min
0    A    B       4  -0.372500       -0.810     -1.32
1    C    D       3  -0.476667       -0.110     -1.65
2    E    F       2   0.455000        0.475     -0.47
3    G    H       1   1.480000       -0.630     -0.63

Сноски

Код, используемый для генерации тестовых данных, показан ниже: [ ! d22]

In [1]: import numpy as np
   ...: import pandas as pd 
   ...: 
   ...: keys = np.array([
   ...:         ['A', 'B'],
   ...:         ['A', 'B'],
   ...:         ['A', 'B'],
   ...:         ['A', 'B'],
   ...:         ['C', 'D'],
   ...:         ['C', 'D'],
   ...:         ['C', 'D'],
   ...:         ['E', 'F'],
   ...:         ['E', 'F'],
   ...:         ['G', 'H'] 
   ...:         ])
   ...: 
   ...: df = pd.DataFrame(
   ...:     np.hstack([keys,np.random.randn(10,4).round(2)]), 
   ...:     columns = ['col1', 'col2', 'col3', 'col4', 'col5', 'col6']
   ...: )
   ...: 
   ...: df[['col3', 'col4', 'col5', 'col6']] = \
   ...:     df[['col3', 'col4', 'col5', 'col6']].astype(float)
   ...:

Отказ от ответственности:

Если некоторые из столбцов, которые вы агрегируете, имеют нулевые значения, вы действительно хотите смотреть на количество строк в группе как независимое агрегирование для каждого столбца. В противном случае вы можете ввести в заблуждение относительно того, сколько записей фактически используется для вычисления таких вещей, как среднее, потому что панды будут отбрасывать записи NaN в среднем вычислении, не сообщая вам об этом.

Nimesh · Answer 1 · 15 August 2018 в 16:08

Мы можем легко сделать это, используя groupby и count. Но мы должны помнить об использовании функции reset_index ().

df[['col1','col2','col3','col4']].groupby(['col1','col2']).count().\
reset_index()

3

ответ дан Nimesh 15 August 2018 в 16:08

1

Это решение работает до тех пор, пока в столбцах нет нулевого значения, в противном случае оно может вводить в заблуждение (количество будет меньше фактического числа наблюдений по группам). – Adrien Pacifico 9 July 2018 в 03:59

Pedro M Duarte · Answer 2 · 15 August 2018 в 16:08

Быстрый ответ:

Самый простой способ получить количество строк для каждой группы - это вызвать .size(), который возвращает Series:

df.groupby(['col1','col2']).size()

Обычно вы хотите, чтобы это в качестве DataFrame (вместо Series), чтобы вы могли:

df.groupby(['col1', 'col2']).size().reset_index(name='counts')

Если вы хотите узнать, как вычислить количество строк и другое статистика для каждой группы продолжает читать ниже.

Подробный пример:

Рассмотрим следующий пример dataframe:

In [2]: df
Out[2]: 
  col1 col2  col3  col4  col5  col6
0    A    B  0.20 -0.61 -0.49  1.49
1    A    B -1.53 -1.01 -0.39  1.82
2    A    B -0.44  0.27  0.72  0.11
3    A    B  0.28 -1.32  0.38  0.18
4    C    D  0.12  0.59  0.81  0.66
5    C    D -0.13 -1.65 -1.64  0.50
6    C    D -1.42 -0.11 -0.18 -0.44
7    E    F -0.00  1.42 -0.26  1.17
8    E    F  0.91 -0.47  1.35 -0.34
9    G    H  1.48 -0.63 -1.14  0.17

Сначала давайте использовать .size(), чтобы получить строку counts:

In [3]: df.groupby(['col1', 'col2']).size()
Out[3]: 
col1  col2
A     B       4
C     D       3
E     F       2
G     H       1
dtype: int64

Затем давайте использовать .size().reset_index(name='counts'), чтобы получить количество строк:

In [4]: df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Out[4]: 
  col1 col2  counts
0    A    B       4
1    C    D       3
2    E    F       2
3    G    H       1

Включая результаты для получения дополнительной статистики

Когда вы хотите рассчитать статистику по сгруппированным данным, она обычно выглядит так:

In [5]: (df
   ...: .groupby(['col1', 'col2'])
   ...: .agg({
   ...:     'col3': ['mean', 'count'], 
   ...:     'col4': ['median', 'min', 'count']
   ...: }))
Out[5]: 
            col4                  col3      
          median   min count      mean count
col1 col2                                   
A    B    -0.810 -1.32     4 -0.372500     4
C    D    -0.110 -1.65     3 -0.476667     3
E    F     0.475 -0.47     2  0.455000     2
G    H    -0.630 -0.63     1  1.480000     1

. Результат выше немного раздражает, потому что из-за вложенных столбцов, а также потому, что количество строк подсчитывается по столбцу.

Чтобы получить больше контроля над выходом, я обычно разбиваю статистику на отдельные агрегации, которые затем объединяю с помощью join. Это выглядит так:

In [6]: gb = df.groupby(['col1', 'col2'])
   ...: counts = gb.size().to_frame(name='counts')
   ...: (counts
   ...:  .join(gb.agg({'col3': 'mean'}).rename(columns={'col3': 'col3_mean'}))
   ...:  .join(gb.agg({'col4': 'median'}).rename(columns={'col4': 'col4_median'}))
   ...:  .join(gb.agg({'col4': 'min'}).rename(columns={'col4': 'col4_min'}))
   ...:  .reset_index()
   ...: )
   ...: 
Out[6]: 
  col1 col2  counts  col3_mean  col4_median  col4_min
0    A    B       4  -0.372500       -0.810     -1.32
1    C    D       3  -0.476667       -0.110     -1.65
2    E    F       2   0.455000        0.475     -0.47
3    G    H       1   1.480000       -0.630     -0.63

Сноски

Код, используемый для генерации тестовых данных, показан ниже: [ ! d22]

In [1]: import numpy as np
   ...: import pandas as pd 
   ...: 
   ...: keys = np.array([
   ...:         ['A', 'B'],
   ...:         ['A', 'B'],
   ...:         ['A', 'B'],
   ...:         ['A', 'B'],
   ...:         ['C', 'D'],
   ...:         ['C', 'D'],
   ...:         ['C', 'D'],
   ...:         ['E', 'F'],
   ...:         ['E', 'F'],
   ...:         ['G', 'H'] 
   ...:         ])
   ...: 
   ...: df = pd.DataFrame(
   ...:     np.hstack([keys,np.random.randn(10,4).round(2)]), 
   ...:     columns = ['col1', 'col2', 'col3', 'col4', 'col5', 'col6']
   ...: )
   ...: 
   ...: df[['col3', 'col4', 'col5', 'col6']] = \
   ...:     df[['col3', 'col4', 'col5', 'col6']].astype(float)
   ...:

Отказ от ответственности:

Если некоторые из столбцов, которые вы агрегируете, имеют нулевые значения, вы действительно хотите смотреть на количество строк в группе как независимое агрегирование для каждого столбца. В противном случае вы можете ввести в заблуждение относительно того, сколько записей фактически используется для вычисления таких вещей, как среднее, потому что панды будут отбрасывать записи NaN в среднем вычислении, не сообщая вам об этом.

Эй, мне очень нравится ваше решение, особенно последнее, где вы используете цепочку методов. Однако, поскольку часто необходимо применять различные функции агрегации для разных столбцов, можно также конкатформировать полученные кадры данных с помощью pd.concat. Это, возможно, легче читать, чем подзарядная цепочка — Quickbeam2k1, 17 August 2016 в 14:26
Хорошее решение, но для In [5]: counts_df = pd.DataFrame(df.groupby('col1').size().rename('counts')), возможно, лучше установить size () в качестве нового столбца, если вы хотите манипулировать файловой рамкой для дальнейшего анализа, который должен быть counts_df = pd.DataFrame(df.groupby('col1').size().reset_index(name='counts') — LancelotHolmes, 28 February 2017 в 06:35
Спасибо за «Включая результаты для получения дополнительной статистики». немного! Поскольку мой следующий поиск состоял в том, чтобы сгладить результирующий мультииндекс на столбцах, я свяжусь с ответом здесь: stackoverflow.com/a/50558529/1026 — Nickolay, 28 May 2018 в 11:17

как получить количество строк каждой группы в пандах после groupby [duplicate]

2 ответа

Быстрый ответ:

Подробный пример:

Включая результаты для получения дополнительной статистики

Сноски

Другие вопросы по тегам:

Похожие вопросы: