根據(jù)PySpark或Pandas中的垂直（非水平）平均值或總和篩選DataFrame的列（非行）

Question 1

data = [[12, 112, 14],
        [120, 112, 114],
        [88, 92, 74],
        [17, 118, 133],
        [19, 19, 14],
        [11, 12, 14]]
columns = ['Subject_1', 'Subject_2', 'Subject_3']
dataframe = spark.createDataFrame(data, columns)
dataframe.show()
# +---------+---------+---------+
# |Subject_1|Subject_2|Subject_3|
# +---------+---------+---------+
# |       12|      112|       14|
# |      120|      112|      114|
# |       88|       92|       74|
# |       17|      118|      133|
# |       19|       19|       14|
# |       11|       12|       14|
# +---------+---------+---------+

考慮一下，一所學(xué)校只想在表現(xiàn)最好的地方發(fā)布學(xué)科。

如何擁有一個DF2，使DF2只有dataframe中的幾列，這樣主題：

平均分?jǐn)?shù)大于閾值

鑒于科目太多，平均分?jǐn)?shù)為75分及以上

按平均分?jǐn)?shù)的升序?qū)α羞M(jìn)行排序

考慮PySpark和Pandas DataFrame。

Question 2

使用這個dataframe.。。

from pyspark.sql import functions as F
data = [[12, 112, 14, 15, 100],
        [120, 112, 114, 17, 87],
        [88, 92, 74, 76, 11],
        [17, 118, 133, 99, 51],
        [19, 19, 14, 54, 48],
        [11, 12, 14, 75, 60]]
columns = ['Subject_1', 'Subject_2', 'Subject_3', 'Subject_4', 'Subject_5']
df = spark.createDataFrame(data, columns)

這就是平均值的樣子：

df_avg = df.agg(*[F.avg(c).alias(c) for c in df.columns])
df_avg.show()
# +---------+---------+---------+---------+---------+
# |Subject_1|Subject_2|Subject_3|Subject_4|Subject_5|
# +---------+---------+---------+---------+---------+
# |     44.5|     77.5|     60.5|     56.0|     59.5|
# +---------+---------+---------+---------+---------+

按平均分?jǐn)?shù)的升序?qū)α羞M(jìn)行排序

d = df.agg(*[F.avg(c).alias(c) for c in df.columns]).head().asDict()
df = df.select(*sorted(d, key=d.get, reverse=False))
df.show()
# +---------+---------+---------+---------+---------+
# |Subject_1|Subject_4|Subject_5|Subject_3|Subject_2|
# +---------+---------+---------+---------+---------+
# |       12|       15|      100|       14|      112|
# |      120|       17|       87|      114|      112|
# |       88|       76|       11|       74|       92|
# |       17|       99|       51|      133|      118|
# |       19|       54|       48|       14|       19|
# |       11|       75|       60|       14|       12|
# +---------+---------+---------+---------+---------+

平均分?jǐn)?shù)大于閾值

threshold = 58
d = df.agg(*[F.avg(c).alias(c) for c in df.columns]).head().asDict()
df = df.select([k for k, v in d.items() if v >= threshold])
df.show()
# +---------+---------+---------+
# |Subject_2|Subject_3|Subject_5|
# +---------+---------+---------+
# |      112|       14|      100|
# |      112|      114|       87|
# |       92|       74|       11|
# |      118|      133|       51|
# |       19|       14|       48|
# |       12|       14|       60|
# +---------+---------+---------+

平均分?jǐn)?shù)為75分及以上

import numpy as np

d = df.agg(*[F.avg(c).alias(c) for c in df.columns]).head().asDict()
perc_75 = np.percentile(list(d.values()), 75)
df = df.select([k for k, v in d.items() if v >= perc_75])
df.show()
# +---------+---------+
# |Subject_2|Subject_3|
# +---------+---------+
# |      112|       14|
# |      112|      114|
# |       92|       74|
# |      118|      133|
# |       19|       14|
# |       12|       14|
# +---------+---------+

Pandas:

按平均分?jǐn)?shù)的升序?qū)α羞M(jìn)行排序

df[df.mean().sort_values(ascending=True).index]

平均分?jǐn)?shù)大于閾值

threshold = 58
df[df.mean()[lambda x: x >= threshold].index]

平均分?jǐn)?shù)為75分及以上

perc_75 = df.mean().quantile(.75)
df[df.mean()[lambda x: x >= perc_75].index]

Answer 1

使用這個dataframe.。。

from pyspark.sql import functions as F
data = [[12, 112, 14, 15, 100],
        [120, 112, 114, 17, 87],
        [88, 92, 74, 76, 11],
        [17, 118, 133, 99, 51],
        [19, 19, 14, 54, 48],
        [11, 12, 14, 75, 60]]
columns = ['Subject_1', 'Subject_2', 'Subject_3', 'Subject_4', 'Subject_5']
df = spark.createDataFrame(data, columns)

這就是平均值的樣子：

df_avg = df.agg(*[F.avg(c).alias(c) for c in df.columns])
df_avg.show()
# +---------+---------+---------+---------+---------+
# |Subject_1|Subject_2|Subject_3|Subject_4|Subject_5|
# +---------+---------+---------+---------+---------+
# |     44.5|     77.5|     60.5|     56.0|     59.5|
# +---------+---------+---------+---------+---------+

按平均分?jǐn)?shù)的升序?qū)α羞M(jìn)行排序

d = df.agg(*[F.avg(c).alias(c) for c in df.columns]).head().asDict()
df = df.select(*sorted(d, key=d.get, reverse=False))
df.show()
# +---------+---------+---------+---------+---------+
# |Subject_1|Subject_4|Subject_5|Subject_3|Subject_2|
# +---------+---------+---------+---------+---------+
# |       12|       15|      100|       14|      112|
# |      120|       17|       87|      114|      112|
# |       88|       76|       11|       74|       92|
# |       17|       99|       51|      133|      118|
# |       19|       54|       48|       14|       19|
# |       11|       75|       60|       14|       12|
# +---------+---------+---------+---------+---------+

平均分?jǐn)?shù)大于閾值

threshold = 58
d = df.agg(*[F.avg(c).alias(c) for c in df.columns]).head().asDict()
df = df.select([k for k, v in d.items() if v >= threshold])
df.show()
# +---------+---------+---------+
# |Subject_2|Subject_3|Subject_5|
# +---------+---------+---------+
# |      112|       14|      100|
# |      112|      114|       87|
# |       92|       74|       11|
# |      118|      133|       51|
# |       19|       14|       48|
# |       12|       14|       60|
# +---------+---------+---------+

平均分?jǐn)?shù)為75分及以上

import numpy as np

d = df.agg(*[F.avg(c).alias(c) for c in df.columns]).head().asDict()
perc_75 = np.percentile(list(d.values()), 75)
df = df.select([k for k, v in d.items() if v >= perc_75])
df.show()
# +---------+---------+
# |Subject_2|Subject_3|
# +---------+---------+
# |      112|       14|
# |      112|      114|
# |       92|       74|
# |      118|      133|
# |       19|       14|
# |       12|       14|
# +---------+---------+

Pandas:

按平均分?jǐn)?shù)的升序?qū)α羞M(jìn)行排序

df[df.mean().sort_values(ascending=True).index]

平均分?jǐn)?shù)大于閾值

threshold = 58
df[df.mean()[lambda x: x >= threshold].index]

平均分?jǐn)?shù)為75分及以上

perc_75 = df.mean().quantile(.75)
df[df.mean()[lambda x: x >= perc_75].index]

根據(jù)PySpark或Pandas中的垂直（非水平）平均值或總和篩選DataFrame的列（非行）

熱門問答

MissingManifestResourceException:在程序集中嵌入的資源中找不到資源“YYY”

React：.map函數(shù)的值與字符串值匹配時，如何返回帶有按鈕的表

Tkinter Game ValueError

`在ggstatsplot中提供非有限值

在同一y記號內(nèi)打印多個水平條

將值轉(zhuǎn)換為javascript數(shù)組

Cakephp 2.X不支持postgresql ltree運算符'？' 喜歡“l(fā)tree？ lquery []”

go中將{"param":"built_in_mode","version":"6","combination":"{\"platformtype\":[\"ibox\"],\"cpu_manufacture\":[\"amd\"]}","value":"123456","dataSource":"rtc_ota_gray"}轉(zhuǎn)為json并獲取數(shù)據(jù)

C++制作的登錄系統(tǒng)在判斷用戶名與密碼時出錯，以下是代碼，應(yīng)該怎樣解決？

如何在php上設(shè)置rd聯(lián)系表單？

自己寫了一個紅包生成算法可以正確生成缺無法遞歸出來？

前端調(diào)用后端接口示例

根據(jù)PySpark或Pandas中的垂直（非水平）平均值或總和篩選DataFrame的列（非行）

熱門問答

MissingManifestResourceException:在程序集中嵌入的資源中找不到資源“YYY”

React：.map函數(shù)的值與字符串值匹配時，如何返回帶有按鈕的表

Tkinter Game ValueError

`在ggstatsplot中提供非有限值

在同一y記號內(nèi)打印多個水平條

將值轉(zhuǎn)換為javascript數(shù)組

Cakephp 2.X不支持postgresql ltree運算符'？' 喜歡“l(fā)tree？ lquery []”

go中將{"param":"built_in_mode","version":"6","combination":"{\"platformtype\":[\"ibox\"],\"cpu_manufacture\":[\"amd\"]}","value":"123456","dataSource":"rtc_ota_gray"}轉(zhuǎn)為json并獲取數(shù)據(jù)

C++制作的登錄系統(tǒng)在判斷用戶名與密碼時出錯，以下是代碼，應(yīng)該怎樣解決？

如何在php上設(shè)置rd聯(lián)系表單？

自己寫了一個紅包生成算法 可以正確生成 缺無法遞歸出來？

前端調(diào)用后端接口示例

自己寫了一個紅包生成算法可以正確生成缺無法遞歸出來？