data = [[12, 112, 14],
[120, 112, 114],
[88, 92, 74],
[17, 118, 133],
[19, 19, 14],
[11, 12, 14]]
columns = ['Subject_1', 'Subject_2', 'Subject_3']
dataframe = spark.createDataFrame(data, columns)
dataframe.show()
# +---------+---------+---------+
# |Subject_1|Subject_2|Subject_3|
# +---------+---------+---------+
# | 12| 112| 14|
# | 120| 112| 114|
# | 88| 92| 74|
# | 17| 118| 133|
# | 19| 19| 14|
# | 11| 12| 14|
# +---------+---------+---------+
考慮一下,一所學(xué)校只想在表現(xiàn)最好的地方發(fā)布學(xué)科。
如何擁有一個DF2
,使DF2
只有dataframe
中的幾列,這樣主題:
平均分?jǐn)?shù)大于閾值
鑒于科目太多,平均分?jǐn)?shù)為75分及以上
按平均分?jǐn)?shù)的升序?qū)α羞M(jìn)行排序
考慮PySpark和Pandas DataFrame。
使用這個dataframe.。。
這就是平均值的樣子:
Pandas: