亚洲男人在线,日本在线视频毛片,好男人社区在线播放

我有一個非常大的Cassandra表，現在我有了spark-Cassandra與以下代碼的連接。

import pandas as pd
import numpy as np
from pyspark import *
import os
from pyspark.sql import SQLContext


os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages  com.datastax.spark:spark-cassandra-connector_2.12:3.0.1 --conf spark.cassandra.connection.host=127.0.0.1 pyspark-shell'
conf = SparkConf().set("spark.cassandra.connection.host", "127.0.0.1").set("spark.cassandra.connection.port", "9042").setAppName("Sentinel").setMaster("spark://Local:7077")
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)

table_df = sqlContext.read\
        .format("org.apache.spark.sql.cassandra")\
        .options(table='movies', keyspace='movie_lens')\
        .load()\

主鍵是Movie_id，它是一個整數。load（）將整個表加載到內存中，這是我要避免的。我得到的一個方法是使用過濾器

table_df = sqlContext.read\
        .format("org.apache.spark.sql.cassandra")\
        .options(table='movies', keyspace='movie_lens')\
        .load()\
        .filter("movie_id = 37032")

但過濾器是否真的阻止了將整個表加載到內存中？或者先加載然后過濾。另外，我還要查詢很多身份證。假設我需要1000個身份證，每天都在換。那怎么辦呢？

發布于 7 月前

? 最佳回答：

是的，如果您在分區鍵上進行查詢，Spark Cassandra連接器將執行so-called“謂詞下推”，并且將僅從特定查詢加載數據（.load函數將只加載元數據，實際的數據加載將在您確實需要數據來執行操作時第一次發生）。關于Spark-Cassandra連接器中何時發生謂詞下推，有很好的文檔規則。您還可以通過運行table_df.explain()來檢查這一點，并為標有星號*的過濾器查找PushedFilters部分。

如果您需要查找多個id，那么您可以使用.isin過濾器，但不建議使用Cassandra。最好用IDs創建一個dataframe，并用cassandradataframe執行so-called直接連接（自從scc2.5用于dataframes，或者更早用于RDDs以來，它就可用了）。我在卡桑德拉有一篇關于加入數據的博文

Spark Cassandra，如何基于查詢獲取數據

熱門問答

如何檢查Xerces DOMDocument是否為NULL/nullptr？

使用python將新值添加到JSON中的特定位置

“應該”和“提高”最終分數計算之間的區別是什么？

在發送HTTP請求時，是否有任何方法可以用值更新變量

如何使TypeScript elide星形/通配符導入只能在類型上下文中使用？

等待vs然后-訪問返回值

獲取el-table中的el-input輸入的值并添加到綁定的數組中

請問PHP批量操作數據插入性能如何優化，附目前代碼

在Android開發過程中，如何用Java處理外部存儲上的文件變更

補充代碼 initiate(); cin >> group; for(i=0; i<group; i++) { for(j=0; j<100; j++) // 一個時段采樣數據入隊 { cin >> data; if(data>=0.05 && data<=9.99) enqueue(data); } // delay(50); _sleep(50); // 延時，模擬時間分段 average = 0.0;

python爬蟲問題

對話框,確認,刪除,文檔怎么弄

Spark Cassandra，如何基于查詢獲取數據