對(duì)不起,如果這是一個(gè)不切實(shí)際的問(wèn)題。我搜索過(guò)并看到過(guò)關(guān)于消除噪聲信號(hào)的類似問(wèn)題,但我不明白答案,也不確定它是否適用于我的問(wèn)題。我只有一點(diǎn)點(diǎn)正式的信號(hào)處理經(jīng)驗(yàn)。
在這種情況下,我有一個(gè)時(shí)間序列,它是我一年中每天的用氣量。我擁有的其他時(shí)間序列是我所在位置的最高和最低觀測(cè)溫度,單位為度。
似乎有一個(gè)明顯的相關(guān)性,即隨著溫度的下降,天然氣的使用量增加。
我有煤氣爐和煤氣熱水器。我想做的是在therms中找到每天的基線使用量,沒(méi)有隨溫度波動(dòng)的部分。我假設(shè)與溫度相關(guān)的波動(dòng)主要是熔爐,剩下的是熱水器。我知道熱水器也會(huì)隨著外界溫度的變化而波動(dòng),但我認(rèn)為這是一個(gè)正常的分析。
我研究了numpy和pandas中的相關(guān)函數(shù),并做了如下工作:
corr_coef = all_data_df['USAGE'].corr(all_data_df['TMIN'])
corr_coef
-0.86344...
then
all_data_df['USAGE'] - corr_coef * all_data_df['TMIN']
DATE
2020-09-01 51.139755
2020-09-02 52.003199
2020-09-03 51.139755
2020-09-04 50.276311
2020-09-05 52.866643
...
2021-08-27 52.866643
2021-08-28 54.396976
2021-08-29 50.943199
2021-08-30 50.266311
2021-08-31 51.129755
但單位似乎更多的是在溫度范圍內(nèi),而不是在溫度范圍內(nèi),這就是我所希望的。在進(jìn)行減法或相關(guān)運(yùn)算之前,是否需要將單位縮放為相似的?
有沒(méi)有更好的方法通過(guò)不同的分析來(lái)實(shí)現(xiàn)這一點(diǎn)?還是我錯(cuò)了,我可以將基線與溫度相關(guān)波動(dòng)隔離開(kāi)來(lái)?
我更喜歡一個(gè)能告訴我為什么的答案,而不僅僅是“如果可以的話怎么做:)
Thanks
這與其說(shuō)是編程問(wèn)題,不如說(shuō)是數(shù)據(jù)問(wèn)題。你必須決定如何計(jì)算“溫度貢獻(xiàn)”。最簡(jiǎn)單的方法是對(duì)溫度進(jìn)行回歸。因?yàn)橛衜ax和min,所以可能需要對(duì)這兩種類型的溫度進(jìn)行多線性回歸。一旦你從回歸中得到了系數(shù),你可以用它們來(lái)計(jì)算溫度的線性貢獻(xiàn),然后從使用中減去它。如果你想更喜歡,你可以看看線性模型以外的模型。
將自變量乘以相關(guān)系數(shù)不是正確的程序。DO是把r當(dāng)作線性系數(shù)處理,但相關(guān)系數(shù)與線性系數(shù)有很大的不同。前者是自變量對(duì)因變量變化的“解釋”程度的度量,而后者是一個(gè)“轉(zhuǎn)換因子”,給出因變量因自變量單位變化而變化的程度。基本上,r告訴您數(shù)據(jù)點(diǎn)圍繞一條直線聚集的程度,而線性系數(shù)告訴您最佳擬合線的斜率。