如果一個列字符串包含在另一個列字符串中，則使用Python一對多合并兩個數據幀

Question 1

如果來自df1的words列的值包含來自df2的keywords列的值，我有兩個數據幀要合并。我一直在嘗試使用str.extract。但到目前為止，沒有運氣達到預期的結果。示例如下：

df1:

[{'id': 1, 'words': 'chellomedia', 'languages': nan},
 {'id': 2, 'words': 'Moien Welt!', 'languages': 'Luxemburgish'},
 {'id': 3, 'words': 'Ahoj světe!', 'languages': 'Czech'},
 {'id': 4, 'words': 'hello world', 'languages': nan},
 {'id': 5, 'words': '?Hola Mundo!', 'languages': 'Spanish'},
 {'id': 6, 'words': 'hello kitty', 'languages': 'English'},
 {'id': 7, 'words': 'Ciao mondo!', 'languages': 'Italian'},
 {'id': 8, 'words': 'hola world', 'languages': nan}]

df2:

[{'code': 1, 'keywords': 'Hello'},
 {'code': 2, 'keywords': 'hola'},
 {'code': 3, 'keywords': 'world'}]

我的試用代碼：

df1['words'] = df1['words'].str.lower()
df2['keywords'] = df2['keywords'].str.lower()

pat = '|'.join([re.escape(x) for x in df2.keywords])
df1.insert(0, 'keywords', df1['words'].str.extract('(' + pat + ')', expand=False))

pd.merge(df1, df2, on='keywords', how='left')

Out:

  keywords  id         words     languages  code
0    hello   1   chellomedia           NaN   1.0
1      NaN   2   moien welt!  Luxemburgish   NaN
2      NaN   3   ahoj světe!         Czech   NaN
3    hello   4   hello world           NaN   1.0
4     hola   5  ?hola mundo!       Spanish   2.0
5    hello   6   hello kitty       English   1.0
6      NaN   7   ciao mondo!       Italian   NaN
7     hola   8    hola world           NaN   2.0

但是想要的應該是這樣的：

  keywords  id         words     languages  code
0    hello   1   chellomedia           NaN   1.0
1      NaN   2   moien welt!  Luxemburgish   NaN
2      NaN   3   ahoj světe!         Czech   NaN
3    hello   4   hello world           NaN   1.0
4    world   4   hello world           NaN   3.0  ---> should be generated in df
5     hola   5  ?hola mundo!       Spanish   2.0
6    hello   6   hello kitty       English   1.0
7      NaN   7   ciao mondo!       Italian   NaN
8     hola   8    hola world           NaN   2.0
9    world   8    hola world           NaN   3.0  ---> should be generated in df

我如何才能產生預期的結果？謝謝。

Question 2

您必須使用findall和explode來代替extract，例如：

df1.insert(0, 'keywords', df1['words'].str.findall('(' + pat + ')'))
print(pd.merge(df1.explode('keywords'), df2, on='keywords', how='left')
        .sort_values('id').reset_index(drop=True))

Output:

  keywords  id         words     languages  code
0    hello   1   chellomedia           NaN   1.0
1      NaN   2   moien welt!  Luxemburgish   NaN
2      NaN   3   ahoj světe!         Czech   NaN
3    hello   4   hello world           NaN   1.0
4    world   4   hello world           NaN   3.0
5     hola   5  ?hola mundo!       Spanish   2.0
6    hello   6   hello kitty       English   1.0
7      NaN   7   ciao mondo!       Italian   NaN
8    world   8    hola world           NaN   3.0
9     hola   8    hola world           NaN   2.0

與您需要的完全相同：）

Answer 1

您必須使用findall和explode來代替extract，例如：

df1.insert(0, 'keywords', df1['words'].str.findall('(' + pat + ')'))
print(pd.merge(df1.explode('keywords'), df2, on='keywords', how='left')
        .sort_values('id').reset_index(drop=True))

Output:

  keywords  id         words     languages  code
0    hello   1   chellomedia           NaN   1.0
1      NaN   2   moien welt!  Luxemburgish   NaN
2      NaN   3   ahoj světe!         Czech   NaN
3    hello   4   hello world           NaN   1.0
4    world   4   hello world           NaN   3.0
5     hola   5  ?hola mundo!       Spanish   2.0
6    hello   6   hello kitty       English   1.0
7      NaN   7   ciao mondo!       Italian   NaN
8    world   8    hola world           NaN   3.0
9     hola   8    hola world           NaN   2.0

與您需要的完全相同：）

如果一個列字符串包含在另一個列字符串中，則使用Python一對多合并兩個數據幀

熱門問答

Android PdfRenderer-文本搜索

如何對依賴于實例屬性的實例方法進行單元測試？

結合HTML網站和Wordpress

如何將iterable的值轉換為變量名？

如何通過實現可比較的接口來對對象的元素進行排序？

通過將第二個dataframe直接放在第一個dataframe的正下方而不刪除鍵，將兩個具有可伸縮列的dataframes組合起來

C++14中的`std::make_unique`和`std::make_shared`函數有什么作用

使用hashset的時候產生的問題

如何在HTML中使用AJAX和jQuery進行JSON數據的CRUD操作

在devcpp中用C語言編寫程序，題目是從鍵盤上輸入兩個字符串，對兩個字符串分別排序；然后將它們合并，合并后的字符串按ASCII碼值從小到大排序，并刪去相同字符。

這種黑白交接的不規則地方CSS是怎么實現的?

對分組匯總后的結果進行篩選的條件應使用

如果一個列字符串包含在另一個列字符串中，則使用Python一對多合并兩個數據幀

熱門問答

Android PdfRenderer-文本搜索

如何對依賴于實例屬性的實例方法進行單元測試？

結合HTML網站和Wordpress

如何將iterable的值轉換為變量名？

如何通過實現可比較的接口來對對象的元素進行排序？

通過將第二個dataframe直接放在第一個dataframe的正下方而不刪除鍵，將兩個具有可伸縮列的dataframes組合起來

C++14中的`std::make_unique`和`std::make_shared`函數有什么作用

使用hashset的時候產生的問題

如何在HTML中使用AJAX和jQuery進行JSON數據的CRUD操作

在devcpp中用C語言編寫程序，題目是 從鍵盤上輸入兩個字符串，對兩個字符串分別排序；然后將它們合并，合并后的字符串按ASCII碼值從小到大排序，并刪去相同字符。

這種黑白交接的不規則地方CSS是怎么實現的?

對分組匯總后的結果進行篩選的條件應使用

在devcpp中用C語言編寫程序，題目是從鍵盤上輸入兩個字符串，對兩個字符串分別排序；然后將它們合并，合并后的字符串按ASCII碼值從小到大排序，并刪去相同字符。