在列表上實現正則表達式函數時出錯

Question 1

我試圖在python中的語法標記列表上實現正則表達式，以查找語法列表的時態形式。我寫了下面的代碼來實現它。

Data preprocessing:

from nltk import word_tokenize, pos_tag
import nltk

text = "He will have been doing his homework." 

tokenized = word_tokenize(text)
tagged = pos_tag(tokenized)
tags = []
for i in range(len(tagged)):
    t = tagged[i]
    tags.append(t[1])
print(tags)

regex公式，即待實施

grammar = r"""
Future_Perfect_Continuous: {<MD><VB><VBN><VBG>}
Future_Continuous:         {<MD><VB><VBG>}
Future_Perfect:            {<MD><VB><VBN>}
Past_Perfect_Continuous:   {<VBD><VBN><VBG>}
Present_Perfect_Continuous:{<VBP|VBZ><VBN><VBG>}
Future_Indefinite:         {<MD><VB>}
Past_Continuous:           {<VBD><VBG>}
Past_Perfect:              {<VBD><VBN>}
Present_Continuous:        {<VBZ|VBP><VBG>}
Present_Perfect:           {<VBZ|VBP><VBN>}
Past_Indefinite:           {<VBD>}
Present_Indefinite:        {<VBZ>|<VBP>}

函數實現列表上的正則表達式tags

def check_grammar(grammar, tags):
    cp = nltk.RegexpParser(grammar)
    result = cp.parse(tags)
    print(result)
    result.draw()
 
check_grammar(grammar, tags)

但它返回了一個錯誤：

Traceback (most recent call last):
  File "/home/samar/Desktop/twitter_tense/main.py", line 35, in <module>
    check_grammar(grammar, tags)
  File "/home/samar/Desktop/twitter_tense/main.py", line 31, in check_grammar
    result = cp.parse(tags)
  File "/home/samar/.local/lib/python3.8/site-packages/nltk/chunk/regexp.py", line 1276, in parse
    chunk_struct = parser.parse(chunk_struct, trace=trace)
  File "/home/samar/.local/lib/python3.8/site-packages/nltk/chunk/regexp.py", line 1083, in parse
    chunkstr = ChunkString(chunk_struct)
  File "/home/samar/.local/lib/python3.8/site-packages/nltk/chunk/regexp.py", line 95, in __init__
    tags = [self._tag(tok) for tok in self._pieces]
  File "/home/samar/.local/lib/python3.8/site-packages/nltk/chunk/regexp.py", line 95, in <listcomp>
    tags = [self._tag(tok) for tok in self._pieces]
  File "/home/samar/.local/lib/python3.8/site-packages/nltk/chunk/regexp.py", line 105, in _tag
    raise ValueError("chunk structures must contain tagged " "tokens or trees")
ValueError: chunk structures must contain tagged tokens or trees

Question 2

您對cp.parse()函數的調用期望語句中的每個標記都被標記，但是，您創建的tags列表只包含標記，而不包含標記，因此您的ValueError。解決方案是將pos_tag()調用（即tagged）的輸出傳遞給您的check_grammar調用。

Solution

from nltk import word_tokenize, pos_tag
import nltk

text = "He will have been doing his homework." 
tokenized = word_tokenize(text)
tagged = pos_tag(tokenized)
print(tagged)
# Output
>>> [('He', 'PRP'), ('will', 'MD'), ('have', 'VB'), ('been', 'VBN'), ('doing', 'VBG'), ('his', 'PRP$'), ('homework', 'NN'), ('.', '.')]

my_grammar = r"""
Future_Perfect_Continuous: {<MD><VB><VBN><VBG>}
Future_Continuous:         {<MD><VB><VBG>}
Future_Perfect:            {<MD><VB><VBN>}
Past_Perfect_Continuous:   {<VBD><VBN><VBG>}
Present_Perfect_Continuous:{<VBP|VBZ><VBN><VBG>}
Future_Indefinite:         {<MD><VB>}
Past_Continuous:           {<VBD><VBG>}
Past_Perfect:              {<VBD><VBN>}
Present_Continuous:        {<VBZ|VBP><VBG>}
Present_Perfect:           {<VBZ|VBP><VBN>}
Past_Indefinite:           {<VBD>}
Present_Indefinite:        {<VBZ>|<VBP>}"""


def check_grammar(grammar, tags):
    cp = nltk.RegexpParser(grammar)
    result = cp.parse(tags)
    print(result)
    result.draw()


check_grammar(my_grammar, tagged)

Output

>>> (S
>>>   He/PRP
>>>   (Future_Perfect_Continuous will/MD have/VB been/VBN doing/VBG)
>>>   his/PRP$
>>>   homework/NN
>>>   ./.)

Answer 1

您對cp.parse()函數的調用期望語句中的每個標記都被標記，但是，您創建的tags列表只包含標記，而不包含標記，因此您的ValueError。解決方案是將pos_tag()調用（即tagged）的輸出傳遞給您的check_grammar調用。

Solution

from nltk import word_tokenize, pos_tag
import nltk

text = "He will have been doing his homework." 
tokenized = word_tokenize(text)
tagged = pos_tag(tokenized)
print(tagged)
# Output
>>> [('He', 'PRP'), ('will', 'MD'), ('have', 'VB'), ('been', 'VBN'), ('doing', 'VBG'), ('his', 'PRP$'), ('homework', 'NN'), ('.', '.')]

my_grammar = r"""
Future_Perfect_Continuous: {<MD><VB><VBN><VBG>}
Future_Continuous:         {<MD><VB><VBG>}
Future_Perfect:            {<MD><VB><VBN>}
Past_Perfect_Continuous:   {<VBD><VBN><VBG>}
Present_Perfect_Continuous:{<VBP|VBZ><VBN><VBG>}
Future_Indefinite:         {<MD><VB>}
Past_Continuous:           {<VBD><VBG>}
Past_Perfect:              {<VBD><VBN>}
Present_Continuous:        {<VBZ|VBP><VBG>}
Present_Perfect:           {<VBZ|VBP><VBN>}
Past_Indefinite:           {<VBD>}
Present_Indefinite:        {<VBZ>|<VBP>}"""


def check_grammar(grammar, tags):
    cp = nltk.RegexpParser(grammar)
    result = cp.parse(tags)
    print(result)
    result.draw()


check_grammar(my_grammar, tagged)

Output

>>> (S
>>>   He/PRP
>>>   (Future_Perfect_Continuous will/MD have/VB been/VBN doing/VBG)
>>>   his/PRP$
>>>   homework/NN
>>>   ./.)

在列表上實現正則表達式函數時出錯

Solution

Output

熱門問答

如何使用SQL（BigQuery）將一串數字相加？

YARP路徑配置中的{catch-all}和{remain}以及{**any}之間有什么區別？

在向上滑動面板flutter的面板中讀取數據

查找數組中最大和最小數字的索引

在平面頂部繪制立方體，給定立方體的所有頂點

Postgresql REPEATABLE READ可以在事務開始后看到提交的數據（在其他事務開始并提交之前不執行任何操作）

開源 Java框架可以在線瀏覽器打開office、PDF、DWG 圖紙、RVT、NWD、IFC

如何利用VBA在Excel中創建交互式用戶表單

Java中有哪些最佳實踐可以確保高效地處理大量的地理坐標數據

如何在ggplot2中添加擬合線，比如線性回歸或LOESS擬合

axios post傳參沒有key怎么辦

下列方法不適用于字符串的是

在列表上實現正則表達式函數時出錯

Solution

Output

熱門問答

如何使用SQL（BigQuery）將一串數字相加？

YARP路徑配置中的{**catch-all}和{**remain}以及{**any}之間有什么區別？

在向上滑動面板flutter的面板中讀取數據

查找數組中最大和最小數字的索引

在平面頂部繪制立方體，給定立方體的所有頂點

Postgresql REPEATABLE READ可以在事務開始后看到提交的數據（在其他事務開始并提交之前不執行任何操作）

開源 Java框架 可以在線瀏覽器打開office、PDF、DWG 圖紙、RVT、NWD、IFC

如何利用VBA在Excel中創建交互式用戶表單

Java中有哪些最佳實踐可以確保高效地處理大量的地理坐標數據

如何在ggplot2中添加擬合線，比如線性回歸或LOESS擬合

axios post傳參沒有key怎么辦

下列方法不適用于字符串的是

YARP路徑配置中的{catch-all}和{remain}以及{**any}之間有什么區別？

開源 Java框架可以在線瀏覽器打開office、PDF、DWG 圖紙、RVT、NWD、IFC