用keras.preprocessing.text.Tokenizer標(biāo)記中文文本

keras.preprocessing.text.Tokenizer不能正確處理中文文本。如何修改它以處理中文文本?

from keras.preprocessing.text import Tokenizer
def fit_get_tokenizer(data, max_words):
    tokenizer = Tokenizer(num_words=max_words, filters='!"#%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n')
    tokenizer.fit_on_texts(data)
    return tokenizer
tokenizer = fit_get_tokenizer(df.sentence,max_words=150000)
print('Total number of words: ', len(tokenizer.word_index))
vocabulary_inv = {}
for word in tokenizer.word_index:
    vocabulary_inv[tokenizer.word_index[word]] = word
print(vocabulary_inv)
? 最佳回答:

由于我無法在SO中發(fā)布中文文本,我將演示如何使用英語句子,但同樣適用于中文:

import tensorflow as tf
text = ['This is a chinese sentence', 
         'This is another chinese sentence']
tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=50, char_level = False)
tokenizer.fit_on_texts(text)
print(tokenizer.word_index)
{'this': 1, 'is': 2, 'chinese': 3, 'sentence': 4, 'a': 5, 'another': 6}

確保你有一個中文space-separated句子列表,并且應(yīng)該正確。使用列表將導(dǎo)致意外行為。

主站蜘蛛池模板: 后入内射国产一区二区| 日韩精品一区二区三区老鸭窝| 波多野结衣一区二区| 亚洲一区AV无码少妇电影☆| 中文乱码人妻系列一区二区| 少妇无码一区二区二三区| 中文字幕在线精品视频入口一区| 鲁大师成人一区二区三区| 性盈盈影院免费视频观看在线一区| 日韩人妻一区二区三区蜜桃视频| 成人精品一区二区三区不卡免费看 | 国产免费一区二区三区| 久久一区二区精品综合| 国产午夜精品免费一区二区三区 | 无码丰满熟妇一区二区| 色欲综合一区二区三区| 精品无码国产一区二区三区AV| 精品亚洲一区二区| 一区二区中文字幕| 麻豆国产一区二区在线观看 | 不卡无码人妻一区三区音频| 无码日韩人妻AV一区免费l| 一区二区三区高清在线| 中文字幕一区二区视频| 亚洲一区二区三区在线观看精品中文| 久久精品国产一区二区三区| 国产高清精品一区| 中文字幕一区日韩在线视频| 国产伦精品一区二区三区| 骚片AV蜜桃精品一区| 韩国福利一区二区美女视频| 波多野结衣AV一区二区三区中文 | 国产日韩精品视频一区二区三区| 中文字幕日韩一区二区不卡| 在线免费视频一区| 精品国产一区二区22| 91在线一区二区| 秋霞鲁丝片一区二区三区| 美女一区二区三区| 99精品一区二区三区| 无码播放一区二区三区|