基于逐层剪枝的中文高频重复模式快速提取算法 标签: 重复串;散列表;低频字串;逐层剪枝;新词识别 为了从大规模语料中快速提取高频重复模式,以递增n-gram模型为基础,使用散列数据结构提取重复串,并提出了一种基于低频字符和层次剪枝的逐层剪枝算法,用于过滤低频垃圾字串,减少I/O读写次数。在此基础上,应用改进的...