winnowing 算法 -- 提取文档指纹特征_winnowing算法-CSDN博客

网站介绍:文章浏览阅读2.9k次。关于 winnowing 算法的简单的解释就是:基于 k-gram 的哈希码,以最小规则提取部分gram 的哈希码作为文档特征指纹,并记录gram的位置。源码和步骤如下:(1)对文档进行字符标记,比如 "asdf",变成 [(0,"a"),(1,"s"),(2,"d"),(3,"f")]def sanitize(text): """Removes irrelevant featu..._winnowing算法