哈希字符串集占用太多内存,建议...?

2022-09-03 12:59:03

我目前正在HashSet中存储一个单词列表(大约120,000个),目的是用作列表来检查引用的单词,以查看它们是否正确拼写,并返回是或否。

我想知道是否有一种方法可以做到这一点,占用更少的内存。目前120,000个单词约为12meg,从中读取单词的实际文件约为900kb。

有什么建议吗?

提前致谢


答案 1

您可以使用前缀树或 trie:http://en.wikipedia.org/wiki/Trie


答案 2

查看布隆过滤器或布谷鸟哈希。绽放过滤器还是布谷鸟散列?

我不确定这是否是您问题的答案,但值得研究这些替代方案。布隆过滤器主要用于拼写检查器类型的用例。