这个文件处理成一个用字典树(trie)或者B树存储的结构,然后就可以快速查询了。
前面说得可能太抽象,给你一个容易实现的算法吧。效率虽然比trie/b-tree略低,但是也很够用。
预处理
1. 遍历这个文件,记录每行的offset记录下来,作为int的数组。
2. 对这个数组进行间接排序。注意,所谓间接,指的是排序时比较的是这个数组元素指向的行。
3. 将这个数组保存起来(17w个int,也就不到700KB,随便什么地方保存)。
查询
1. 读取这个数组。
2. 使用"间接"二分查找。注意,查找时比较的是对应行的前n个字符,n == strlen(a)。
如果看不懂这个算法的话,那就洗洗睡吧。