9 x! f. W8 F, i. K1 y7 Y
一个基本的模型是:统计查询串中可能出现的各个前缀子串,然后统计以各个前缀子串开头的查询串的频率。对各个子串,取以其作为前缀的对应K个最高频查询串。再以各子串为KEY,建立倒排索引。定期更新倒排索引,即可依据查询频率给出一个比较合理的提示内容。 }! L$ F. V. q, L8 H( e" U$ ? 模型并不复杂,但这么做有什么好处,其中包含的频率统计信息有什么意义呢? $ P1 z6 E6 ?; l. V( A" ], ` 来做个简单分析,比如淘宝搜索引擎,一天接收到的查询次数为1000万次,不同的查询串有100万个。通常而言,按查询频率来统计,频率较高的前10%查询词,其被查询的次数会占到总查询次数的近50%。下面用二分图模型来说明这个过程,如图2所示。 ( R y6 d& Z n- ?# _* u1 h