常见的分词工具有jieHnL、NLR、THL、IK nlyzer。值得一提的是,大多分词工具也支持自定义词典。对于垂直搜索引擎而言,结合分词工具和自定义词典切分自然语言十分方便。 通过使用分词工具,我们可以将qery可切分为“hoyng”、“两居”、“二手房”个Token。 纠错 纠错Qery orretion是预处理中的重要流程之一,通过对用户输入的qery进行修正或重写,提高搜索结果的精准度。纠错一般包括以下几种方法:拼写检查、词典纠错、基于上下文纠错、机器学习、深度学习等方法。
房产搜索引擎主要使用拼写检查、基于词典纠错等方法。,主要采用HMM、SeqSeq、Trnsrmer、ointer-Genertor Networks等模型进行改写生成。另外,ERT的应用也是不错的选择,在工业界被广泛应用。 根据纠错规则,此处将qery处理为“朝阳 约旦电话数据 两居二手房”。 扩展 扩展Exnsion一般指对用户的qery进行扩展,以便召回更多符合用户需求的数据。扩展通常有以下方法: 同义词扩展:将查询词中的同近义词进行转换或替换。
如用户输入“北京九号线”可将词语扩展至“国家图书馆”、“郭公庄”等沿线站点; 模糊匹配扩展:对查询词进行模糊匹配,用来纠正潜在的拼写或语法错误相关词扩展。如对于“橡树”可扩展至“橡树湾”; 根据查询词的内容和上下文:添加相关的查询词或属性,以扩展搜索结果。对于用户输入“学区房”可将其扩展为包括标题“xx学校”的检索结果; 基于用户画像的扩展:根据用户的历史搜索行为、兴趣偏好、地理位置等上下文信息,扩展用户查询词,以更好地匹配搜索结果。