互联网搜索广告技能升级版,赶紧get起来
来源(广告买卖网) 作者() 阅读() 时间(2015/7/24 10:03:55)
(二)归一化
为什么不拿着用户的搜索词,直接去查询(keyword, ad)的索引呢?因为用户的搜索词千变万化,由于计算机性能的限制,我们不可能对所有的搜索词建立到竞价的广告的倒排索引。很多搜索词,虽然形式不一样,但是他们代表的用户意图可能是一样的。用户输入的查询多种多样,在搜索引擎有限的计算能力和存储资源下,不可能对每一个原始的用户查询串建立倒排索引。
为了解决这种问题,就引出了归一化的方法,归一化原本是统计学中概念,这里是指把用户搜索词(查询串)和广告主的买词(竞价词),转化到一个搜索引擎内部的检索词典里。归一化是一个多对一的关系,即好几个搜索词,对应的归一化词可能是同一个。查询改写后产出的所有词,都是经过归一化后的词。广告搜索引擎中是用归一化后的词去检索广告。而用户的竞价词,也是通过归一化后建立的倒排索引。
归一化的好处是能够帮助我们减少搜索引擎需要处理的词的数量,帮助我们降低问题的规模,但是也是坏处,可能会丧失掉一些语义信息的精度。搜索词和买词往往是人操作产出的,更具有可读性,而归一化是一种数学方法,归一化后的词可读性差一些。
(三)查询改写的输出
可以这样简单理解查询改写的:
它就是搜索引擎进行匹配(Match)的大脑,用来揣测出用户的搜索意图,这些搜索意图是有权重区分的,来指导检索模块进行检索,排序模块进行排序
对于搜索广告,一般的查询改写输出,包含以下几个部分:
改写出的查询(rewritten query)。每个查询都会包含如下的信息:
查询词:最终用来查询倒排索引的查询词
权重:刻画跟原始搜索词的相关性
对于电商环境的查询改写(例如淘宝和京东),还会预测出当前query的类目和属性
关于类目属性,可以看看鬼脚七的浅谈淘宝类目属性体系
关于query改写,有这篇诙谐幽默的文章可以看看:
从狄仁杰的测字占卜到一淘网的Query分析之大结局
(四)检索
倒排索引和正排索引
查询改写是query->bidword的映射,而检索过程是bidword->ad的映射,即找到所有购买了这个竞价词的广告。查询的时候是用检索词去查广告,为了加快速度,就建立了一份竞价词到购买了此竞价词的广告的倒排索引: bidwordx->(adi, adj, adm, adn)。这个跟网页搜索引擎中的倒排索引(inverted index)的作用是一样的,都是为了加快检索速度,类似于书籍中的目录页。这样对于一次检索,遍历此次所有查询词的倒排数据,把宝贝取出来,就能得到广告的候选集合。