鼎尚网络 | SEO如何研究排名规律?
01,搜索引擎基本概念:爬取、索引、召回、粗排、精排、重排
爬取&索引
搜索引擎爬取全网海量页面→进行基本的质量评分→过滤出小部分质量较佳的网页→创建倒排索引(能够通过关键词查询文档)
召回
用户发起搜索请求→搜索引擎先对关键词进行纠错处理→拆成多个词项→去索引中查找能够命中这些词项的文档,可能就是这个数
图片
粗排
但是文档的实在数量太多了,一股脑的都推给用户显然很二逼,用户不可能都看完,只会看其中极小的一部分,另外也没法保证质量。
所以要从海量召回的文档中,删除其中内容高度重复的文档,并筛选与搜索词相关的760个文档,展现给用户。
这个环节属于海选,需要大量计算,为了不让用户等待过长,一般用快捷优先且相对简单的处理方式,比如BM25、TF-IDF、LDA,具体还有啥咱也不知道。
精排
之后就是对760篇文档排序的过程,的目的是让排序结果大概率符合用户预期的结果,这样用户才更有可能点进去了解详情,从而提升搜索的业务价值。
这部分比海选要复杂的多,涉及一大堆数据挖掘、机器学习、用户行为分析、用户意图识别等算法,大概包括:
通过用户搜索词和前N次搜索词,结合历史日志中其他搜索该词的用户浏览行为,来揣测用户可能的搜索意图
文档的更新时间
文档的历史点击率
文档浏览后终结搜索的比例
用户的网络维度特征(IP、网络类型、地域....)
与搜索词文本匹配度高的TopN条文档
与搜索词潜在意图覆盖率高的TopN条文档
....太多了咱也不知道
上述过程,对应着搜索引擎中,爬取、索引、召回、粗排、精排的几个阶段,属于搜索引擎系统入门级的常识。
keyword:鼎尚网络,SEO
文章来源:http://www.wxdswlkj.com/