搜索引擎基本概念:爬取、索引、召回、粗排、精排、重排
搜索引擎爬取全网海量页面 → 进行基本的质量评分 → 过滤出小部分质量较佳的网页 → 创建倒排索引(能够通过关键词查询文档)
用户发起搜索请求 → 搜索引擎先对关键词进行纠错处理 → 拆成多个词项 → 去索引中查找能够命中这些词项的文档,可能就是这个数
<p class="article-content__img" style="box-sizing:border-box;outline:0px;margin-top:0px;margin-bottom:24px;padding:0px;font-size:16px;line-height:32px;text-align:center;color:#4A4A4A;word-break:break-word;font-family:"display:flex;-webkit-box-align:center;align-items:center;-webkit-box-pack:center;justify-content:center;white-space:normal;background-color:#FFFFFF;">
粗排
所以要从海量召回的文档中,删除其中内容高度重复的文档,并筛选与搜索词最相关的760个文档,展现给用户。
精排
这部分比海选要复杂的多,涉及一大堆数据挖掘、机器学习、用户行为分析、用户意图识别等算法,大概包括:
通过用户搜索词和前N次搜索词,结合历史日志中其他搜索该词的用户浏览行为,来揣测用户可能的搜索意图
文档的历史点击率
用户的网络维度特征(IP、网络类型、地域....)
与搜索词潜在意图覆盖率最高的TopN条文档
上述过程,对应着搜索引擎中,爬取、索引、召回、粗排、精排的几个阶段,属于搜索引擎系统入门级的常识。
现在精排后面,还有重排,根据用户的搜索场景(网络、设备、近期点击行为等)和媒体热点,实时调整排序,比如:
你用wifi跟手机网络,搜索结果可能有所不同
上午媒体爆料一个叫GoGo闯神秘人和迪丽热巴约会了,然后下午GoGo闯的搜索结果,就跟上午完全不同了
如何研究排名(一家之言)
在16年以前,本渣觉得研究「排名」是最难的,后来搞了一堆单页站群、泛站群、资讯站群和少数几个单站,大概前后10万域名出头,发现「搞定收录」其实比「搞定排名」麻烦的多,甚至应付广告主没事总tm扣量、跑路不结算、域名被停止解析....,我觉得都比研究排名麻烦。
毕竟,大站参与760名排序的概率很大的,But一堆海量小站,参与召回的机会都没有。
所以,本渣觉得,大站与小站,研究排名,是两种路线:
小站研究的是,做哪些词能上首页。
03
正推就是假设一堆条件,挨个去测试,能否达到自己预期的结果。比如快排的开发,大部分都是正推的,需要大量测试
仅研究百度SEO排名规律上,正推的门槛极高。
然后我把这批网页导入到xunsearch(一个开源的搜索引擎,并不是说这个好,而是本渣当时只会这个,还不知道有elasticsearch这个东西)并建立倒排索引。
我的想法是:
第二步:我就修改自己网页的内容,推到xunsearch更新下索引,再次xunsearch搜索下,如果top10能出来,线上网页就按本次修改的上线。如果没出来,就修改其他地方,直到能在Top10出现。
反正第一步始终没出来,毕竟商业搜索引擎,和开源搜索引擎,很多地方是不同的。
anyway,正推我是放弃了
逆推
长尾关键词
这意味着,如果库里面塞了一堆根本不可能排在首页的关键词,这是浪费系统资源的,毕竟新域名收录有限,自然希望收录的页面,都是大概率能上排名的页面。
Top10结果爱站权重很低(平均权重<2)
有高有低(平均权重2-4)
<p class="article-content__img" style="box-sizing:border-box;outline:0px;margin-top:0px;margin-bottom:24px;padding:0px;font-size:16px;line-height:32px;text-align:center;color:#4A4A4A;word-break:break-word;font-family:"display:flex;-webkit-box-align:center;align-items:center;-webkit-box-pack:center;justify-content:center;white-space:normal;background-color:#FFFFFF;">
第一种可能这个词竞争度很大,或者本身是比较敏感的词,比如医疗养生类的,所以百度特意分流给了一些信任度高的大站
第三种是这个词是违禁的,且已经被百度发现删除
已排名优先的清洗关键词措施,是找出第1种和第3种词,然后删除掉。
以上是研究长尾词能够大概率上首页的问题,下面来聊聊核心词的排名。
以前有一种刷词方法,比如核心词是「SEO」,会去同时刷创造出来的新词,比如「SEO流量贩子」,同时title也改成这个词。
这样「SEO流量贩子」排名到首页后,在加大「SEO」的点击,这样核心词「SEO」上首页的概率,比直接硬点概率要大一些。
判断网页与核心词的真实相关性(排除点击加权)
比如很多刷快排的站,网页做的乱七八糟,可以说不符合SEO友好性,存在排名很大程度是点击加权,而非相关性,这样快排有点波动就容易被干。
搜索引擎对用户的Query,会先纠错在分词召回,纠错过程就包含去除烂七八糟的符号,之后再排序。
所以你看「华为工资 。」与「华为工资」的排序,几乎一样的。但对比「seo 。」与「seo」的搜索结果,就非常奇妙了。
海量核心词排名
比如某类词根,如:
关于XXX的作文
{古诗名称}
long long time ago,本渣的做法是:
2)计算每个后缀的出现频次
举个例子,比如{城市}公司,标题只写「{XX}公司」,有些浪费,因为这个词后面有人搜:
{XX}公司大全
{XX}公司黄页
{XX}公司排名
......
全国300多个县级市,60%+城市,其下拉框都会出现“排名”,其实“名录”、“黄页”的出现频次也不少,跟“排名”差不多,但是这两个词缀做的人太多了,也就是搜索结果标题完全命中的数量比较多,所以最后用了“排名”,即title为:“北京公司排名”
一线城市没上去是因为,搜索需求太丰富,比如:代办、摇号、转让...
156-1688-1988
80931912(售前)2580705673(售后)
地址:湖南省长沙市万科金域华府二期15栋A902
10年建站服务经验
服务27家集团公司
服务超2000家中小企业
B2C营销型网站建设供应商
多项大型项目开发经验
营销型网站建设专家
完备的项目流程管理体系
网页设计与网站开发技术并重
COPYRIGHT © 2013-现在 XIANGQU ALL RIGHTS RESERVED