登录
易站通推广平台
登录
云网客推广系统
www.wlsem.cn
​合肥沃龙
新闻中心
合肥SEO:搜索引擎分词算法
来源: | 作者:pmo192095 | 发布时间: 2019-07-15 | 83 次浏览 | 分享到:

 

     今天看了一篇文章是关于搜索引擎分词技术算法的逻辑文章,合肥SEO看完后觉得可以把自己理解的一些东西分享给各位喜欢算法的读者以及喜欢研究算法的朋友哦!主要是包含了两大块,第一:索引库建立,第二:分词


一,索引库建立


     搜索引擎提前将它认为重要的页面信息下载好,放在数据库中,这个供用户查询相关结果的数据库就是搜索引擎的资料库。


     不同搜索引擎的数据库也是不一样的,一般是几十到 100 亿个网页左右。


      搜索引擎的本职工作   我们在搜索一个关键词的时候,搜索引擎要在浩瀚的网页世界给我们找到我们需要的网页。


      搜索引擎为什么那么快?


       因为搜索引擎对网页进行了分类处理。这个经过分类的页面信息资料库就是索引库。


      索引库的分类和建立


     不论是中文还是英文,词语的总数是不变的(中文词语不到 10万,英文大概 100 万左右单词)。


     如果按每个词 100亿个网页 / 10万个词语 = 每个类别 10万个网页。


     所以,如果我们要搜索某个关键词的时候,只需要在 10 万个网页里去找即可


二,分词


      分词技术


      想要建立索引库,就必须把页面上的文字进行拆分,然后把分好的词一个一个放到索引库中去,搜索引擎的这项技术就叫分词技术。


     分词技术的流程(提取原代码 - 把关键词与 URL 对应储存)


     分词技术对 SEO 的意义


    长尾词可以带动相关近义词的权重。如果 “网上如何赚钱” 这个词被优化到了百度第一,那么 “如何赚钱”、“网赚” 这样的词也会有很好的权重(即使他们并没有完全匹配)。
单字无法带动其他词的权重。


      所以,在写页面内容,尤其是写网页 title 的时候要注意搜索引擎的这项技术。