百度一下,你就知道! 搜索引擎大致的架构与工作的流程

  • 时间:
  • 浏览:715
  • 来源:无双科技

百度一下,你就知道"。这句耳熟能详的话语背后,说的就是搜索引擎。

除了从所周至的百度外,还有非常多的搜索引擎,尽管搜索引擎各式各样,但是他们的原理跟步骤都是差不多的,今天我们来简单地介绍介绍,一个搜索引擎大致的架构与工作的流程。

百度一下,你就知道! 搜索引擎大致的架构与工作的流程

首先是元数据收集,没有数据,搜索什么?这个收集的方式有很多种,如果我们是搜索互联网上面的网页,那么我们可能需要一些爬虫软件去爬取数据,爬取到数据之后呢,我们要对关键信息进行提取,大部分网页上面都是HTML的结构,我们只需要正文的内容就行了,向一些导航栏呀,侧边栏呀,能够提取的有效价值并不高。如果我们只是建一个自己文章的搜索引擎,那就更加简单了,可以直接使用所有文章的文件内容,无需去实现爬虫。

蜘蛛爬取到数据.jpg

接下来是索引,因为整个文章可能非常的长,我们不可能每次搜索都进行全文的对比,所以我们常常对文章进行分词,建立对应的关键字索引。网上已经有很多开源的工具分词工具可以使用,例如Java语言的word,有兴趣的话大家可以了解下。这里有一个简单的细节优化,有一些词是不用建立索引的,例如你,我,他,是之类的词语,太普遍了,价值并不是很高,反而是一些专有名词,如算法、数据结构、架构师这类的词语价值更高。这里我们可以简单存储为下面的格式。

搜索引擎大致的架构与工作的流程

我们简单地使用3张表进行存储,地址表、单词列表、还有单词与地址的关系表。每次有一个查询,我们就先找单词表,然后再找到单词与连接表中所有的关系,然后返回对应的地址列表即可。

接下来我们会有一个问题,我们搜索到很多很多的东西,如何展示给用户呢?例如某个关键词,可能搜索出10万个不同的网页,到底用户需要哪一个呢?这个时候就需要进行搜索排名了。常见的搜索排名有哪些呢?例如:

1.关键字的出现频率,出现的越多次,得分越高。

2.关键字出现的时机,越早出现得分越高,出现的越均匀,等分越高

3.内容的创建时间,这个比较适合新闻类的搜索。

当然还有很多种,例如有些搜搜引擎公司谁给的钱多,谁就排在前面。


基本上,用了实现了这三步,一个简单的搜索引擎就完成了。但这远远不够,在今天这个时代,我们肯定希望搜索引擎越来越聪明!用AI武装到牙齿!今天,我们也经常用神经网络算法来优化我们的搜索引擎,我们可以把用户的搜索的关键字作为神经网络的输入,把用户最终的点击结果作为神经网络的输出,这样子反复训练,我们的搜搜系统就会越来越智能!


搜索引擎大致的架构与工作的流程,优化,索引、排名的算法

当然,现实中,搜索引擎是比这个复杂地多了,毕竟有海量的查询跟存储都需要优化,索引、排名的算法各家也有各家的特色,后面我们可以讲一讲一些常见的内容。说点题外话,相信你读到这里,你会对现网百度的困境也多了一些理解,为什么进入移动互联网时代后百度越来越困难,主要表现在第1跟第4点,首先是百度能获取到的数据越来越少了,其次是用户使用百度的频率也降低,恶性循环,百度也越来越难以掌握用户的动机了。


猜你喜欢

从零开始快速涨粉的“抖音”运营方法大揭秘

从零开始快速涨粉的“抖音”运营方法大揭秘

今天就给大家分享一个做抖音等短视频从0到1的方法论,也是来自好多大佬的结合。一、找准领域内优秀的同行进入新领域,最快速的学习方法,就是学习业内顶级作品的共同点。怎样快速了解自己

2020-07-14

抖音快速涨粉抖音运营

被正名的直播带货:如何告别“蛮荒时代”?

被正名的直播带货:如何告别“蛮荒时代”?

7月6日,人社部联合国家市场监管总局、国家统计局发布的公告显示,互联网营销师职业下正式增设“直播销售员”工种,广大电商主播、带货网红们自此有了正式的职业称谓。与此同时,“利用互

2020-07-14

直播带货网红直播淘宝直播

抖音新手怎么利用抖音热门涨粉技术

抖音新手怎么利用抖音热门涨粉技术

当今这个时代流量为王!抖音也是一样的。流量=金钱!那么有了流量之后有了精准粉丝以后其实就可以为所欲为,比如可以利用引流销售把粉丝引流到微信或者QQ这样的自己私人流量池成交!另外

2020-07-14

抖音营销抖音抖音涨粉技术

当天24小时内蜘蛛抓取分析工具(百度、谷歌、360、搜狗、必应、神马、头条)

当天24小时内蜘蛛抓取分析工具(百度、谷歌、360、搜狗、必应、神马、头条)

蜘蛛爬行痕迹记录工具介绍: 后台可以查看各大搜索蜘蛛爬行的详细信息(最后来访时间,ip地址,被访地址),根据访问频率查看异常伪造蜘蛛进行屏蔽处理,减轻服务器压力。蜘蛛

2020-07-10

简单PHP微信文章采集并下载图片上传保存到七牛云

简单PHP微信文章采集并下载图片上传保存到七牛云

通过搜狗搜索采集公众号历史消息,在浏览器中打开要采集的文章链接地址。具体的执行方法如下:publicfunctionwxcaiji(){   &n

2020-07-10

微信采集微信图片下载PHP采集文章