网站建设|搜索引擎的工作原理:摧毁,索引和排名

发布时间: 2019-07-12
编辑:简川科技

搜索引擎是应答机器。它们的存在是为了发现,理解和组织互联网的内容,以便为搜索者提出的问题提供最相关的结果。

为了显示在搜索结果中,您的内容首先需要对搜索引擎可见。它可以说是搜索引擎优化难题中最重要的一部分:如果找不到您的网站,您将无法进入SERP(搜索引擎结果页面)。


搜索引擎如何运作?

搜索引擎有三个主要功能:

1.抓取:在互联网上搜索内容,查看他们找到的每个网址的代码/内容。

2.索引:存储和组织在爬网过程中找到的内容。一旦页面在索引中,它就会在运行中显示为相关查询的结果。

3.排名:提供最能回答搜索者查询的内容,这意味着结果按最相关的顺序排列。


什么是搜索引擎抓取?

抓取是搜索引擎发送一组机器人(称为爬虫或蜘蛛)以查找新的和更新的内容的发现过程。内容可能会有所不同 - 可能是网页,图片,视频,PDF等 - 但无论格式如何,内容都是通过链接发现的。

搜索引擎漫游器(也称为蜘蛛)会在页面之间爬行以查找新的和更新的内容。

首先提取几个网页,然后按照这些网页上的链接查找新网址。通过沿着这条链路跳过,爬虫能够找到新的内容并将其添加到名为Caffeine的索引中- 这是一个发现的URL的大型数据库 - 以便在搜索者查找该URL上的内容的信息时进行检索。很好的匹配。


什么是搜索引擎索引?

搜索引擎处理并存储他们在索引中找到的信息,索引是他们发现并认为足以为搜索者提供服务的所有内容的庞大数据库。


搜索引擎排名

当某人执行搜索时,搜索引擎会在其索引中搜索高度相关的内容,然后对该内容进行排序,以期解决搜索者的查询问题。搜索结果按相关性排序称为排名。通常,您可以假设网站排名越高,搜索引擎认为该网站对查询的相关性就越高。

可以阻止部分或全部站点的搜索引擎抓取工具,或指示搜索引擎避免在索引中存储某些页面。虽然可能有理由这样做,但如果您希望搜索者找到您的内容,则必须首先确保爬虫可以访问它并且可以编制索引。否则,它就像看不见一样好。

到本章结束时,您将拥有使用搜索引擎所需的上下文,而不是反对它!


抓取:搜索引擎可以找到您的网页吗?

正如您刚刚了解到的那样,确保您的网站被抓取并编入索引是显示在SERP中的先决条件。如果您已经拥有一个网站,那么最好先看看索引中有多少页面。这将对百度是否正在抓取并查找您想要的所有页面提供一些很好的见解。

检查索引页面的一种方法是利用一个高级搜索运算符。前往百度并在搜索栏中输入“site:www.jianchuankeji.com”。

image.png

如果您没有在搜索结果中的任何位置显示,则可能有以下几种原因:

您的网站是全新的,尚未抓取。

您的网站未链接到任何外部网站。

您网站的导航使机器人难以有效地抓取它。

您的站点包含一些称为爬虫指令的基本代码,阻止搜索引擎。

您的网站因百度垃圾邮件策略而受到了处罚。


有时,搜索引擎可以通过抓取来查找您网站的某些部分,但其他网页或部分可能会因某种原因而模糊不清。确保搜索引擎能够发现您想要编入索引的所有内容,而不仅仅是您的主页,这一点非常重要。


问问你自己:能机器人爬行通过您的网站吗?

一个木板门,代表一个可以爬行但不能爬过的站点。

 

您的内容是否隐藏在登录表单后面?

如果您要求用户在访问某些内容之前登录,填写表单或回答调查,搜索引擎将无法看到这些受保护的页面。爬虫绝对不会登录。


您是否依赖搜索表单?

机器人无法使用搜索表单。有些人认为,如果他们在自己的网站上放置搜索框,搜索引擎就能找到访问者搜索的所有内容。


文本是否隐藏在非文本内容中?

非文本媒体表单(图像,视频,GIF等)不应用于显示您希望编入索引的文本。虽然搜索引擎在识别图像方面越来越好,但仍无法保证他们能够阅读和理解图像。最好在网页的<HTML>标记中添加文本。


搜索引擎可以关注您的网站导航吗?

正如抓取工具需要通过其他网站的链接发现您的网站一样,它需要您自己网站上的链接路径,以便在页面之间引导它。如果你有一个页面,你希望搜索引擎找到它,但它没有链接到任何其他页面,它就像看不见一样好。许多网站都以搜索引擎无法访问的方式构建导航,从而阻碍了他们在搜索结果中列出的能力。

 

可以通过抓取工具找到链接到的网页的方式,而未在网站导航中链接的网页则以岛屿形式存在,无法发现。


常见的导航错误可能会使抓取工具无法看到您的所有网站:

移动导航显示的结果与桌面导航不同

菜单项不在HTML中的任何类型的导航,例如启用JavaScript的导航。

个性化或显示特定类型的访问者与其他访问者的独特导航可能看起来隐藏在搜索引擎爬虫中

忘记通过导航链接到您网站上的主页 - 请记住,链接是抓取工具跟随新页面的路径!


这就是为什么您的网站必须具有清晰的导航和有用的URL文件夹结构。


你有干净的信息架构吗?

信息架构是在网站上组织和标记内容以提高用户效率和可查找性的实践。最好的信息架构是直观的,这意味着用户不必非常努力地想通过您的网站或找到一些东西。


你在使用站点地图吗?

站点地图就是这样的:网站上的网址列表,抓取工具可以使用这些网址来发现和索引您的内容。虽然提交站点地图并不能取代对良好站点导航的需求,但它肯定可以帮助爬虫跟踪所有重要页面的路径。

 

抓取工具在尝试访问您的网址时是否收到错误?

在抓取您网站上的网址的过程中,抓取工具可能会遇到错误。服务器日志文件也可以向您显示此信息,以及其他信息(如抓取频率)的宝库,但由于访问和解析服务器日志文件是一种更高级的策略,我们不会在初学者指南中详细讨论,虽然你可以在这里了解更多。

在使用爬网错误报告执行任何有意义的操作之前,了解服务器错误和“未找到”错误非常重要。


4xx代码:当搜索引擎抓取工具由于客户端错误而无法访问您的内容时

4xx错误是客户端错误,这意味着请求的URL包含错误的语法或无法实现。最常见的4xx错误之一是“404 - 未找到”错误。这些可能是由于URL错误,已删除页面或损坏的重定向而引起的,仅举几个例子。当搜索引擎点击404时,他们无法访问该URL。当用户点击404时,他们会感到沮丧并离开。


5xx代码:当搜索引擎抓取工具因服务器错误而无法访问您的内容时

5xx错误是服务器错误,这意味着网页所在的服务器无法满足搜索者或搜索引擎访问该页面的请求。

值得庆幸的是,有一种方法可以告诉搜索者和搜索引擎您的页面已移动 - 301(永久)重定向。

描述将一个页面重定向到另一个页面。

创建自定义404页面!

通过添加指向您网站上重要网页的链接,网站搜索功能甚至是联系信息来自定义您的404页面。这样可以减少访问者在访问404时从网站反弹的可能性。

详细了解自定义404页面 


一旦确保您的网站针对可抓取性进行了优化,下一步的业务就是确保可以将其编入索引。


索引:搜索引擎如何解释和存储您的网页?

一旦确保您的网站已被抓取,下一个业务目标就是确保可以将其编入索引。这是正确的 - 只是因为您的网站可以被搜索引擎发现和抓取并不一定意味着它将存储在他们的索引中。在上一节关于抓取的部分中,我们讨论了搜索引擎如何发现您的网页。索引是存储已发现页面的位置。在爬虫找到页面后,搜索引擎会像浏览器一样呈现它。在这样做的过程中,搜索引擎分析该页面的内容。所有这些信息都存储在其索引中。

 

存放书的机器人在图书馆里。

继续阅读以了解索引如何工作以及如何确保您的站点进入这个非常重要的数据库。


页面是否已从索引中删除?

是的,页面可以从索引中删除!可能会删除URL的一些主要原因包括:

URL返回“未找到”错误(4XX)或服务器错误(5XX) - 这可能是偶然的(页面被移动并且没有设置301重定向)或故意(页面被删除和404ed以便把它从索引中删除)

该URL添加了noindex元标记 - 网站所有者可以添加此标记,以指示搜索引擎从其索引中省略该页面。

该网址因违反搜索引擎的网站站长指南而受到人工处罚,因此已从索引中删除。

在访问者可以访问该页面之前,通过添加密码来阻止URL进行爬网。


告诉搜索引擎如何索引您的网站

机器人元指令

元指令(或“元标记”)是您可以向搜索引擎提供有关您希望如何处理网页的说明。

您可以告诉搜索引擎抓取工具,例如“不要在搜索结果中将此页面编入索引”或“不将任何链接权益传递给任何页面上的链接”。这些说明通过HTML页面的<head>中的机器人元标记(最常用)或通过HTTP标头中的X-Robots-Tag执行。

机器人元标记

机器人元标记可以在网页HTML的<head>中使用。它可以排除所有或特定的搜索引擎。以下是最常见的元指令,以及您可能应用它们的情况。

index / noindex告诉引擎是否应该抓取页面并将其保存在搜索引擎的索引中以供检索。如果您选择使用“noindex”,那么您正在与希望从搜索结果中排除该页面的抓取工具进行通信。默认情况下,搜索引擎假设它们可以索引所有页面,因此不需要使用“索引”值。

当您使用时:如果您尝试从百度的网站索引中修剪精简页面(例如:用户生成的个人资料页面),您可以选择将网页标记为“无索引”,但您仍希望访问者可以访问这些网页。

follow / nofollow告诉搜索引擎应该遵循页面上的链接还是nofollow。“关注”会导致机器人跟踪您网页上的链接并将链接权益传递到这些网址。或者,如果您选择使用“nofollow”,搜索引擎将不会关注或将任何链接权益传递到页面上的链接。默认情况下,假定所有页面都具有“follow”属性。

当您使用时: nofollow通常与noindex一起使用,当您尝试阻止页面被编入索引以及阻止搜寻器跟踪页面上的链接时。

noarchive用于限制搜索引擎保存页面的缓存副本。默认情况下,引擎将保留其索引的所有页面的可见副本,搜索者可通过搜索结果中的缓存链接访问这些页面。

当您使用时:如果您运行电子商务网站并且您的价格定期更改,您可能会考虑使用noarchive标签来阻止搜索者看到过时的定价。


排名:搜索引擎如何对网址进行排名?

搜索引擎如何确保当有人在搜索栏中输入查询时,他们会得到相关的结果?该过程称为排名,或者与特定查询最不相关的搜索结果的排序。

 

对排名的艺术诠释,三只狗坐在第一,第二和第三位的基座上。

为了确定相关性,搜索引擎使用算法,过程或公式,通过该过程或公式以有意义的方式检索和排序存储的信息。多年来,这些算法经历了许多变化,以提高搜索结果的质量。例如,百度每天都会进行算法调整 - 其中一些更新是次要的质量调整,而其他更新是部署用于解决特定问题的核心/广泛算法更新,例如企鹅解决链接垃圾邮件问题。查看我们的百度算法更改历史记录,查看可追溯到2000年的已确认和未经证实的Google更新列表。


为什么算法经常变化?谷歌只是想让我们保持警惕吗?虽然谷歌并不总是透露具体信息,说明他们为何会这样做,但我们确实知道谷歌在进行算法调整时的目标是提高整体搜索质量。这就是为什么,为了回应算法更新问题,百度会回答一些问题:“我们一直在进行质量更新。” 这表明,如果您的网站在进行算法调整后受到影响,请将其与百度的质量指南或搜索质量评估指南进行比较,两者都非常适合搜索引擎的需求。

    

搜索引擎想要什么?

搜索引擎一直想要同样的事情:以最有用的格式为搜索者的问题提供有用的答案。如果这是真的,那么为什么SEO现在与过去几年不同?

从某人学习新语言的角度考虑一下。

起初,他们对语言的理解非常简陋 - “参见Spot Run。”随着时间的推移,他们的理解开始加深,他们学习语义 - 语言背后的意义以及单词和短语之间的关系。最终,通过足够的练习,学生能够很好地理解语言,甚至能够理解细微差别,并且能够为甚至模糊或不完整的问题提供答案。

当搜索引擎刚开始学习我们的语言时,通过使用实际违反质量指南的技巧和策略来游戏系统要容易得多。以关键字填充为例。如果你想为某个特定的关键词排名,比如“有趣的笑话”,你可以在你的页面上多次添加“有趣的笑话”这些词,然后加粗,以期提高你对该词的排名:


欢迎来到有趣的笑话!我们讲述世界上最有趣的笑话有趣的笑话乐趣和疯狂。你有趣的笑话等待着。坐下来阅读有趣的笑话,因为有趣的笑话可以让你快乐和有趣。一些有趣的搞笑搞笑笑话


这种策略造成了糟糕的用户体验,而不是嘲笑有趣的笑话,人们被恼人的,难以阅读的文字轰炸。它可能在过去有效,但这绝不是搜索引擎想要的。


角色链接在SEO中发挥作用

当我们谈论链接时,我们可能意味着两件事。反向链接或“入站链接”是指向您网站的其他网站的链接,而内部链接是您自己网站上指向其他网页(在同一网站上)的链接。

 

描述入站链接和内部链接的工作原理。

链接历史上在SEO中发挥了重要作用。很早以前,搜索引擎需要帮助确定哪些URL比其他URL更值得信赖,以帮助他们确定如何对搜索结果进行排名。计算指向任何给定站点的链接数有助于他们这样做。


角色内容在SEO中扮演

如果他们没有将搜索者引向某些东西,就没有任何关联点。那东西是满足的!内容不仅仅是文字; 它是任何意味着被搜索者消费的东西 - 有视频内容,图像内容,当然还有文字。如果搜索引擎是应答机器,则内容是引擎提供这些答案的手段。

每当有人进行搜索时,都会有数千种可能的结果,那么搜索引擎如何确定搜索者将找到哪些有价值的页面呢?确定页面对给定查询的排名位置的一个重要部分是页面上的内容与查询的意图相匹配的程度。换句话说,这个页面是否匹配搜索到的单词并帮助完成搜索者试图完成的任务?

由于这种关注用户满意度和任务完成度,因此没有严格的基准来确定您的内容应该有多长,应该包含关键字的次数,或者您在标题标记中放置的内容。所有这些都可以在页面在搜索中的表现如何发挥作用,但重点应放在将要阅读内容的用户身上。

今天,有数百甚至数千个排名信号,前三名保持相当一致:链接到您的网站(作为第三方可信度信号),页面内容(满足搜索者意图的高质量内容),以及RankBrain。


如果您有任何疑问欢迎咨询我司,简川科技专注网站推广及网站建设,为您的企业开展全新的营销模式,聚集千万流量。


下一篇: 没有了
QQ
咨询