SEO技术 > SEO博客 > 机器学习SEO

机器学习SEO

2017-10-12

自从熊猫和企鹅更新以来,搜索引擎优化社区越来越多地关注机器学习,但是这个术语通常还不太清楚。我们知道这是熊猫和企鹅背后的“魔法”,但它是如何工作的?为什么他们不早点使用它?我们看到这两种算法的定期“数据刷新”有什么关系?

我认为机器学习将在seo外包公司中发挥越来越大的作用,所以我认为重要的是我们对它的运作有一个基本的了解。

免责声明:首先,我不是机器学习的专家。其次,我会故意简化方面的地方,刷一些我觉得不必要的细节。这篇文章的目的不是让你对机器学习有一个全面的或详细的了解,而是给你一个高层次的理解,让你能够回答我的开头段落中的问题,如果客户问你的话。最后,谷歌是一个黑匣子,显然不可能确切地知道他们在做什么,但这是我对SEO社区随时间拼接的线索的解释。

西瓜养殖

当存在没有确切答案的问题(即没有正确或错误的答案)和/或没有可以完全描述的解决方案的问题时,机器学习是适当的。

机器学习不合适的例子是计算文档中的单词的计算机程序,只需将一些数字加在一起,或计算页面上的超链接。

例子,其中机器学习将是适当的是光学字符识别,确定邮件是否是垃圾邮件,或识别在照片的面部。在所有这些情况下,一个人(谁最有可能非常擅长这些任务)几乎不可能写出一套精确的规则,以便如何去做这些事情,以便他们能够进入计算机程序。此外,并不总是有正确的答案; 一个人的垃圾邮件是另一个人的信息通讯。

在伦敦SearchLove 2013上解释机器学习与Will Critchlow。我喜欢西瓜

在这篇文章中我将使用的例子是采摘西瓜的例子。西瓜一旦被挑选,就不会继续成熟,所以当它们完全成熟时,选择它们是很重要的。任何一年以来一直在西瓜采摘西瓜的人,都可以看西瓜,用手摸摸自己的感觉,从大小,颜色以及感觉上可以判断出是否成熟,成熟或刚刚正确。他们可以高精度地做到这一点。但是,如果您要求他们写下一份规则清单或流程图,您或我可以用来确定一个特定的西瓜是否成熟,那么他们几乎肯定会失败 – 问题没有干净的答案你可以写入规则。还要注意,

你可以想象,如何识别网页是否是垃圾邮件,也是如此?编写一套正确的规则是很难或不可能的,而且存在分歧的余地。

ROBO-农民

然而,这并不意味着不可能教电脑找到成熟的西瓜; 绝对有可能。我们只需要一种类似于人类学习这种技能的方法:通过经验学习。这就是机器学习所在。

监督学习

我们可以设置一台电脑(有各种各样的方法,我们现在不需要知道细节,但是你可能听说过的方法是人工神经网络),以便我们可以在一个瓜子后面提供一个关于一个甜瓜的信息另一个(尺寸,坚固度,颜色等),我们也告诉电脑该甜瓜是否成熟。这个瓜子的收藏是我们的“训练集”,并且根据所学到的东西的复杂性,它需要有很多“甜瓜”(或网页或其他东西)。

随着时间的推移,电脑将开始构建一个如何看待瓜子的各种属性成熟的典范。机器学习可以处理这些相互作用相对复杂的情况(例如,成熟的瓜的坚实度可能根据甜瓜的颜色和环境温度而变化)。我们以循环的方式在训练集中多次显示每一个甜瓜(想象这是你,现在你注意到你以前没有的东西可以回到以前的瓜子,并从中学到更多的东西)。

一旦我们确信计算机已经停下来,那么我们可以通过从另一个尚未看到的集合中显示甜瓜来进行测试(我们称这套甜瓜为“验证集”),但是我们不分享这些甜瓜是否成熟。现在电脑试图应用它所学到的东西,并预测甜瓜是否成熟(甚至是成熟还是不成熟)。我们可以看到计算机准确地识别出多少瓜已经学到了多少。如果没有学好,我们可能需要显示更多的甜瓜,或者我们可能需要在幕后调整算法(“大脑”),然后重新开始。

这种类型的方法被称为监督学习,在那里我们提供学习算法以及关于原始甜瓜是否成熟的细节。确实存在替代方法,但监督学习是最好的起点,可能涵盖了Google正在做的一切。

有一件事要注意的是,即使在培养了计算机以确定成熟的瓜子之后,它也不能像农民那样从农民那里写出我们想要的一套彻底的规则。

咖啡因基础设施更新

那么所有这些都适合搜索?

首先,我们需要回到2010年,并推出咖啡因基础设施更新。当时我们很少知道,但咖啡因是熊猫和企鹅的祖先。咖啡因是让熊猫和企鹅生存的。

咖啡因允许Google比以前更快地更新其索引,并且与图形的其余部分无关地更新网页链接图的部分页面的PageRank。以前,您必须重新计算网页上所有页面的PageRank; 你不能只做一个网页。与咖啡因相比,我们认为改变了,他们可以很准确地估计网页部分(子图)更新的PageRank,以解决新的(或删除的)链接。

这意味着不断更新的“现场索引”,而不是定期更新。

那么,这与机器学习有什么关系,它如何为熊猫和企鹅设定了舞台?把它放在一起…

熊猫和企鹅

咖啡因允许Google更快速地更新PageRank,比以往任何时候都快得多,这可能是允许他们最终将计算机学习作为算法的主要部分应用的步骤。

熊猫解决的问题与确定西瓜是否成熟的问题非常相似。任何阅读这篇博文的人都可以简单的看一下网页,在大多数情况下,告诉我这个网页的垃圾邮件是否高度准确。然而,很少有人可以给我写一个确切的规则列表来判断你还没有看到的页面的特征(“如果有超过x个链接,并且有y个广告占据屏幕上方的z% ……“)。你可以给出一些广泛的规则,但是对于所有重要的页面都不会有效。还要考虑到,如果您(或Google)可以构建这样的严格规则列表,则可以更容易地规避这些规则。

所以,谷歌无法写出特定的规则来判断这些垃圾邮件页面,这就是为什么我们几年中会遇到一些很明显(在我们心中)的垃圾邮件,但是在Google养老金计划。

完全相同的逻辑适用于企鹅。

Google面临的问题与西瓜养殖问题相似。那么为什么他们不是从第一天开始使用机器学习呢?

训练

Google可能通过让他们的人力资源评估员团队为网页的垃圾邮件提供分数来创建一个培训。他们将有数以百计的评估员审查数百或数千页面,以产生一个庞大的网页列表,其中包含相关的垃圾邮件评分(来自多个评估者的平均值)。我不是100%肯定这个过程将采取什么格式,但是我们可以使用上述说明得到一般的理解。

现在回想一下,要了解西瓜的成熟程度,我们必须要吃很多瓜子,我们必须多次看看。这是很多的工作,需要时间,特别是考虑到我们必须学习和更新我们的理解(我们称之为“模型”)如何确定成熟度。在这一步之后,我们需要在验证集(我们以前没看过的甜瓜)上尝试我们的模型来评估它是否运行良好。

在Google的情况下,这个过程正在整个网络索引中进行。当然,我并不清楚他们在这里使用的确切方法,但是很明显,在整个索引中应用上述“学习和测试”方法是非常耗资源的。咖啡因在活动索引中的突破类型和图表部分更快的计算是什么使机器学习终于可行。您可以想象,以前如果需要几个小时(甚至几分钟)重新计算值(无论是PageRank还是垃圾邮件指标),那么这样做只需要数千次才能应用机器学习是不可能的。一旦咖啡因让他们开始,熊猫和随后的企鹅的时间表很快,

接下来是什么?

随后的熊猫和企鹅更新的每一个“推出”是当一个新的(并且可能改进的)模型被计算,测试,现在可以作为一个信号被应用到现场索引。那么今年早些时候呢宣布熊猫将不断更新和推出超过10天的时间,所以迹象表明他们正在提高速度和效率,他们可以利用机器学习来指标。

机器学习SEO

蜂鸟似乎正在为额外的更新设置舞台。

我完全期望在未来的一年里,我们将会看到更多的机器学习应用于Google的所有领域。事实上,我认为我们已经看到了与蜂鸟的下一次迭代,而在蒸馏我们正在以类似于咖啡因的方式查看蜂鸟更新。虽然蜂鸟是一种算法更新而不是基础设施更新,但我们不能震动它为未来的基础奠定基础。

包起来

机器学习的可能性在这种规模上得到了应用,我很激动,我想我们将会看到更多的机会。这篇文章旨在对所涉及的内容进行基本了解,但我不敢告诉你,我不确定西瓜科学是否准确100%。然而,我认为理解机器学习的概念真的有助于理解诸如熊猫和企鹅之类的算法。

原文:https://moz.com/blog/machine-learning-for-seos

免责声明:文章翻译转载,若侵犯了您的权益,请联系我及时删除