SEO技术 > SEO博客 > 机器学习革命:它如何运作及其对SEO的影响

机器学习革命:它如何运作及其对SEO的影响

2017-10-21

机器学习已经是一件很大的事情。它在这里,并且在远远超过你可能怀疑的企业中使用。几个月后,我决定深入了解这个主题,了解更多信息。在今天的帖子中,我将深入了解一些关于它的工作原理的技术细节,但我也计划讨论其对SEO和数字营销的实际影响。
作为参考,请查看Rand Fishkin的演讲,介绍我们如何进入双算法世界。Rand在演讲中详细介绍了机器学习对搜索和SEO的影响,以及它如何影响上海seo服务。我稍后会再说一遍。

为了获得乐趣,我还将提供一个工具,您可以根据以下方面预测您获得转发的机会:您的Followerwonk 社会权威,无论您是否包含图片,标签和其他类似因素。我称之为Twitter Engagement Predictor(TEP)工具。为了建立TEP,我创建并训练了一个神经网络。该工具将接受您的输入,然后使用神经网络来预测您获得RT的机会。

TEP利用了2014年12月发布的关于Twitter参与的研究数据,其中我们从1.9M原始推文(而不是RT和收藏夹)审查了信息,以了解哪些因素最大程度地提高了获得转发的机会。

我的机器学习之旅

2011年,当我采访了Google的Peter Norvig时,我第一次有机会看到机器学习,他告诉我Google如何使用它来教Google Translate。

基本上,他们看着他们可以在网路上找到的所有语言翻译,并从中学到了。这是机器学习的一个非常激烈和复杂的例子,谷歌已经在2011年部署了这一点。只要说所有的主要市场参与者 – 如谷歌,苹果,微软和Facebook – 已经以许多有趣的方式利用机器学习。

早在11月份,当我决定我想了解更多关于这个话题的时候,我开始做各种各样的文章搜索在线阅读。不久之后,我偶然发现了关于Coursera的机器学习的伟大课程。它由斯坦福大学的Andrew Ng教授,它提供了一个真棒,深入的机器学习的基础知识。

警告:本课程长(共19节,每节平均超过1小时)。它还需要理解微积分才能通过数学。在这个过程中,你将从头到尾都沉浸在数学上。但关键是这样:如果你有数学背景和决心,你可以免费上网课程,开始使用这些东西。

此外,Ng引导您使用一种称为Octave的语言编写许多编程示例。然后你可以把你学到的东西,并创建自己的机器学习程序。这正是我在下面包含的示例程序中所做的。

机器学习的基本概念

首先,让我清楚一点:这个过程并没有使我成为这个话题的领先专家。但是,我学到了足够的资料,为您提供了一些关键概念的可用介绍。您可以将机器学习分为两类:监督和无监督。首先,我将看看监督机器学习。

监督机器学习

在最基本的层面上,您可以将受监督的机器学习视为创建一系列方程式来拟合一组已知的数据。假设您想要一种算法来预测住房价格(Ng在Coursera课程中经常使用的例子)。您可能会收到一些类似的数据(请注意,数据完全由此组成):

机器学习革命:它如何运作及其对SEO的影响

在这个例子中,我们有(虚构的)历史数据,它根据大小来指示房子的价格。正如你所看到的,随着房屋面积的增加,价格往往会上涨,但数据并不适合直线。但是,您可以很好地计算出适合数据的直线。

这条线可以用来预测新房的定价。我们将房子的大小视为算法的“输入”,将预测价格视为“输出”。例如,如果你有一个2600平方英尺的房子,价格看起来会是$ xxxK?美元。

然而,这种模式证明是有点简单。还有其他因素可以发挥房价,如房间总数,卧室数量,浴室数量和批量。基于此,您可以构建一个稍微复杂的模型。

您已经可以看到一条简单的直线将不会做,因为您必须为每个因素分配权重以得出房价预测。也许最大的因素是房屋面积和大小,但是房间,卧室和浴室都应该有一些重量(所有这些都被认为是新的“投入”)。

即使现在,我们仍然非常简单。房价的另一大因素是位置。华盛顿州西雅图的定价与德州加尔维斯顿的定价不同。一旦您尝试在全国范围内构建该算法,使用位置作为附加输入,您可以看到它开始成为一个非常复杂的问题。

您可以使用机器学习技术来解决这三种类型的问题。在这些示例的每一个中,您将组装一个大数据示例,可以称为训练示例,并运行一组程序来设计一个算法来适应数据。这允许您提交新的输入并使用算法来预测输出(在这种情况下的价格)。使用这样的培训例子就是所谓的“监督机器学习”。

分类问题

这是一个特殊类的问题,其目标是预测具体的结果。例如,想象一下,我们想预测一个新生婴儿长到6英尺高的机会。

该算法的输出可能为0,如果该人要短于6英尺高,或者如果他们要6英尺或更高,则为1。什么使它成为一个分类问题是你将输入项目放入一个特定的类或另一个。对于我所描述的高度预测问题,我们不是试图猜测精确的高度,而是一个简单的超过/低于6英尺的预测。

更复杂的分类问题的一些例子是手写识别(识别字符)和识别垃圾邮件。

无监督机器学习

无人值守机器学习用于您没有培训示例的情况。基本上,您要尝试并确定如何识别具有相似属性的对象组。例如,您可能会有如下所示的数据:

然后,该算法将尝试分析此数据,并根据共同特征找出如何将它们分组在一起。也许在这个例子中,下图中的所有红色“x”点都有类似的属性:

然而,该算法可能在识别异常点时可能有问题,并且可以将数据分组更像。

算法所做的是在数据中找到自然分组,但与监督学习不同,它必须确定定义每个组的特征。无人监督学习的一个行业例子是Google新闻。

你可以看到主要的新闻报导是关于伊朗持有10名美国水兵,但还有路透社和彭博社相关新闻报道(红色圈出)。这些相关故事的分组是一个无监督的机器学习问题,其中算法学习将这些项目分组在一起。

应用机器学习的其他行业例子

机器学习算法的一个很好的例子是Moz已经在Moz内容工具中构建的作者提取算法。您可以在这里阅读更多关于该算法。引用的文章详细介绍了Moz在解决这个问题方面面临的独特挑战,以及它们如何解决问题。

对于Stone Temple Consulting的Twitter Engagement Predictor来说,这是建立在神经网络上的。此程序的示例屏幕可以在这里看到:

该程序对您是否获得转发进行二进制预测,然后为您提供该预测的百分比概率。

对于那些对血缘细节感兴趣的人,我使用的神经网络配置是六个输入单元,十五个隐藏单元和两个输出单元。该算法使用了一百万次训练示例和二百次训练迭代。培训过程只需要450亿次以下的计算。

使这个练习感兴趣的一件事是原始数据中有许多冲突的数据点。这是我的意思的一个例子:

这显示了跟随者社会权力机构在0到9之间的数据,以及没有图像,没有URL,没有其他用户的@mentals,两个标题以及在0到40个字符之间的推文。我们有1156个这样的tweets的例子,没有得到转发,而17个。

所得到的算法最可取的结果是预测这些推文没有得到转发,所以这将使它错误的1.4%的时间(1173中的17次)。注意,所得到的神经网络评估获得转发的概率为2.1%。

我做了一个计算表,列出了这些案例有多少。我发现我们有102,045个个人训练的例子,那里是错误的预测,或只是略高于我们所有培训数据的10%。这意味着,神经网络能够做的最好的就是在90%的时间内进行正确的预测。

我还通过训练有素的网络运行了另外两套数据(470K和473K样本),以查看TEP的准确性水平。我发现它的绝对(是/否)预测获得转发的机会是81%准确。考虑到那些也有大约10%的样本,使错误的预测是正确的事情,这不错!当然,这就是为什么我显示转发百分比的概率,而不是一个简单的yes / no响应。

自己尝试预测值,让我知道你的想法!(您可以通过前往Followerwonk并遵循这些快速步骤发现您的社会权威。)请注意,这只是我学习如何构建神经网络的一个练习,因此我认识到该工具的有用效用 -无需给我反馈; – >。

Google可能拥有或创建的算法示例

所以现在我们更了解机器学习的一些方面,让我们深入了解Google可能已经在使用机器学习的内容:

企鹅

实施企鹅的一种方法是确定一组链接特征,这些链接特征可能是恶性链接的一个指标,如:

外部链接坐在一个页脚
右侧栏中的外部链接
接近文本,如“赞助”(和/或相关短语)
接近一个图像与单词“赞助”(和/或相关短语)在其中
与其他链接分组,彼此之间的相关性较低
丰富的锚文本与页面内容无关
导航中的外部链接
实施没有用户可见的指示,它是一个链接(即它下面没有行)
来自不良类别的网站(来自文章目录,来自不做生意的国家等)
…等很多因素
请注意,这些东西中的任何一个不一定对于单个链接本身是不利的,但如果指向给定站点的所有链接的重要部分都具有这些属性的某种组合,则算法可能开始标记站点。

我上面概述的将是一种受监督的机器学习方法,您可以使用已知的多年来已经识别的不良和良好的链接(或站点)来训练算法。一旦训练了算法,您将通过它运行其他链接示例,以计算每个都是坏链接的概率。根据来自不良链接的链接(和/或总页数)的百分比,您可以决定降低网站的排名。

同样问题的另一种方法是从已知良好链接和不良链接的数据库开始,然后使算法自动确定这些链接的特征(或特征)。这些特征可能包括人类可能没有考虑的因素。

熊猫

现在你已经看到了企鹅的例子,这个应该比较容易想到。以下是一些可能是网站质量差的网站的功能:

与竞争页面相比,页面上的字数少
低使用同义词
过度使用主页的关键字(从标题标签)
在页面底部隔开的大块文本
许多链接到不相关的页面
内容从其他网站刮下的页面
…等很多因素
再次,您可以从一个已知的一组好的网站和不良网站(从内容的角度)开始,并设计一个算法来确定这些网站的共同特征。

与上面的企鹅讨论一样,我绝对不会表示这些都是熊猫的一部分 – 它们只是为了说明它的工作原理的整体概念。

机器学习如何影响SEO

理解机器学习对SEO的影响的关键是了解Google(和其他搜索引擎)想要使用它的功能。一个关键的见解是,Google提供高质量的搜索结果和他们从广告中获得的收入之间有很强的相关性。

早在2009年,Bing和Google就进行了一些测试,显示如何在他们的搜索结果中引入小的延迟会显着影响用户满意度。此外,这些结果表明,满意度降低,点击次数减少,收入下降:

背后的原因很简单。Google有其他的竞争来源,这远远超出了Bing。发短信给他们的朋友是一种竞争形式。Facebook,苹果/ Siri和亚马逊也是如此。用户的信息和答案的替代来源存在,他们正在努力提高他们每天提供的质量。Google必须这样

我已经建议机器学习可能是熊猫和企鹅的一部分,它可能是“搜索质量”算法的一部分。而且可能还有更多的这些类型的算法来。

那么这是什么意思?

鉴于更高的用户满意度对Google至关重要,这意味着内容质量和用户对您网页内容的满意度现在必须被您视为SEO排名因素。你将需要测量它,并随着时间的推移稳步改进。要问自己的一些问题包括:

您的网页是否满足了大部分访问者的意图?如果用户对该产品感兴趣,他们是否需要帮助选择它?学习如何使用它?
相关意图如何?如果有人来到您的网站寻找特定的产品,他们可以寻找什么其他相关产品?
页面上的内容存在什么差距?
您的网页是否比竞争对手更高质量的体验?
您的衡量页面性能的策略是什么?
Google可以通过多种方式来衡量您的网页的有效性,并用它来影响排名。这里是其中的一些:

当他们点击SERP后到达你的页面,他们留下多久?与竞争网页相比如何?
您的SERP列表与竞争对手的点击率相对比率是多少?
您的企业获得多少品牌搜索?
如果您有给定产品的页面,您是否提供比竞争页面更薄或更丰富的内容?
当用户在访问您的页面后点击返回搜索结果,他们的行为是否像他们的任务完成一样?还是点击其他结果或输入后续搜索?
有关内容质量和用户满意度如何成为SEO核心内容的更多内容,请查看以下内容:

兰德对双算法世界的介绍
关于术语频率分析的文章
我的逆文档频率
我的内容效能优化文章
概要

机器学习正在变得非常普遍。学习基本算法的障碍基本消失了。技术行业的所有主要参与者都以某种方式利用它。这里有一点关于Facebook在做什么,以及机器学习在苹果上招聘。其他的还提供平台来实现机器学习更简单,比如微软和亚马逊。

对于参与搜索引擎优化和数字营销的人员,您可以期望这些主要参与者将越来越好地利用这些算法来帮助他们实现目标。这就是为什么调整策略以符合这些组织的目标至关重要。

在SEO的情况下,机器学习将不断增加内容质量和用户体验随时间的重要性。对于你来说,这个时间可以让你有机会把这些因素作为整体搜索引擎优化策略的关键部分。

原文:https://moz.com/blog/machine-learning-revolution

免责声明:文章翻译转载,若侵犯了您的权益,请联系我及时删除