新書推薦:
《
伟大民族:从路易十五到拿破仑的法国史(方尖碑)
》
售價:HK$
188.2
《
古今“书画同源”论辨——中国书法与中国绘画的关系问题兼中国画笔墨研究
》
售價:HK$
132.2
《
《日本文学史序说》讲演录
》
售價:HK$
72.8
《
无尽的海洋:美国海事探险与大众文化(1815—1860)
》
售價:HK$
99.7
《
治盗之道:清代盗律的古今之辨
》
售價:HK$
122.1
《
甲骨文丛书·剑桥世界暴力史(第一卷):史前和古代世界(套装全2册)
》
售價:HK$
210.6
《
甲骨文丛书·中华早期帝国:秦汉史的重估
》
售價:HK$
300.2
《
欲望与家庭小说
》
售價:HK$
98.6
內容簡介:
《SEO的艺术原书第2版》由恩吉所著,本书是真正的巨著,作者都是SEO领域的大腕,在SEO顾问、培训以及搜索引擎的理解方面有着胜人一筹的独到观点,而从内容看,本书涵盖了SEO的各个领域,有丰富的实例,不仅详细剖析了不同类型网站在SEO不同阶段的最佳实践,还指出了许多过时以及危险的错误做法,仔细阅读这本书,在了解SEO的正确做法之外,还能够帮助读者远离“黑帽”SEO,实现可持续的网站目标。
關於作者:
Eric Enge,SEO顾问公司Stone Temple
Consulting的总裁,业界公认的SEO专家。
目錄 :
序
前言
第1章 搜索:反映认知、连接商务
1.1 搜索引擎的任务
1.2 搜索引擎的市场份额
1.3 人类搜索的目标
1.4 确定搜索者意图:营销人员和搜索引擎面临的共同挑战
1.5 人们如何搜索
1.6 搜索引擎怎样驱动网络商务
1.7 注意力跟踪:用户如何浏览搜索结果页面
1.8 点击跟踪:用户如何点击自然搜索和付费搜索结果
1.9 结论
第2章 搜索引擎基础
2.1 理解搜索引擎结果
2.2 基于算法的排名系统:爬行、索引和排名
2.3 确定搜索者意图并交付相关、新鲜的内容
2.4 分析排名因素
2.5 使用高级搜索技术
2.6 垂直搜索引擎
2.7 结论
第3章 确定SEO目标,定义网站受众
3.1 SEO从业者所能完成的策略性目标
3.2 每个SEO计划都是量身定制的
3.3 理解搜索引擎流量和用户意图
3.4 在网站开发之前制订SEO计划
3.5 理解受众,寻找合适的定位
3.6 为原始流量开展SEO
3.7 为电子商务开展SEO
3.8 为头脑份额品牌开展SEO
3.9 为客户挖掘和直接营销开展SEO
3.10 为声誉管理开展SEO
3.11 为意识形态影响力开展SEO
3.12 规划和评估的高级方法
3.13 结论
第4章 SEO的开始阶段
4.1 规划的要素
4.2 确认网站开发过程和参与者
4.3 定义网站信息架构
4.4 审计现有网站,发现SEO问题
4.5 确定当前服务器统计软件并获得权限
4.6 确定主要竞争对手
4.7 评估历史进展
4.8 建立当前索引状态的基准
4.9 建立当前排名基准
4.10 建立当前流量来源和流量的基准
4.11 利用企业资源推动SEO
4.12 整合企业资产和历史数据,进行SEO网站SWOT分析
4.13 结论
第5章 关键词研究
5.1 策略性的考虑
5.2 理解关键词需求曲线的长尾
5.3 传统方法:行业专门知识,网站内容分析
5.4 关键词研究工具
5.5 确定关键词价值潜在的ROI
5.6 利用关键词需求的长尾
5.7 结论
第6章 开发SEO友好的网站
6.1 让搜索引擎能够访问你的网站
6.2 创建最优的信息架构
6.3 根域、子域和微型网站
6.4 域名URL优化
6.5 关键词定位
6.6 内容优化
6.7 重复内容问题
6.8 用Cookie和会话ID控制内容
6.9 内容交互和搜索蜘蛛控制
6.10 重定向
6.11 CMS问题
6.12 多语言国家定位的最佳实践
6.13 结论
第7章 创建值得链接的内容和链接营销
7.1 链接如何影响搜索引擎排名
7.2 深入探讨搜索引擎评判链接的方法
7.3 链接心理学
7.4 链接建设类型
7.5 选择正确的链接建设策略
7.6 基于内容的链接获取的更多方法
7.7 基于利益的链接营销
7.8 搜索引擎如何与链接垃圾交锋
7.9 通过社会化网络得到链接
7.10 结论
第8章 社会化媒体和用户数据在搜索结果与排名中所起的作用
8.1 为什么依靠社会化信号
8.2 直接影响搜索结果的社会化信号
8.3 社会化媒体营销的间接影响
8.4 监控、度量和改进社会化媒体营销
8.5 作为搜索质量度量指标的用户交互
8.6 文档分析
8.7 优化用户体验以改进SEO
8.8 其他社会化媒体资源
8.9 结论
第9章 优化垂直搜索
9.1 垂直搜索中的机会
9.2 为本地搜索进行优化
9.3 优化产品搜索
9.4 优化新闻、博客和源搜索
9.5 其他:移动、视频多媒体搜索
9.6 结论
第10章 跟踪结果与度量成功
10.1 为什么度量成功对SEO过程不可或缺
10.2 度量搜索流量
10.3 将SEO与转化和ROI联系起来
10.4 竞争性和诊断搜索指标
10.5 长尾SEO的关键绩效指标
10.6 跟踪重复内容
10.7 其他第三方工具
10.8 结论
第11章 域更改、SEO后再设计以及故障诊断
11.1 内容移动基础
11.2 在网站重新设计期间和之后维持搜索引擎可见性
11.3 在域名更改期间和之后维持搜索引擎可见性
11.4 更换服务器
11.5 隐藏内容
11.6 垃圾过滤和惩罚
11.7 内容剽窃
11.8 更换SEO供应商或者团队成员
11.9 结论
第12章 SEO调查和研究
12.1 SEO调查和分析
12.2 不同搜索引擎和搜索类型的算法差异分析
12.3 竞争分析
12.4 使用搜索引擎提供的SEO工具
12.5 Web上的SEO行业
12.6 参加会议和组织
12.7 结论
第13章 建立内部SEO团队、外包还是两者皆可
13.1 SEO的任务
13.2 使用内部人才和外包带来的活力与挑战
13.3 网站复杂性对SEO工作量的影响
13.4 小型机构的解决方案
13.5 大型机构的解决方案
13.6 雇用SEO人才
13.7 与外部专家合作的情况
13.8 选择SEO公司顾问
13.9 组合外包SEO和内部SEO团队
13.10 在机构中建立SEO文化
13.11 结论
第14章 进化中的艺术形式:SEO的未来
14.1 搜索的持续演变
14.2 更多搜索内容和内容类型
14.3 个性化、本地化和用户对搜索的影响
14.4 本地、移动和语言识别搜索越来越重要
14.5 市场饱和度和竞争加剧
14.6 SEO是持久的艺术形式
14.7 结论
术语表
內容試閱 :
第1章
搜索:反映认知、连接商务
搜索已经与当今的社会融为一体。截至2011年8月,全球每个月执行的搜索超过了1580亿次(根据comScore,
http:www.comscore.com的数字),每天大约执行52亿次。这意味着,每秒平均要执行大约61
000次搜索。此外,用户对搜索查询返回的期望时间是1秒钟之内。
搜索是一种全球性的现象。截至2011年3月,全世界的互联网用户数量超过了20亿(http:www.internetworldstats.comstats.htm),而在亚洲的渗透率还只有23.8%,非洲则只有11.4%。
对搜索存在着很高的需求,而且这种需求还在增长,因为现在人们几秒钟之内获得的信息,在20年前必须前往图书馆,使用卡片目录和杜威十进制系统,在书库中来回搜索才能获得,这一过程可能需要花费两小时或者更多的时间。通过新的搜索渠道,人们还能在网上购物、进行银行业务和社交——这已经改变了我们的生活和交流方式。
行为方式上的戏剧性变化代表的是投资者所说的“破坏性事件”——那种从根本上改变事物的事件。搜索引擎就在这种破坏性事件的中心,当人们寻找服务、产品或者资源时,提供这些服务的企业网站在搜索引擎中的排名对于企业的生存而言至关重要。正如大部分通往成功的途径一样,在搜索结果中占据领先地位不是简单的事情,这也是本书致力于分析和解密的主题,我们将研究、解释和探索不断变化的搜索引擎优化(Search
Engine Optimization,SEO)艺术。
1.1 搜索引擎的任务
因为Web搜索者可以自由使用网上存在的许多搜索引擎寻找他们所要的内容,所以发展相关、快速和新鲜的搜索体验就成为搜索引擎的责任。大部分搜索引擎通过感知最相关的结果并以最快速度提交这些结果来实现这一目标,用户则会选择前往他们认为在最短时间内提供答案的搜索引擎。
因此,搜索引擎投入了大量的时间、精力和资金改进它们的相关性。这包括广泛研究用户对搜索引擎的反应,与其他搜索引擎的结果进行比较,进行视线跟踪研究(本章后面将讨论),以及建立公共关系和开展营销活动。
搜索引擎的收入主要来自付费广告。这种收入大部分来自按点击付费(pay-per-click或者cost-per-click)模式,在这种模式中广告商只在用户点击他们的广告时才付费。因为搜索引擎的成功很大程度上依赖于搜索引擎的相关性,对搜索引擎排名进行操纵而导致非相关性结果(通常称作垃圾)被当作非常严重的事件。各种主流搜索引擎都雇用一个团队,专门寻找和消除搜索结果中的垃圾。这对于SEO从业人员来说至关重要,因为他们必须小心谨慎,使得采用的策略不被搜索引擎当作垃圾处理,否则,他们服务的网站就有遭受惩罚的危险。
1.2 搜索引擎的市场份额
图1-1显示了2011年7月美国市场上各个搜索引擎所占的份额,资料来自comScore。可以看出,Google在美国市场中占据着统治地位。
图1-1:搜索引擎市场份额(2011年7月)
在许多欧洲国家中,这种差距更为悬殊。但是,在某些市场中,Google并不占据优势,例如,在中国,百度是领先的搜索引擎。从世界上的大部分市场来看,将SEO的焦点放在Google上是明智的策略。
1.3 人类搜索的目标
人类搜索者的基本目标是获得与查询相关的信息。但是,搜索者的查询可以采用许多不同的形式。在为围绕SEO和搜索排名的网站构建在线营销策略时,最重要的因素是充分理解目标受众的心理。一旦理解了普通搜索者——更具体地说是你的目标市场——使用搜索引擎的方式,你就能更加有效地接触并留住这些用户。
多年以来搜索引擎的用法已经发生了演变,但是进行搜索的基本原则大体上没有变化。大部分搜索过程包含如下步骤:
1.
体验对答案、解决方案或者信息片断的需求。例如,用户可能打算搜索一个网站(导航型查询)购买某件东西(交易型查询)或者了解某件事情(信息型查询)。下一节将更详细地讨论这一步。
2.
用一串单词和短语(查询)阐述需求。大部分人用1~3个单词表达他们的查询。表1-1更详细地描述了不同查询长度的搜索比例。
3. 执行查询,查看结果中是否有所需要的内容,如果没有,则尝试修改查询。
表1-1:不同查询长度的搜索(comScore,2011年8月的数据)
单词数 搜索比例
1 25.8%
2 22.8%
3 18.7%
4 13.2%
5+ 19.5%
如果这一过程令人满意地完成了任务,用户、搜索引擎和提供信息或结果的网站都能得到良好的体验。
谁在搜索?他们搜索什么
据comScore报道,2011年8月,全球所有搜索引擎上一共执行了大约1580亿次搜索。
comScore的数据还显示,在一天之内有超过13亿人使用搜索引擎。在美国的搜索引擎用户中,女性略多于男性(50.1%∶49.9%)。据comScore说,截至2011年8月,美国一共有2.16亿互联网用户,其中23的用户年收入达到或者超过4万美元(如表1-2所示)。
表1-2:按照家庭收入统计的互联网用户数(2011年8月)
美国家庭收入 互联网用户数
$15 000以下 22 581(10.5%)
$15 000~$24 999 11 999(5.6%)
$25 000~$39 999 31 558(14.6%)
$40 000~$59 999 49 651(23%)
$60 000~$74 999 24 521(11.4%)
$75 000~$99 999 29 698(13.7%)
$100 000以上 45 998(21.3%)
可以在Search Engine Land的Stats
Behaviors(统计与行为方式)页面(http:searchengineland.comlibrarystats-search-behavior)上看到其他来自研究、调查和白皮书的数据。
所有这些研究数据帮助我们取得了有关通过搜索引擎进行网络搜索和营销的一些重要结论。例如:
搜索非常流行。美国超过88%的人和全世界数十亿人正在使用它。
Google在大部分市场中占据统治地位。
用户倾向于使用简短的搜索词,但是长度正在逐渐增加。
搜索覆盖了各种类型的市场。
不管企业的规模、用户群或者核心业务如何,搜索无疑都是接触客户、开展业务的最佳和最重要手段之一。
1.4 确定搜索者意图:营销人员和搜索引擎面临的共同挑战
好的营销人员具有同情心。精明的SEO从业人员和搜索引擎有共同的目标,就是为搜索者提供与其查询相关的结果。因此,要构建围绕SEO和搜索排名的在线营销策略,关键的要素就是理解你的受众。一旦掌握了目标用户搜索服务、产品或者资源的方式,你就能更有效地接触和留住这些用户。
搜索引擎营销人员必须意识到,搜索引擎是工具——意图所驱动的资源。使用搜索框和在浏览器的地址栏输入URL、点击书签或者从启动页面选择一个链接前往某个网站有着本质的不同,和点击StumbleUpon工具栏上的“stumble”按钮或者访问你最喜欢的博客也有所不同。搜索都是有目的的,用户希望找到某些特别的信息,而不是只靠碰运气。
接下来将说明以下不同类型的查询,它们的分类、特性和过程。
1.4.1 导航型查询
导航型查询的意图是直接浏览某个特定的网站。在某些情况下,用户可能不知道准确的URL,搜索引擎这时起到“电话号码簿”的作用。图1-2展示了一个导航型查询的例子。
图1-2:导航型查询
机会:将搜索者从目标拉过来;获得辅助性或者研究性的流量。
平均流量价值:当搜索的内容就是发布者自身的品牌时,价值非常高。这类搜索倾向于造成高的转化率。但是,因为这些搜索者已经了解公司的品牌,所以他们代表的可能不是新顾客。对于搜索目标以外的品牌来说,平均点击率可能比较低,但是这可能代表从竞争者那里夺取客户的机会。
1.4.2 信息型查询
信息型搜索涉及非常广泛的查询——例如,当地天气、地图和路线,最新好莱坞颁奖典礼的详情或者了解到火星的旅程需要花费多长时间。信息型搜索的主要目的不是交易(但是可能包含产品或者服务的信息研究);信息本身就是目标,除了点击和阅读之外,没有其他交互。图1-3展示了信息型查询的一个例子。
图1-3:信息型查询
机会:品牌搜索者对你的网站、信息、公司有正面的印象;吸引入站链接;得到新闻记者研究人员的注意;可能转化为注册或者购买。
平均流量价值:因为搜索者可能还没有做好购买任何东西的准备,或者没有购买任何东西的长期意向,所以价值最多是“中等”。但是,许多这类搜索者以后会进行更有针对性的搜索,这代表着捕捉潜在客户的思维的机会。例如,关注商业化产品或者服务研究的信息型查询可能具有很高的价值。
1.4.3 交易型查询
交易型查询并不一定涉及信用卡或者银行汇款。在CooksIllustrated.com注册一个免费试用账户,创建一个Gmail账户,支付停车费或者寻找当地最好的墨西哥餐厅用晚餐都是交易型查询。图1-4展示了交易型查询的一个例子。
图1-4:交易型查询
机会:实现交易(金融或者其他)。
平均流量价值:非常高。
宾夕法尼亚州立大学和昆士兰科技大学的研究表明(http:ist.psu.edufaculty_pagesjjansenacademicpubsjansen_user_intent.pdf),超过80%的搜索本质上是信息型的,只有大约10%的搜索是导航型或者交易型的。
研究人员进一步开发了一个算法,自动对搜索进行分类。在测试该算法时,他们发现74%的查询能够得到正确的分类。其余查询难以分类的原因是用户的意图比较模糊——也就是说,查询可能有多种含义。在下面的网站中能找到有关这一主题的更多学术研究资料:
http:www.sigir.orgforumF2002broder.pdf
http:www.strategynode.comhow-to-determine-if-a-search-query-is-navigational-informational-or-transactional
自适应搜索
搜索引擎还从搜索查询的顺序中确定意图。这在Eric Enge与Google搜索产品管理负责人Jack
Menzel的会谈中得到证实(http:www.stonetemple.comhow-google-does-personalization-with-jack-menzel)。你可以尝试搜索“罗马”,接着搜索“旅馆”来证实这一点。通常,对“旅馆”的搜索不包含罗马旅馆的结果,但是当前一个查询与“罗马”有关时,结果就会包含在罗马的旅馆。跟踪用户之前的搜索查询并在确定新查询结果时加以考虑称作自适应搜索adaptive
search,意在帮助搜索引擎更好地了解用户的意图。搜索引擎必须小心使用这一功能:根据最近查询历史过度地改变返回结果可能导致问题,所以通常这类改变必须限制在合理的范围内。但是,了解用户请求信息中的搜索顺序是很有必要的。
网站发布者如何利用用户的意图
当你为客户或者自己的网站构建关键字搜索统计图表的时候,确定每个主要关键词的意图是极有价值的。表1-3展示了一些例子。
表1-3:搜索查询示例和意图
搜索词 查询次数 意图 价值
北京机场 980 导航 低
西安酒店 2 644 信息 中
中国7日游套餐 127 交易 高
四川海蜇菜谱 53 信息 低
这类分析有助于确定投放广告和集中内容及链接的位置。
这些数据有可能帮助你谨慎考虑如何根据不同的意图,为不同类型的搜索者提供服务,并将你的精力投入最有潜力的地方。
尽管信息型查询立刻转化为销售的可能性较小,但是这并不意味着你应该放弃对这类查询中排名的追求。如果你能够在信息型查询之后建立与查找网站的用户的关系,以后他们就更有可能在网站上进行相关的购买行动。
问题是,当大部分搜索者进行查询时,向搜索引擎提供的数据非常有限——通常只是1~3个单词。由于大部分人对搜索引擎的工作原理没有深入的了解,因此用户提供的查询往往过于笼统,或者表达方式令搜索引擎(或者营销人员)难以确定他们的意图。
对于大部分企业而言,一般性的查询很重要,因为它们往往能使品牌和网站进入搜索者的视野,从而开始建立用户信任的过程。随着时间的推移,用户就会继续进行更具体的搜索,这些搜索的性质可能就会更倾向交易型或者导航型。
例如,如果购买按点击付费(Pay-Per-Click,
PPC)搜索广告的公司只购买高转化率的导航型和交易型搜索词,而将信息型的搜索词留给竞争对手,那么它们的市场份额将被这些竞争者夺走。在几天之内,一个搜索者可能从“数码相机”开始,跟踪到“佳能G10”,最终从最初显示“数码相机”搜索结果的某个商店中购买,因为她是通过这个商店找到“佳能G10”这个型号的。
但是,考虑到查询过程的一般特性,确定意图相当困难,这可能导致执行的搜索无法找到用户想要的结果,即使多次重试也仍然无果。2011年7月的一篇报道(http:www.eweek.comcaSearch-EnginesGoogle-Could-Boost-Customer-Satisfaction-Vs-Facebook-ACSI-Report-644343)指出,83%的Google用户和82%的必应(Bing)用户对搜索的体验感到满意。
考虑到构建搜索引擎的复杂性,83%的满意率已经是令人惊叹的成就了,但是研究仍然表明超过17%的用户找不到需要的内容。作为SEO从业人员,你应该意识到你成功吸引到网站来的有些访问者可能是误打误撞的(也就是说,他们实际上查找的是别的内容),而这些访问者对于你的业务目标不可能有什么帮助。维持你所管理的页面中内容的高相关度,将这种浪费降到最低限度,是SEO任务的组成部分。
1.5 人们如何搜索
为了让人们得到更好(也就是更快、更新鲜和更相关)的搜索结果,搜索引擎投入大量资源了解人们的搜索方式。对于网站发布者来说,关于人们如何搜索的信息有助于改进网站的易用性和搜索引擎兼容性。
根据comScore的数据,很容易看出人们常常搜索的内容的类型。表1-4根据2011年8月的comScore数据,展示了人们在互联网上搜索的主要类别。
表1-4:按照市场分割的搜索类别
父类别名称 搜索总数
目录资源 2 789 625 911
娱乐 1 750 928 801
零售 1 686 123 715
服务 1 288 400 837
对话性媒体 837 067 182
社区 653 405 269
旅游 462 129 796
健康 435 860 663
新闻信息 421 756 642
体育 297 503 391
表1-4显示,人们的搜索涉及非常广泛的类别。搜索引擎用来寻找我们生活中几乎所有领域的信息。此外,用户与搜索引擎的交互可能是一个多步骤的过程。我们亲眼看看图1-5中Microsoft所记录的用户搜索过程。
图1-5:迈乐鞋用户搜索过程
在该过程中,用户进行了5次搜索,花费超过55分钟才做出最后的决定。很明显,用户试图解决一个问题,并且不懈地努力直到任务完成。
但是,对于这类搜索过程,花费一天以上时间的情况越来越常见。2007年ScanAlert进行的电子商务网站研究表明,30%的在线交易发生在第一次搜索的24小时以后(http:searchenginewatch.com3626363)。
购买周期有时候可能涉及大量的点击。Marin软件公司(http:www.marinsoftware.com)向我们提供了一家耐用消费品零售商(它的产品代表着高价值、深思熟虑的购买行为)的数据,50%的订单都需要超过10次点击才能完成。
对于这家特殊的零售商,当你观察不同广告组在这10次点击中的选中数量,就会发现这些点击都是来自相同的关键词。实际上,在从多次付费点击转化的购买行为中,超过75%都是来自于相同的广告组。只有7%的转化来自于3个不同的广告组(没有任何转化来自多于3个广告组的点击)。
表1-5说明了第一次点击这家零售商网站到发生购买之间的延迟时间。
表1-5:第一次点击和购买之间的延迟
第一次点击和购买之间的延迟 用户比例
当天 50%
2~7天 9%
8~30天 12%
31~90天 26%
90天以上 3%
这种行为模式表明,用户分阶段考虑他们的任务。正如图1-5中列举的迈乐鞋示例,人们往往从一般性的词语开始,随着目标的临近,逐渐采用更加具体的搜索词。他们还可能尝试一般性词语的不同变种。在图1-5中,用户搜索“Merell
shoes”似乎没有找到所需要的信息,于是她接着尝试“discount Merrell
shoes”(打折的迈乐鞋)。然后,你可以看到她微调搜索词,直到最后确定Easy Spirit就是她所要的鞋子。
这只是搜索序列的一个例子,这方面的变化是无法穷尽的。图1-6展示了另一个搜索过程,再次感谢微软提供数据。
图1-6:健康问题用户搜索过程
在这个搜索过程中,用户关注健康方面的问题。她从一个5个词的搜索开始,这说明她对搜索引擎的使用有一定的经验。在3分01秒时,对“headache
pregnant 3rd
trimester”(孕晚期头痛)的搜索将她带到了Answers.yahoo.com(雅虎知识堂)。访问这个网站之后,她的搜索突然变得更加具体。
她开始聚焦于妊娠期糖尿病,可能是因为在雅虎知识堂上看到的某些信息使她相信自己可能患上了这种疾病。搜索过程在对“first
signs of gestational
diabetes”(妊娠期糖尿病初期症状)的搜索中达到高潮,说明她已经得到结论——这很可能就是她所要面对的问题。
这次搜索过程到此为止。这时用户可能感觉已经知道了问题的答案,她的下一步可能是前往医院,根据所了解的情况询问医生。
下一个搜索过程示例从一个导航型搜索开始,用户所希望的只是寻找旅游网站Orbitz.com(见图1-7)。该用户在网站上短暂停留,然后搜索“Cancun
all inclusive vacation
packages”(坎昆全套度假套餐)。接着,她搜索了几个具体的度假村,最后选定了“Cancun Riviera
maya”旅馆,此后她似乎预订了该旅馆的房间——该搜索访问的最后一个网站是Bookings.occidentalhotels.com,再往后,她的搜索方向就变了。
这时,该用户开始寻找在坎昆时能做些什么。她搜索“Cancun theme
park”(坎昆主题公园),然后开始寻找“xcaret”,这是当地著名的生态公园。
用户搜索的时候可能经历无数不同的情况。这些搜索过程示例表现了传统的PC交互。来自移动搜索的最新数据表明,移动搜索者有不同的表现,他们更倾向于完成交易。2011年5月eMarketer的研究数据说明,55%的人在他们的智能手机上搜索信息之后访问了搜索结果中找到的公司。搜索引擎对这些不同类型的场景进行了许多建模工作,帮助它们向用户提供更好的结果。SEO从业者也能够从搜索者行为的基本了解中获益,第2章将更加详细地讨论这一点。
图1-7:旅游用户搜索过程
1.6 搜索引擎怎样驱动网络商务
人们出于各种各样的目的使用搜索引擎,其中最流行的是研究、寻找和购买产品。根据美国人口普查局2011年第2季度的报告,电子商务销售额达到475亿美元(http:www.census.govretailmrtswwwdatapdfec_current.pdf)。
重要的是,搜索和离线行为在很大程度上相互作用,搜索在推动离线销售方面正在起着越来越大的作用。Google在2011年开始的一项研究表明,1美元的在线广告能够产生4~15美元的离线销售额(http:www.youtube.comwatch?v=Xpay_ckRpIU)。
根据Forrester Research
2010年3月的报告,2009年美国消费者在网络上购买了价值超过1550亿美元的商品。这看上去是个很大的数字,然而对离线销售的影响远不止于此。Forrester估计,2009年受到Web影响的零售业销售额达到9170亿美元。而且,在线和受到Web影响的离线销售额合计占据了零售业销售总额的42%。本地搜索越来越成为SEO的重要组成部分,这也是第2章要深入研究的主题。
1.7 注意力跟踪:用户如何浏览搜索结果页面
调查公司Enquiro、Eyetools和
Didit发起的搜索引擎用户热图(heat-map)测试(http:www.enquiro.comresearcheyetrackingreport.asp)产生的结果引人注目,揭示了用户参与搜索活动时查看的内容和焦点。图1-8描述了Google上进行的热图测试。该图表明,用户的注意力大部分时候集中在左上角阴影最深的位置。
2006年11月公布的这项研究清楚地说明,比起页面上方,页面下方的内容吸引的注意力很少,用户的注意力被吸引到以粗体表示的关键词、标题和自然(“有机”结果的描述,而付费搜索列表得到的注意力相对较少。
这项研究还表明,屏幕上不同物理位置的搜索结果引起的注意力模式也各不相同。查询标准的Google搜索结果页面时,用户视线的移动倾向于一个F型图案,首先关注以及花费最长时间的是屏幕左上角,然后垂直向下浏览前2~3个结果,跨过页面到第一个付费结果,垂直向下再查看几个结果,然后再次横跨到第2个付费结果。(这个研究只在从左向右阅读的语言的搜索结果上进行过——对于希伯莱文和其他非从左向右阅读的语言,结果可能不同)。译注1
2008年5月,Google推出通用搜索(Universal
Search)的概念,从简单地显示10个最具相关性的网页(现在称为“10个蓝色链接”),转向在搜索结果页面上也显示其他类型的媒体,如视频、图像、新闻结果等。其他搜索引擎在短短几个月内也纷纷效仿,该行业现在将这个概念称作整合搜索(Blended
Search)。
图1-8:Enquiro注意力跟踪结果
然而,整合搜索造成了更多的分块效应,其中这些分块围绕各种富媒体对象——例如,图像或者视频。可以理解,用户首先关注的是图像,然后他们会关注图像旁边的文字,查看它是否对应于图像或者视频略图(视频开始时显示为一幅图像)。根据Enquiro在2007年9月公布的更新研究结果,整合搜索页面的注意力跟踪模式如图1-9所示。
图1-9:Enquiro整合搜索注意力跟踪结果
用户的视线倾向于沿着最短的路径移动到侧面,依靠图像而不是左上角的文本进行定位。但是要注意,这种情况只出现在图像放在“折叠线之上”译注2,用户不需要滚动页面就能看到的时候。在搜索者向下滚动页面之前,折叠线之下的图像不会影响最初的搜索行为。
User
Centric于2011年1月进行的最新研究得到了类似的结果(http:www.usercentric.comnews20110126eye-tracking-bing-vs-google-second-look),如图1-10所示。
图1-10:User Centric注意力跟踪结果
2010年,Enquiro开展了Google
Instant对搜索使用和注意力影响的调查(http:ask.enquiro.com2010eye-tracking-google-instant),在调查中发现:
在25%的搜索任务中输入查询的比例下降,在其他任务中则没有变化。
在17%的搜索任务中查询长度增加,在其他任务中则没有变化。
在33%的搜索任务中点击时间减少,在8%的任务中则有所增加。
这些研究提醒我们,搜索引擎结果页面(Search Engine Results Page,
SERP)有多么重要。正如注意力跟踪研究所表明的那样,“丰富”或者“个性化”的搜索正在发展,它们将会更大程度地改变用户的搜索模式:页面上会有更多吸引注意力的对象,用户也有更多的方法去记住和访问搜索列表。搜索营销人员也需要对此做好准备。2012年1月Search,
plus Your World的公布对搜索结果也将产生深远的影响,但是到2012年2月仍没有相关的研究出炉。
1.8 点击跟踪:用户如何点击自然搜索和付费搜索结果
现在,你应该已经确信自己希望排在SERP的前列了。在自然搜索结果中排名第一绝没有什么坏处。
与此相反,数据显示,在付费搜索结果中排名第一可能不是你的愿望,因为在PPC活动中排名第一可能降低营销活动的净盈利总额。AdGooroo于2008年6月公布的研究(http:www.adgooroo.comhow_keyword_length_and_ad_posi.php)发现:
争夺PPC排名靠前的位置,在财务上只对高预算的品牌广告商有意义。大部分其他广告商将会发现,大部分关键词的最佳位置在第5~7位。
当然,许多广告商可能出于各种原因追求付费搜索结果的第一位。例如,如果他们的网站上有强大的后续销售手段,即使排名第一仍然有盈利的能力,就可能选择追求这个目标。但是,调查数据表明,许多机构在付费搜索中获得的排名毫无意义。
即使在自然搜索中已经排名第一,你仍然可以通过在页面右边放置赞助广告,提升排名页面的点击率。AdGooroo的调查表明,在同一个搜索结果页面上拥有占据显著位置的付费广告,能使自然搜索排名第一的页面的点击率增加20%。
1.8.1 搜索结果和流量分布
为了对搜索结果稍作分类,图1-11展示了两类搜索结果在屏幕上所占据的空间。这个屏幕截图取自Google在2012年公布Search,
plus Your World之前,但是这类屏幕布局与前述的研究相关,有助于理解搜索结果中点击率最高的部分。
来自Google的这个例子显示,付费结果出现在自然搜索结果的上方及右侧。注意,Google往往不在自然结果上方显示付费结果,而仅仅在右侧显示。
图1-11:付费和自然搜索结果
在结果中的位置对获得的流量有巨大的影响。有关SERP位置影响的研究得到了各种各样的结果,但是都承认较高的位置有显著的优势。图1-12显示了AOL在2006年发布的数据(http:www.webuildpages.comjimclick-rate-for-top-10-search-results)。
图1-12:按照SERP位置分布的点击率(Click-Through Rate ,CTR)
此外,前10个结果获得的流量占总数的89.71%;接下来的10个结果(通常在结果的第2页列出)获得的流量占4.37%,第3页中的结果获得的流量占2.42%,第5页只有1.07%。其后的所有页面占据的搜索流量不足1%。
康奈尔大学进行的搜索位置点击率研究(http:www.cs.cornell.eduPeopletjpublicationsgranka_etal_04a.pdf)显示了相似的结果,但是向第一个位置的倾斜更明显,排名第一的结果点击数占据总点击数的56.36%。
搜索者为何无视页面下半部分的相关结果?是不是“暗示认同”效应使用户相信搜索引擎会将他们带到正确的页面?
根据康奈尔大学的研究,72%的搜索者点击感兴趣的第一个链接,而25.5%的搜索者会看完第一页列出的所有页面之后再做决定。暗示认同和快速认知这两种效应在搜索者的行为中所起的作用很可能同样重要。
1.8.2 付费和自然搜索结果列表的不同意图及效果
图1-12中的AOL数据说明,自然结果获得了大部分点击量。来自Enquiro、Didit和Eyetools的进一步注意力跟踪研究的数据显示,用户在查看搜索结果页面时,注意到的是哪些结果(见表1-6)。
表1-6:自然搜索结果可见性
排名 可见性
1 100%
2 100%
3 100%
4 85%
5 60%
6 50%
7 50%
8 30%
9 30%
10 20%
类似地,表1-13展示了当查看搜索结果页面时,注意排名靠前的付费结果的用户比例。
表1-7:付费搜索结果可见性
排名 可见性
1 50%
2 40%
3 30%
4 20%
5 10%
6 10%
7 10%
8 10%
注意,上述数据说明,自然搜索结果列表的可见性是相同位置的付费结果的两倍以上(最多达到6倍)。例如,只有60%的用户注意到自然搜索中排名第5的结果,而付费搜索结果更糟糕,只有10%的用户注意到第5个结果。随着Search,
plus Your
World的出现,付费搜索结果的可见性进一步降低,这更加促使付费搜索广告商争夺自然查询结果之上的付费结果位置,未能出现在那里的广告商得到的流量也将更少。
Enquiro等公司的研究还得到了更多的信息:
85%的搜索者点击了自然搜索结果。
赞助广告的前4位在可见性和点击率上大约相当于自然搜索的第7~10位。
这意味着,如果你需要考虑自然搜索,假如你所投资的关键词在自然搜索中至少能得到第3的排名,那么自然搜索的价值相当于你的PPC结果的2~3倍。
很明显,PPC模型对于公司来说更容易理解,因为它比SEO更像传统的直接营销方法。与SEO活动相比,PPC活动的投资回报率(Return
On Investment,
ROI)更容易可靠地跟踪和论证;因此,到目前为止,它仍然被认为是更可靠的营销渠道。但是,随着预算的紧缩和焦点转移到最高ROI的搜索投资,越来越多的企业开始关注SEO。
1.8.3 自然和付费搜索的相互作用
iCrossing
2007年发布的一份报告(http:www.icrossing.comicrossing-search-synergy-report-natural-paid)显示,自然和付费搜索有很强的协同作用。这项研究说明了在现有的付费搜索活动中加入自然搜索所产生的效果,并比较了这样做与单独付费搜索活动的效果。
图1-13总结了对结果的改善情况。
图1-13:自然和付费搜索的相互作用
显著提高的点击率有直观的意义。多年以来,营销人员都知道给消费者留下的印象对信息的记忆以及购买的可能性都有显著的影响。Google
2012年公布的Search, plus Your
World当然对此也有重大的影响,它将为营销人员提供给用户留下印象的三种不同的机会——在自然搜索中、付费结果中以及SERP右上角的Google+
Brand页面结果中。
搜索页面为你提供了将你的名字放到用户面前的另一次机会,你应该尽可能地利用它。理解自然和付费搜索的不同之处也是很有用的。尽管有些用户并不理解自然搜索结果和付费搜索结果之间的区别,但是大部分用户将付费搜索结果当作广告是业界的共识。
不过,这一观点并没有得到普遍的认可。Stephan Spencer为Search Engine
Land所写的一篇文章说明了进行PPC活动时SEO活动的结果。如图1-14所示,当PPC活动停止,自然搜索流量上升了。
Google还对此进行了研究,并于2011年公布。这项研究显示,自然搜索流量在同时进行PPC活动时会下降,但是自然和付费搜索流量加起来高于单项流量(http:searchengineland.comgoogle-study-ppc-ads-do-not
-cannibalize-your-organic-traffic-86972)。可以预期,对于搜索者而言,完全理解Google+
Brand Page的结果以及同自然和付费结果之间的差别还需要时间。图1-15展示了包含Brand
Page的Google结果的一个例子。
图1-14:自然搜索流量和PPC活动的相互作用
图1-15:NFL译注3的Google+ Brand页面
1.9 结论
搜索已经渗透到社会生活的各个方面,人们工作、游戏、购物、搜索和交流的方式都已经彻底改变。各类组织(企业和团体)以及个人都必须出现在网络上——他们需要搜索引擎带来流量。随着我们的社会越来越接近于消费专业化经济,人们在互联网上创建、发布、传播以及最终寻找信息和资源的方法也变得越来越重要。本书将进一步研究处于Web核心的搜索方式和搜索引擎优化,它们仍然是你在新兴的网络经济中成功的关键。
第2章
搜索引擎基础
本章将开始研究搜索引擎的工作原理。这一主题的坚实基础对于理解SEO这一行业是必不可少的。
第1章已经讨论过,人们习惯于在提交搜索查询之后立即得到搜索引擎的回答。第1章还讨论了查询的数量(每秒超过6
000次),Google早在2008年就曾经宣布,他们知道Web上1万亿个页面的情况(http:googleblog.blogspot.com200807we-knew-web-was-big.html)。由于Web的快速成长,现在这个数字可能又增加了一个甚至多个数量级。
在如此庞大的数据处理任务背后是任务本身的复杂性。理解搜索引擎最重要的一点是,理解用于访问Web上所有网页的爬行器(也称“蜘蛛”)是一个软件程序。软件程序的智能受限于所使用的算法,尽管在这些算法中越来越多地使用了人工智能,Web爬行程序仍然没有人类所具备的自适应智能。
软件程序无法像人类那样正确地解读各种类型的数据——例如,在某种程度上,人眼对于视频和图片的辨别能力要胜过搜索引擎爬行器。这还不是爬行器的唯一局限,本章还将更详细地探索它们的某些不足。
当然,局面正在不断变化。搜索引擎持续地增加投资,以改进处理网页内容的能力。例如,图片和视频搜索的进步使得搜索引擎已经接近于人类的理解,2.6节将进一步讨论这个话题。
2.1 理解搜索引擎结果
在搜索营销领域,搜索引擎返回的满足查询要求的网页称作搜索引擎结果页(Search Engine Result Page,
SERP)。每个搜索引擎返回结果的格式略有不同,并且包含垂直搜索结果(针对查询中某些触发器的特定内容,稍后将讲解)。
2.1.1 理解搜索结果页面的布局
搜索结果页面的每个部分代表着搜索引擎提供的一个信息片段。下面是每一部分的定义。
垂直导航
每种搜索引擎都提供不同垂直方向搜索的选项,例如,图片、新闻、视频或者地图。点击这些链接将进行更详细索引的一个查询。例如,图2-3中,你可以查看有关填充玩具的新闻或者视频。
水平导航
搜索引擎还提供其他类型的导航元素。例如,在图2-1中你可以看到,Google提供了限制搜索引擎返回内容数据范围的选项。
搜索查询框
所有搜索引擎都会显示你已经进行的查询,允许你编辑查询或者从搜索结果页面输入新的查询。在搜索查询框旁边,搜索引擎还提供了指向高级搜索页面的链接,本书后面将讨论这些功能。
结果信息
这部分提供了你正在查看的结果的少量元信息,包括与特定查询相关的页面数量估计(这些数字经常不准确,只能用作粗略的比较手段)。
PPC(付费搜索)广告
许多企业从Google AdWords 或者Microsoft
adCenter购买文字广告。结果按照多种因素排序,包括相关性(在Google中考虑的因素是点击率、广告中使用的搜索关键词以及登陆页面的相关性)和出价金额(广告需要最高出价,然后与其他广告商的出价比较)。
自然有机算法结果
这些结果是从搜索引擎的主索引中采集的,按照由搜索引擎复杂算法得出的相关性和流行性排序。这部分结果是本书的主要关注点。
查询调整建议
Google、必应和雅虎都提供查询调整,这些链接的目标是让用户使用更加具体和相关性更强的查询进行搜索,以满足用户的意图。
2009年3月,Google采用2006年收购的Orion
Technology改进了查询调整。这一改进旨在提供更广泛的调整选择。例如,对“物理学原理”的搜索可能显示“宇宙大爆炸”、“角动量”、“量子力学”和“狭义相对论”等调整建议。
购物搜索结果
三种搜索引擎都有这一功能。购物结果在结果中加入了商家提供的信息,以便搜索者更方便地购物。
图2-1展示了Google对“stuffed animals”(填充玩具)的SERP。
图2-1:Google搜索结果布局
Google搜索结果的各个部分如下。
1. 水平导航(见左上)。
2. 搜索查询框。
3. 结果信息。
4. PPC广告。
5. 垂直导航。
6. 查询调整建议。
7. 自然有机算法结果。
尽管雅虎从没进行自己的Web爬行或者提供自己的搜索结果信息(它从必应获得信息),但是它仍然有独特的输出格式。图2-2展示了雅虎进行相同查询的结果。
图2-2:雅虎搜索结果布局
雅虎搜索结果的各个部分如下。
1. 水平导航。
2. 搜索查询框。
3. 结果信息。
4. 查询调整建议。
5. 垂直导航。
6. PPC广告。
7. 自然有机算法结果。
图2-3展示了微软必应搜索引擎对“stuffed animals”(填充玩具)的搜索结果布局。
图2-3:必应搜索引擎布局
必应搜索结果的各个部分如下。
1. 水平导航。
2. 搜索查询框。
3. 结果信息。
4. 查询调整建议。
5. 垂直导航。
6. PPC广告。
7. 自然有机算法结果。
8. 购物搜索结果。
要注意的是,由于搜索引擎经常测试新格式和布局,SERP总是在变化。因此,图2-1~图2-3中的画面可能只在几周或者几个月内保持准确,此后Google、雅虎和必应都可能转向新的格式。
2.1.2 垂直结果如何融入SERP
搜索引擎提供的当然不仅仅是“标准”结果。对于许多类型的查询,搜索引擎显示垂直结果(也称为即时回答),对用户问题的回答也不仅仅是其他网站的链接那么简单。这类结果对SEO从业者提出了更多的挑战和机会。
图2-4展示了这类结果的一个例子。图2-4中的查询返回一个带有地址的企业列表,以及获取前往该地址的路线选项。这种结果试图直接向用户提供所需要的答案。
图2-4:某企业的本地搜索结果
图2-5展示了另一个例子。图2-5中的Google搜索是“天气”+城市名,得到了一个直接的结果。同样,如果用户想知道的只是天气,就可能不需要点击网站。
图2-5:Google天气搜索
图2-6是一个搜索著名画家的例子,Google搜索“Edward
Hopper”返回这位画家最令人难忘的作品的图片。这个例子与图2-4和图2-5中的“即时回答”式结果有所不同。如果用户对展示的第一幅画感兴趣,他可以点击查看更大尺寸的图片,或者获得更多相关的信息。对于SEO从业者来说,在垂直结果中占据位置可能是一个重大的胜利。
图2-7展示了来自雅虎的一个例子。在雅虎上查询“chicago
restaurants”(芝加哥饭店)返回一个来自雅虎本地门户的流行饭店列表。在结果中的高排位对于Lou Malnati抯
Pizzeria来说可能是一件很好的事情。
图2-6:对艺术家姓名的Google搜索
图2-7:雅虎对芝加哥饭店的搜索结果
图2-8是在必应上搜索一位名人的例子。
图2-8中的结果包括了著名演员查理?卓别林的一系列图片。图2-9是最后一个例子——在必应上搜索梅根?福克斯视频的结果。
图2-8:关于查理?卓别林的必应搜索结果
图2-9的搜索结果顶部提供了一系列流行的视频,点击结果中的一个视频,在搜索页面上就能开始播放。
图2-9:必应上梅根?福克斯视频的搜索结果
正如你所看到的,在搜索结果中整合各种垂直信息意味着,对许多流行的查询而言,返回标准的10个外部网页链接已经不再成为惯例。搜索引擎通过提供更具有相关性的结果和更有针对性的查询响应相互竞争,他们认为这些垂直结果能比网页搜索结果更好地回答用户的查询。
直接的后果是,网站所有者和Web营销人员必须考虑垂直搜索结果的加入对他们的排名及流量的影响。对于前几幅图中的搜索而言,由于垂直结果显示在算法有机结果之上,在后者中排名第1或者第2并不能带来巨大的流量。
垂直结果也象征着机会,因为有图片、本地搜索、新闻和产品等服务。第10章将介绍如何将企业信息包含在这些结果之中。
2.2 基于算法的排名系统:爬行、索引和排名
理解爬行、索引和排名的工作原理,有助于SEO从业者确定达到目标所需要采取的措施。本节主要介绍Google和必应的运营方式,不一定适用于其他流行搜索引擎,例如,Yandex(俄罗斯)、百度(中国)、Seznam(捷克斯洛伐克)和Naver(韩国)。
搜索引擎必须很好地执行几个任务,才能提供相关的搜索结果。简单地说,可以这样看待这些任务:
爬行和索引Web上的几十亿个文档(网页和文件)。(注意,它们会忽略自己认为是“无价值”的网页,这可能是因为它们认为这些网页不能增加新的价值,或者在Web上根本得不到引用。)
提供相关页面的列表响应用户查询。
本节从非技术角度介绍这些功能的基础知识,首先讨论搜索引擎如何查找和发现内容。
2.2.1 爬行与索引
为了提供尽可能好的结果,搜索引擎试图发现万维网上所有公开的网页,然后显示与用户搜索查询最匹配的结果。这一过程的第一步是Web爬行。搜索引擎从一组众所周知的高质量网站开始,然后访问这些网站每个页面上的链接,以发现其他网页。
Web的链接结构将所有公共的网页联系在一起。通过链接,搜索引擎的自动机器人(称作爬行器或者蜘蛛)能够接触到数以亿计相互连接的文档。
在图2-10中,你可以看到美国政府官方网站的主页http:www.usa.gov,页面上的链接在图2-10上标出,对这个页面的爬行从加载网页开始,然后分析其内容,接着查看它所链接的其他网页。
图2-10:爬行美国政府网站
然后,搜索引擎加载其他页面并分析其内容。这一个过程不断重复直到爬行过程完成。由于Web巨大而复杂,因此爬行过程的复杂度极高。
搜索引擎并不是每天都试图爬行整个Web。实际上,搜索引擎可以发现有些页面的重要性不足以出现在搜索引擎中,从而不对这些页面进行爬行。下一节将讨论重要性所起的作用。
一旦搜索引擎在爬行中读取一个页面,其下一步工作就是解析它们的代码,并将页面中精选的部分存放在大型磁盘阵列里,以便在查询时调用。这一过程的第一步是建立关键词词典。关键词词典是分类搜索引擎爬行得来的每个页面上所有重要关键词的大型数据库。其他一些数据(如页面链接地图、链接的锚文本、链接是否被当作广告等)也记录在内。存储瞬间内就能访问到的数千亿(甚至万亿)个网页的信息是极其繁重的任务,为此搜索引擎建立了许多大型的数据中心。
构建搜索引擎的关键概念之一是确定从Web的哪个位置开始爬行。尽管从理论上讲,可以从许多不同的地方开始,但是最理想的情况还是从一组信任的网站开始爬行。
从已知可信的一组网站开始,搜索引擎就能度量通过爬行过程找到的其他网站的可信度。7.1节将更详细地讨论可信度在搜索算法中所起的作用。
2.2.2 检索和排名
对于大部分搜索者来说,对答案的追求从图2-11中所示的搜索开始。
图2-11:用户搜索请求的开始
查询的下一步发生在搜索引擎返回Web上的相关网页列表时,这一列表按照搜索引擎所认为的用户满意度排序。这一过程要求搜索引擎在它所搜集的几千亿个文档寻找,并进行两项工作:第一,仅返回与搜索者的查询相关的结果,第二,按照重要性(考虑网站相关的可信度和权威性)排序结果。相关性和重要性都是SEO过程所要影响的因素。
相关性(relevance)是搜索返回文档的内容与用户查询的意图和关键字相匹配的程度。如果页面包含与用户查询相关的关键字,或者指向页面的链接来自相关页面且使用相关的锚文本,文档的相关性也就随之提高。
你可以将相关性看做“游戏”中的第一步。如果网站与查询不相关,搜索引擎就不会在该查询的搜索结果中包含它。2.3节将更详细地讨论如何确定相关性。
重要性(importance)指的是相对重要性,通过对匹配用户查询的指定文档的引用(citation,常见于学术和商业文件中一篇文章对另一篇文章的参考)次数来度量。每当被其他文档引用时,参考文档的重要性就会提高。在当今的在线环境中,引用可以以文档的链接或者社交媒体网站上的引用等形式发生。确定这些信号权重的方法称为引用分析(citation
analysis)。
你可以将重要性看做确定一组同等相关的页面出现在搜索结果中顺序的一种手段。网站的相对权威性以及搜索引擎对该网站的信任度是重要的决定因素。当然,影响排名的因素绝非仅此而已,所有页面的相关性也不可能都一样。最终,相关性和重要性综合确定排名顺序。
因此,当你看到图2-12所示的搜索结果页面时,就能推测对于“marvel superhero
stamps”(神奇超级英雄图章)的搜索,搜索引擎(在这个例子中,是必应)认为ebay.com上的神奇超级英雄图章相关网页(http:shop.ebay.comi.html?_nkw=superhero+stamps)有最高的相关性和重要性综合得分。
重要性和相关性不是人工确定的(即使地球上所有人都参与也无法应付),而是由搜索引擎精心设计出来的数学公式(算法)从大量页面中进行筛选,然后按照质量排名的。这些算法通常由数百个因素组成,在搜索营销领域,通常称这些因素为排名因素(ranking
factor)或者算法排名条件(algorithmic ranking
criteria)。2.4节将更详细地讨论排名因素(或者Google所称的“信号”)。
图2-12:“marvel superhero stamps”(神奇超级英雄图章)搜索结果示例
2.2.3 评估网页内容
搜索引擎为每个网页上的内容赋予很高的权重。毕竟,一个页面是关于什么的是由其内容决定的,为了做出这一决定,搜索引擎对爬行中找到的每个页面进行细致的分析。
你可以这样认为:搜索引擎对出现在网页上的所有单词和短语做出细致的分析,然后构建一张数据地图,用于在用户输入相关搜索查询时确定是否在结果中显示该页。这张地图通常称为语义地图(semantic
map),能够帮助搜索引擎理解页面与用户搜索查询之间的匹配度。
如果页面内容与查询在语言上不匹配,页面出现在结果页面上的可能性就要低得多。因此,你在页面上放置的单词和页面的“主题”在排名中有巨大的作用。
图2-13展示了搜索引擎分割页面的方式,用的是Stone Temple
Consulting网站上的一个页面。
在一个网站上,一个网页的导航元素可能和许多网页的导航元素都很类似。搜索引擎不会忽略这些导航元素,它们也起着重要的作用,但是对搜索引擎确定网页上的独特内容没有帮助。在这方面,搜索引擎关注的是页面的“实际内容”(图2-13中标出的地方)。
确定页面上的独特内容是搜索引擎工作的重要组成部分,对页面独特内容的理解,正是搜索引擎用于确定网页与各类搜索查询是否匹配的因素。由于网站上的许多页面通常都使用相同的导航,因此它对搜索引擎区分相同网站上各个页面的独特内容没有作用。
图2-13:网页分割
这并不意味着导航链接不重要,它们无疑是重要的,但是,因为许多网页共享相同的导航链接,在确定网页独特内容的时候它们未予考虑。
搜索引擎所面临的任务之一是判断内容的价值。尽管使用链接分析判断公众对内容的反应是该过程的一部分,但是搜索引擎还可以根据其在网页上看到的内容得出一些结论。
例如,另一个网站上是否有完全相同的内容?搜索引擎所能发现的独特内容是两句话还是长达500多个字?内容是否过度重复相同的关键词?这只是搜索引擎在确定内容价值时所考虑的几个因素。
2.2.4 搜索引擎在网页上能“看到”什么内容
搜索引擎爬行器和索引程序本质上是软件程序。这些程序非常强大,它们能够爬行数以万亿计的网页,分析所有页面的内容和这些网页相互之间的链接关系。然后,它们将这些数据组织为一系列数据库,能够在零点几秒之内响应用户搜索查询,提交一组非常合适的结果。
这是个令人惊叹的成就,但是它也有局限性。软件是非常机械的,它只能理解大部分网页的部分内容。搜索引擎爬行器分析网页的原始HTML形式。使用浏览器查看页面的源代码,你就能看到这种形式。
图2-14和图2-15说明了在Firefox和Internet
Explorer中查看源代码的方法,分别是Tools→Web Developer→Page Source和Page→View
Source。
你在源代码中可以看到Web服务器发给浏览器的实际网页代码。这也是搜索引擎爬行器所看到的(搜索引擎还会看到页面的HTTP头信息)。在分析网页上的用户可见内容时,搜索引擎多半会忽略与导航和页面显示相关的代码,例如,在图2-16中看到的那些,因为这些代码与网页的内容无关。
图2-14:在Firefox中查看源代码
搜索引擎爬行器最感兴趣的是页面上的HTML文本。图2-17是网页HTML文本的一个例子(以SEOmoz.org首页为例)。
尽管图2-17仍然显示了一些HTML编码,但是你可以在代码中清晰地看到“常规”文本。这是爬行器所寻求的独特内容。
此外,搜索引擎还读取其他一些内容。其中之一是页面标题。页面标题是网页排名最重要的因素之一,它就是显示在浏览器标题栏(在浏览器菜单和地址栏之上)的文本。
图2-18展示了爬行器看到的代码,以Trip
Advisor(http:www.tripadvisor.com)为例。
图2-18中的第一个圆圈标出的是标题标记。标题标记常用作搜索引擎结果中列出的标题。例如,图2-19展示了搜索“bank
loans”的结果,注意,搜索标题中列出的Citibank和Capital One分别和首页的标题相同。
图2-15:在Internet Explorer中查看源代码
图2-16:网页源代码示例
图2-17:源代码中的HTML文本示例
图2-18:HTML源代码中的元标记
当你获得网站的DOMZ(Open
Directory)列表时,这条规则可能有例外。在这种情况下,搜索引擎可能选择使用这一目录中列表使用的页面标题,代替页面上的标题标记。可以使用NOODP标记阻止这种情况发生,该标记告诉搜索引擎不要使用DMOZ标题。
图2-19:显示标题标记的搜索结果
除了标题标记之外,搜索引擎读取关键词元标记(图2-18中第二个圆圈标出的)。这里,可以指定与页面相关的关键词列表。多年以前,垃圾制造者(spammer,试图操纵搜索引擎结果,违反搜索引擎指导方针的人)就破坏了这个标记的SEO价值,所以现在它已经无足轻重。Google完全不将这个标记用于排名,但是必应似乎还将其作为参考(你可以在http:searchengineland.commeta-keywords-tag
-101-how-to-legally-hide-words-on-your-pages-for-search-engines-12099上看到相关的细节)。由于不能为SEO带来好处,不建议在元关键词上花费太多时间。
搜索引擎还阅读描述元标记(图2-19中第三个圆圈标出的)。描述元标记对搜索引擎排名没有任何影响(见http:searchengineland.com21-essential-seo-tips-techniques-11580),但是起着关键的作用,这是因为搜索引擎经常将它作为搜索结果中页面描述的一部分。精心编写的描述元标记对搜索列表上得到的点击数有重大的影响,所以将时间花在元描述上是有价值的。图2-20展示了在关于“trip
advisor”的搜索中,元描述作为搜索结果描述的一个例子。
图2-20:用于搜索结果的描述元标记
注意
用户的关键词在搜索结果中一般以粗体显示(有时候同义词也以粗体显示)。图2-20是一个例子,在描述的开始有粗体的TripAdvisor,这称为上下文关键词(KeyWords
In Context,KWIC)。
搜索引擎读取的第4个元素是图片的alt属性。alt属性原来是用于在无法查看图片的时候显示某些内容,对此有两类基本受众:
无法查看图片的视觉受损者。
为了更快地浏览网络而关闭图片的人(通常只有没有宽带连接的人才需要这么做)。
对视觉受损者的支持成为使用alt属性的首要原因。你可以访问W3C网站的Web可访问性倡议网页阅读更多的相关信息(http:www.w3.orgWAI)。
搜索引擎还读取在图片标记的alt属性中包含的文本,图片标记用于告诉网页显示图片的元素。下面是来自Alchemist
Media网站的一个图片标记实例:
class="alignnone" height="75"
width="120"
alt属性(在本例中是alt="Top Search
Agencies")为图片提供了一些描述文本,标记中src=这一部分表示所显示图片所在的位置。
搜索引擎读取alt属性的内容,帮助确定图片相关的内容,这对于页面内容的确定也有一定的意义。
搜索引擎阅读的另一个元素是NoScript标记。一般来说,搜索引擎只会以有限的方式尝试解析网页上出现的JavaScript代码(但是随着时间流逝,这一切可能会改变)。但是,少部分用户(按照作者的经验,大约占2%)在加载网页时会禁用JavaScript。对于这些用户,除非页面包含NoScript标记,否则网页上JavaScript所在的页面上什么都不会显示。
下面是说明这种情况的一个简单JavaScript示例:
NoScript部分的内容是Your browser does not support
JavaScript!(你的浏览器不支持JavaScript)。搜索引擎将读取这段文本,将其视为网页的相关信息。在这个例子中,还可以选择让NoScript标记包含文本“It
Is a Small World After
All!”(世界毕竟很小!),这是更具描述性的内容。NoScript应该只用于精确地表现JavaScript的内容。(搜索引擎可能将这个标记中放置的其他内容或者链接当作垃圾制造者的行为。)此外,浏览器警告可能被搜索引擎用作你的页面在搜索结果中的描述,这是一件很糟糕的事情。
搜索引擎看不到的东西
搜索引擎“看”不到的内容类型也值得研究。
例如,尽管搜索引擎能够检测到你显示一幅图片,但是除非你在前面介绍的alt属性中提供了信息,否则它们无法得知图片展示的是什么。它们只知道图片中的某些基本的信息,例如,图片上有一张脸,或者图片是否含有色情内容(通过图片中有多少肉色来判断)。搜索引擎无法得知一幅图片显示的是Bart
Simpson还是一条船,一所房子还是龙卷风。此外,搜索引擎也无法识别图片中显示的任何文本。搜索引擎正在试验使用光学字符识别(Optical
Character Recognition, OCR)从图片中提取文本,但是这种技术还没有得到普遍的应用。
另外,传统的SEO观念一直认为搜索引擎无法读取Flash文件,但是这有些言过其实了。搜索引擎多年前就已经能从Flash中提取一些信息,这在Google
2008年的公告中就已经指出(http:googlewebmastercentral.blogspot.com200806improved-flash-indexing.html)。但是,搜索引擎不容易确定Flash里到底有什么。最大的问题之一是,即使搜索引擎探究Flash的内部,它们所寻找的仍然是文本内容,而Flash是图形化的媒体,没有什么因素能够驱使设计人员在Flash中采用文本(除了对搜索引擎的好处以外)。即使HTML与Flash一起使用,存在于HTML文本中的所有语义线索(例如,标题标记、粗体文本等)也都不见了。
而且,搜索引擎看不到Flash中包含的任何图片内容,这就意味着当Flash中的文本转化为矢量轮廓时,搜索引擎所能读取的文本信息也就丢失了。第6章将讨论优化Flash的方法。
音频和视频文件也不容易被搜索引擎读取。和图片一样,这些数据难以解析。在少数例外情况下,搜索引擎能够提取有限的一些数据,例如,MP3文件中的ID3标记,或者以AAC格式存在的具有嵌入式“注释”、图片和章节标记的改进型播客。不过,搜索引擎终究无法区分足球赛和森林火灾的视频。
搜索引擎也无法读取程序里包含的内容。搜索引擎实际上寻找的是网页源代码中人们能够看见的文本,这在前面已经论述过。在浏览器加载网页之后你所能看到的内容于事无补,只有在页面源代码中可以看到和阅读的信息对搜索引擎才有意义。
AJAX技术就是这样一个例子,人们能够看到它所显示的内容,而搜索引擎却无法看到。
AJAX是一种基于JavaScript的技术,用于从数据库中获取数据,然后在不刷新整个页面的情况下动态显示网页内容。这种技术常用于网络上的一些工具,当用户访问网址时提供某些输入,AJAX工具获取并显示正确的内容。
在用户输入信息后,在客户计算机(用户计算机)上运行的一个脚本负责获取内容,这成为问题的根源。这种方式可能造成许多不同的输出。此外,在接收到输入之前,内容不出现在页面的HTML中,所以搜索引擎无法看到。Google提供了建立可爬行的AJAX应用程序的具体技巧,你可以在http:code.google.comwebajaxcrawlingdocsgetting-started.html看到。
一些其他形式的JavaScript在用户采取行动之前不显示HTML内容,从而造成了类似的问题。
在HTML
5中,创建了一个嵌入标记()结构,这种结构允许在HTML页面中加入插件。插件是在用户计算机而不是网站Web服务器上的程序。这个标记常用于在网页中插入视频或者音频文件。标记告知插件在哪里寻找数据文件。通过插件包含的内容对于搜索引擎来说完全不可见。
框架(frame)和iframe是在网页中加入来自其他网页内容的方法。Iframe比框架更常用于插入来自另一个网站的内容。可以用下面这样的代码执行iframe:
框架一般用于分割发布者网站的内容,但它也可以用于从其他网站加载内容,图2-21中是《芝加哥论坛报》(Chicago
Tribune)网站的一个例子(http:accounting.careerbuilder.com)。
图2-21是从其他网站获取内容(假设你得到了授权)并与自己的内容组合的一个好例子。但是,搜索引擎能够识别从其他网站拉取内容的iframe或者框架,从而忽略iframe或者框架中属于其他发布者的内容。换句话说,它们不将从其他网站拉取的内容作为独特内容的一部分。
图2-21:浏览器中显示的框架页面
2.3 确定搜索者意图并交付相关、新鲜的内容
现代商业搜索引擎依赖信息检索(Information
Retrieval,IR)科学。这门学科从20世纪中叶就已经存在,当时的检索系统配备在图书馆、研究设施和政府实验室等机构的电脑系统上。搜索系统开发的早期,IR科学家意识到大部分搜索功能都由两个关键部分组成:相关性和重要性(在本章前面已经定义)。为了度量这些因素,搜索引擎进行文档分析(包括跨文档概念的语义分析)和链接(或引用)分析。
2.3.1 文档分析和语义联系
在文档分析(document
analysis)中,搜索引擎关注于文档重要区域中是否找到搜索词,这些区域包括标题、元数据、标题标记和正文。它们还试图根据文档分析以及其他许多种因素自动度量文件质量。
对于当今的搜索引擎而言,仅仅依靠文档分析是不够的,所以它们还关注语义的联系性。语义联系(semantic
connectivity)指的是常常相互关联的单词或者短语。例如,如果你看到Aloha译注1一词,就会联想到夏威夷,而不是佛罗里达。搜索引擎主动地构建自己的同义词库和词典,帮助它们确定某些词和主题之间的关联。通过扫描自己的大量Web内容数据库,搜索引擎能够使用模糊集合理论和某些公式(在http:forums.searchenginewatch.comshowthread.php?threadid=48中描述)将词语联系起来,开始像人类一样理解网页网站。
专业的SEO人员不需要使用语义联系度量工具来优化网站,但是高级的从业者会追求每一个可供利用的因素,语义联系度量对以下这几个方面可能有所帮助。
度量目标的关键短语。
度量有关某个主题的页面上应该包含的关键短语。
度量其他高排位网站网页上文本之间的关系。
寻找提供“相关”主题链接的页面。
这些材料来源的技术性很强,但是SEO专家只需要了解获取重要信息的原则。重要的是,虽然IR领域包含数千个技术性用语,这些术语往往难以理解,但是即使是SEO新手也能够分析和理解。
下面是IR领域的常见搜索类型。
相近搜索
相近搜索用搜索短语的顺序寻找相关的文档。例如,当搜索“sweet German
mustard”(德国甜芥末)时,你指定的只有一个准确的相近搜索。如果去掉引号,搜索词的相近性对搜索引擎仍然很重要,但是搜索引擎返回的内容就不会精确匹配搜索短语,例如,Sweet
Mustard—German。
模糊逻辑
从技术上讲,模糊逻辑指的是无法仅用真假来区分的逻辑,常见的例子之一是某天是不是晴天(例如,有50%的云,是否仍然可以称为晴天)。模糊逻辑是搜索引擎用于检测和处理拼写错误的手段之一。
布尔搜索
布尔搜索使用布尔运算符,如AND、OR和NOT。这类逻辑用于扩展或者限制搜索中返回的文档。
搜索词加权
搜索词加权指的是特定搜索词对查询的重要程度。原理是为特定的词语赋以比其他词更高的权重,以得到更好的搜索结果。例如,在查询中的单词the得到的权重很小,因为它几乎在所有英语文档中都会出现,没有什么独特性,对文档的选择没有任何帮助。
IR模型(搜索引擎)使用模糊集合理论(Lotfi
Zadeh博士于1969年创立的模糊逻辑分支)发现两个单词之间的语义联系。和用同义词库或者词典推断两个词是否相关不同,IR系统可以使用巨大的内容数据库推测出词语之间的关系。
这一过程听上去似乎很复杂,但是原理却很简单。搜索引擎需要依赖机器逻辑(真假,是否等)。机器逻辑对于人有一些优势,但是不像人那样擅长解决某些类型的问题。对人来说很直观的事情,对于计算机来说却很难理解。例如,桔子和香蕉都是水果,但是两者不都是圆的,这一点对人来说很直观。
对于机器来说,要理解这一点以及其他类似的概念,语义联系是关键。Web上的大量人类知识可以在系统的索引中获得,并从中分析人类已经建立的联系。因此,机器能够通过扫描索引中出现的“香蕉”和“桔子”,注意,“圆形”和“香蕉”不经常同时出现,而“桔子”和“圆形”常常一起出现,从而确定桔子是圆的,而香蕉不是圆的。
这就是模糊逻辑的用武之地。使用逻辑集合理论帮助计算机通过度量两个词同时出现的频率和语境,就能理解两个词的相关性。
在此基础上扩展起来的相关概念之一是潜在语义分析(Latent Semantic
Analysis,LSA)。思路是通过对几十亿个各种网页(索引)的研究,搜索引擎能够“学习”到哪些词是相关的,哪些概念相互之间有联系。
例如,利用LSA,搜索引擎能够发现前往“zoo”(动物园)的“trips”(旅行)往往包含“viewing
wildlife”(观看野生动物)和“animals”(动物),这可能是“tour”(旅行)的一部分。
在Google上尝试搜索“~zoo
~trips”(波浪号是一个搜索运算符,本章后面将有更多的相关内容)。注意,返回结果中粗体的单词与上一段中提到的那些单词相符。Google识别出索引中经常共同出现(一起出现、在同一个网页中出现或者位置接近)的词语,并将“相关”的词语显示为粗体。
有些形式的LSA计算成本太高,无法在实践中使用。例如,目前的搜索引擎无法像较新的MIT学习型计算机那样聪明地“学习”。例如,它们无法通过索引学习到“斑马”和“老虎”都是带有斑纹的动物,尽管它们可能发现“斑纹”和“斑马”比“斑纹”和“鸭子”在语义上有更多联系。
潜在语义索引(Latent Semantic Indexing
,LSI)更进一步,使用语义分析来识别相关的网页。例如,搜索引擎可能注意到某个网页谈及doctor(医生或者博士),另一个网页谈及physicians(医生),并且根据这些页面中常见的其他单词确定这些页面之间的关系。结果是,引用doctor的页面在搜索physician时也可能出现。
搜索引擎在此类技术上的投资已经持续了很多年。例如,2003年4月,Google收购了以语义文本处理技术闻名的Applied
Semantics公司。这种技术现在用于Google的AdSense广告软件,而且很可能用于Google的核心搜索算法。
从SEO方面看,这些应用让我们认识到搜索引擎是如何发现网络上的单词、短语和概念之间的联系的。随着语义联系越来越成为搜索引擎算法的重要组成部分,可以预见,页面、网站和链接的主题将会越来越受到重视。我们应该认识到,未来搜索引擎理解概念主题以及发现不适合网站结构的内容、链接和页面的能力将更为重要。
2.3.2 度量内容质量和用户参与度
搜索引擎也试图度量网站内容的质量和独特性。它们可能使用的方法之一是评估文档本身。例如,如果网页有许多拼写和语法错误,就说明对于页面投入的编辑精力不够(你可以在http:searchengineland.comgoogle-pagerank-spelling-correlation-95821上看到这方面的更多内容)。
搜索引擎也能分析文档的阅读水平(reading
level)。流行的公式之一是Flesch-Kincaid分级可读性公式(Flesch-Kincaid Grade Level
Readability
Formula),该公式考虑平均单词长度和句子中的单词数量,确定理解句子所需要的教育水平。想象一个场景:网页上销售的产品是儿童玩具,而计算出来的阅读水平说明,具备高等院校水平的人才能阅读该页面。这也是拙劣的编辑工作的另一个表现。
搜索引擎用于评估网页质量的其他方法是度量实际的用户交互。例如,如果访问网页的大量用户在点击搜索结果之后立即返回搜索引擎,并且点击下一个结果,这就是代表网页质量不佳的一个强有力指标。
网站的参与度在2011年2月23日Google发行熊猫更新(Panda
Update)时开始成为排名因素(http:searchengineland.comgoogle-forecloses-on-content-farms-with-farmer-algorithm-update-66071)。Google已经访问了大量可用于度量访问者与网站交互情况的数据源。这些数据源包括以下几种。
与网页搜索结果的交互
例如,如果一个用户点击SERP列表到达你的网站,点击“后退”按钮,然后点击同一组搜索结果中的另一个结果,那可以看做是一个负面的排名信号。相反,如果SERP中排名在你的网站之下的结果点击次数超过你,那也可以看做你的网站的负面排名信号和那些网站的正面排名信号。搜索引擎是否使用这些信号以及这些信号的权重尚不得而知。
Google Analytics
很难知道有多少网站运行Google Analytics。
immeria.net于2008年进行的网站调查显示,Google
Analytics具有59%的市场份额(http:blog.immeria.net200801web-analytics-vendors-market-shares.html)。而Metric
Mail Blog检查了Alexa中的前100万个网站,发现其中大约50%使用了Google Analytics
(http:metricmail.tumblr.compost904126172google-analytics-market-share)。简言之,Google能够收集世界上一大半网站的详细数据。
Google Analytics能够向Google提供丰富的网站数据,包括:
跳出率(bounce rate)
仅访问网站上一个页面的访问者比例。
网站停留时间
用户在网站上花费的平均时间。注意,Google
Analytics只在每个页面加载时接收信息,所以如果访问者只查看一个页面,它无法知道在该页面上花费的时间。更精确地说,这一衡量指标告诉你在加载第一个页面和加载最后一个页面之间的平均时间,但是不考虑访问者在最后一个页面上花费的时间。
每个访问者查看的页面数
网站的每个访问者所查看页面数的平均值。
Google 工具栏
不知道有多少用户使用Google工具栏,但是本书作者相信,这个数字肯定多达数百万。Google能够跟踪这些用户的整个上网行为。和Google
Analytics不同,Google工具栏能够度量从用户初次访问某个网站到用户从不同网站加载页面之间的时间,也能计算跳出率和每个访问者查看的页面数。
Google +1按钮
2011年4月,Google开始公测一项新功能——+1按钮(http:www.google.com+1button)。用户可以利用这项功能,在搜索结果中直接(或者在网页上)为网页“投票”,从而指明特定搜索查询中他们最喜爱的网站。
Chrome Blocklist扩展
2011年2月,Google发行了Chrome
Blocklist扩展(http:googleblog.blogspot.com201102new-chrome-extension-block-sites-from.html)。该扩展为Chrome浏览器的用户提供了指出他们所喜爱的搜索结果的一种手段。
Google即时预览(Google Instant Preview)
Google在其搜索结果中还提供了即时预览功能(http:www.google.comlandinginstantpreviews#a)。用户在确定所点击的搜索结果之前能够看到网页的略图。如果用户查看页面预览之后决定不点击它,效果就与负面的投票相同。
Google阅读器
Google提供了世界最流行的RSS源阅读器,该阅读器能够提供许多最吸引人的数据。
Goo.gl
2010年9月,Google发行了自己的URL缩短服务。这一工具使Google即使在Google
Web爬行器无法前往的封闭环境中,也能看到共享和点击的内容。
最重要的因素可能是你的网站与竞争者的差别。如果你的网站有较好的参与度,这一指标很可能被看做高质量的象征,从而可能大大提升你的排名。搜索引擎对这类信号的使用方法很少公开,所以上述观点只是本书作者对Google在这一领域所作所为的推测。Google对这一主题最有趣的帖子之一可以在http:googlewebmastercentral.blogspot.com201105more-guidance-on-building-high-quality.html上找到。社会化和用户参与度排名因素在第8章中将更详细地加以讨论。
2.3.3 链接分析
在链接分析中,搜索引擎度量对一个网站或者页面的链接,以及这些链接者对网站页面的评论。搜索引擎也能很好地掌握谁与谁之间有联系(通过历史链接数据、网站注册记录和其他来源),根据链接网站的权威性确定网站的可信度,以及关于页面所在网站的上下文数据(谁链接到该网站,他们对网站的评论等)。
链接分析远比计算网页或者网站的链接数量复杂得多,因为链接并不都是平等的。来自高权威性网站的高权威性网页的链接比其他权威性较低的链接更重要(一个链接的价值可能比另一个链接高千万倍)。网站或者网页的权威性通过链接模式分析和语义分析来确定。
例如,你可能对宠物狗美容网站感兴趣。搜索引擎可以用语义分析确定关注宠物狗美容主题的一组网页。然后,搜索引擎能够确定这些网站中哪一个拥有最多来自其他网站的链接。这种网站很可能比其他网站更具权威性。
实际的分析当然更复杂。例如,想象一下有5个宠物狗美容网站,它们都有许多来自同一主题的网站链接,如:
网站A有213个相关主题链接。
网站B有192个相关主题链接。
网站C有203个相关主题链接。
网站D有113个相关主题链接。
网站E有122个相关主题链接。
此外,网站A、B、D和E相互之间都有链接,但是它们都没有指向网站C的链接。实际上,网站C看似有许多来自其他主题相关链接的页面,但是这些页面本身没有多少外来的链接。在这种情况下,网站C就不是一个权威性的网站,因为正确的网站没有链接它。
这种相关性网站的聚合称作链接邻居(link
neighborhood)。你所在的地域说明了网站的主题,而来自这些邻居的链接数量和质量说明了你的网站对于该主题的重要性。
搜索引擎对链接邻居评估的依赖程度尚不清楚,仍然认为来自非相关页面的链接有助于目标页面的排名。然而,来自相关网站的链接应该比非相关网站的链接更重要这一基本思路仍然是成立的。
确定链接价值的另一个因素是链接的实现方式以及位置。例如,链接本身使用的文本(也就是用户为前往你的网页所点击的实际文本)对搜索引擎来说也是很强的信号。
上面提到的文本称作锚文本(anchor
text),如果该文本富含关键词(与你的目标搜索关键词相关的关键词),它对于搜索引擎排名的作用就要大于关键词较少的链接。例如,对于宠物狗美容沙龙网站,“Dog
Grooming Salon”(宠物狗美容沙龙)这一锚文本的价值要高于“Click here”(点击这里)。如果你得到使用“Dog
Grooming Salon”锚文本的10 000个链接,而其他链接很少,这看上去就很不自然,可能导致排名方面的问题。
连接价值的语义分析并不止于锚文本。例如,如果一个与狗或者宠物狗美容无关的网站上出现“宠物狗美容沙龙”锚文本,链接的价值就不如有关宠物狗美容的页面。搜索引擎也会关注围绕该链接的页面上的内容,以及整体上下文以及提供链接的网站的权威性。
这些因素都是链接分析的组成部分,将在第7章中深入讨论它们。
2.3.4 评估社交媒体信号
Web上社交媒体的兴起已经产生了许多新的信号,搜索引擎可以考虑这些信号。Facebook(http:www.facebook.com)、Twitter
(http:www.twitter.com)和 Google+
(http:plus.google.com)已经为用户带来了分享内容或者评估内容价值的新方法。例如,用户可以用Facebook发布新闻源中他们喜欢的内容,或者与他们的朋友分享这些内容。他们还可以用Facebook
Like按钮指出自己认为有价值的内容。
Google+和Twitter还提供共享内容的方法,Google还有+1按钮——它和Facebook
Like按钮的操作方式类似。所有这些社交行为的度量和处理在一定程度上和链接类似。分享次数越多或者用户点击Like或者+1按钮次数越多的内容,搜索引擎就会认为它们的价值越高。2012年1月,Google发布了Google
search, plus Your
World,这是一个重要的革新:根据你在Google+的参与情况提供高度个性化的结果。结果是,在Google+1上共享或者使用了+1按钮的内容,在Google的搜索结果中排名将会得到显著提高。
作者的权威性或者影响也是需要考虑的重要概念。如果公认的专家共享一些内容,比起不知名人士的共享,这可以看做更强有力的赞同。以Twitter为例,搜索引擎可以查看粉丝的多少以及他们自己所关注的人的多少,确定人们的影响力水平。如果某人有数十万粉丝,而仅仅关注几百人,而另外一个人有大量粉丝,但是同时也关注许多人,两者相比,可以认为前者比后者更具影响力。图2-22展示了Twitter上Oprah
Winfrey译注2的极端情况。
图2-22:Oprah Winfrey在Twitter上的粉丝数量和他所关注的人数
搜索引擎也考虑个人的影响领域。例如,Oprah可能在许多方面有卓越的影响力,但是他对高级PHP编程技术的意见可能并不重要。
必应和Facebook有伙伴关系,Facebook允许必应访问关于用户行为的数据,这些数据影响必应搜索结果中的排名和形式。例如,如果你的朋友“喜欢”(按下Like按钮)特定内容,它在你的搜索结果中可能出现在较高的位置,必应将在结果的旁边显示你朋友的照片。这很有意义,因为我们知道,人们珍视来自朋友的推荐。
Google
不能用同样的方式访问Facebook数据,但是它有自己的社交网络Google+及其伙伴——+1按钮。利用Google 的Search,
plus Your
World,它以与必应使用Facebook数据相似的方式使用社交网络数据,而且由于Google拥有Google+网络,因此它能够根据数据对搜索结果进行更多的定制。Google还能看到你的其他关系,例如,哪些人在你的Gmail地址簿中。
社交信号在搜索排名和显示中越来越重要,这将在第8章中详加介绍。
2.3.5 问题词、消除歧义及多样化
对于搜索引擎来说,某些词语不断带来难题。最大的难题之一是消除歧义。例如,当有人输入“boxers”一词时,他的意思到底是职业拳击手、狗的品种还是短裤的类型?译注3同样,“jaguar”译注4一词指的可能是美洲虎、汽车品牌、足球队、操作系统,也可以是吉他。用户的意思到底是什么?
搜索引擎不断地处理这类模棱两可的查询。上两个例子在翻译上有本质的问题,但是需要解决的歧义远远不只这些极端的情况。例如,如果有人查询“汽车”(cars),他的意图是:
想阅读汽车评论?
想看车展?
想买车?
想了解新的汽车技术?
对“汽车”的查询过于笼统,仅仅根据这一查询无法弄清搜索者的真正意图。搜索引擎的处理方法之一是了解同一搜索者过去进行的查询,这些历史可能提供关于用户意图的其他线索。
第1章已经简短地讨论了这种“自适应搜索”。
搜索引擎的另一解决方案是提供多样化的结果。例如,图2-23展示了一个宽泛的搜索——对“GDP”一词的查询。
由此带出了一个重要的排名概念。在图2-23中,严格的相关性和链接流行程度分析不会将Investopedia.com排在结果的第一页中,但是多样性的需求造成该页排名的提升。
严格的相关性和基于重要性的排名系统可能显示讨论美国GDP的各种政府网站。但是,大部分用户可能满足于已经显示的政府页面,对于这些用户来说,显示更多同类网页不会提高满意度。
引入多样性还使Google向那些寻找政府页面上不同内容的人提供满意的答案。Google的测试显示,这种基于多样性的方法在用户中得到了更满意的结果。
例如,非多样化的结果可能在SERP上显示较低点击率的结果,更多的查询调整,甚至更高比例的相关后续搜索。
图2-23:多样化查询结果示例
Google选择不同的途径,认真地处理歧义问题。图2-24是搜索“application”(应用、申请)的结果。
图2-24:消除歧义的搜索查询
图2-24中带有横线的是消除歧义的结果,往往出现在Google认为用户搜索的是查询所不能产生的结果时,特别是搜索短语非常宽泛的时候。
有意在结果算法中引入多样性是明智的,能够增强下面这些查询的满意度:
公司名称(搜索者可能想得到正面和负面的报道,以及官网的域名)。
产品搜索(常规情况下,电子商务类的结果将会占满SERP,但是Google尝试提供一些评论和非商业性的相关内容)。
新闻和政治性搜索(显示一个问题的“各个方面”是明智的,不能仅显示左翼或者右翼的博客,这些博客都竭力获取链接)。
搜索引擎还根据用户的搜索历史或者过去的行为模式个性化搜索结果。例如,如果搜索者有搜索纸牌游戏的历史,当他搜索“dominion”时,搜索引擎可能选择将与Dominion纸牌游戏相关的结果放在Dominion电力公司之前的位置上。
新鲜度何时重要
很多时候对于搜索引擎而言,从经过时间考验的老信息源中得到的结果更有意义。但是,有时候返回结果应该来自新的信息源。
例如,当发生重大新闻(如地震)时,搜索引擎在几秒钟内就开始接收查询,而第一篇文章通常在15分钟内出现在Web上。
在这类情况下,必须近乎实时地发现和索引新信息。Google将这一概念称作QDF(Query Deserves
Freshness,意为查询应该返回新鲜信息)。根据《纽约时报》(http:www.nytimes.com20070603businessyourmoney03google.html?pagewanted=3)的文章,