|
| 作 者 | 主题:搜索引擎优化(SEO)基础 | ||||||||||||||||||||||||
づ★sl战神![]() =八面玲珑= 职务:观察员 积分:577 贴数:1422 |
引言: 您已经创建了一个很棒的站点,接下来该做什么呢?无论这个 Web 站点的目的是销售产品还是提供信息,如果没有人浏览它,您的努力就白费了。让站点受到关注的方法是让它对搜索引擎和实际受众友好。 |
||||||||||||||||||||||||
づ★sl战神![]() =八面玲珑= 职务:观察员 积分:577 贴数:1422 |
本文的版权信息及作者: 来源: developerWorks 中国 后两章参与的作者:
|
||||||||||||||||||||||||
づ★sl战神![]() =八面玲珑= 职务:观察员 积分:577 贴数:1422 |
在本文中您可以学到的东西: 作为一名 Web 站点开发人员,使您的 Web 站点得到搜索引擎的关注是获得成功的关键因素之一。在这个共分四部分的系列中,您将学习对 Web 站点进行有机优化所需的基础知识。第 1 部分将为您奠定搜索引擎优化的基础,以便对 Web 站点进行有机优化,并创建对搜索引擎有用、可访问和友好的 Web 页面。 |
||||||||||||||||||||||||
づ★sl战神![]() =八面玲珑= 职务:观察员 积分:577 贴数:1422 |
/*想了一下,还是把自己的心得写进去吧,以后看到这个颜色的都是我写的,不想看的可以跳过*/ 第一部分:提高站点在搜索引擎中的排名 A.运用白帽技术实现有机 SEO 这里很多人都在问我(不好意思,现在是 n 个SEO群的管理员 这里,关键字的作用在很多SEO,尤其是一些刚进门的朋友经常会发出疑问:现在关键字对于搜索引擎是不是已经不重要了?答案是:有些!关键字的作用在以前的确很重要,但是对比baidu与google两款最具知名度的搜索引擎来说,它们各自的技术特点是不一样的,因此在使用SEO技术时,需要有各自的针对性,具体来说,可以这么分一下: google的技术特点: 2、并重相关性和重要性 3、重视链接的PR值 4、重视网页Meta标记的描述 5、重视链接的文字描述 百度的技术特点: 2、重视主页 3、重视链接的绝对地址 4、重视更新与日期 而基本的技术都包含有 这里做网站策划的其实应该注意下,网站策划的课程里有一个很重要的话题就是实现底层页面的互访,简单地说就是实现整个站点的循环链接,而不是简单地通过n次点击以后就达到了某个最底层的页面,这样对于蜘蛛来说,会很麻烦,所以蜘蛛也不乐意去访问这样的站点。 还是那句话,老外真单纯。不过新手建议可以在做网站的时候就把这个因素考虑进去,如果等到一个站建设完成再去做SEO优化,工程量会很大。 这个建议新手尝试…… 个人感觉,老外的确在某些程度上比我们诚实,也更比我们适合做技术,因为他们思考问题都很简单,也很纯粹。所以现在对于这两种技术,google的态度是一律封杀,所以不用尝试了……因为这里就是传说中的“关键字匹配”。 SEO 和搜索引擎 如果有朋友对百度有想法,可以找我切磋一下…… 以下是原代码引用:
[b]Google 和元标记[/b]
Google 并没有完全忽视元标记。如果出于某些原因,爬行器未能提取到在 SERP 列表中显示您的站点所需的信息,它就会提取出元描述标记中的文本。但最佳方案是在可见页面上准备好一份出色的介绍信息。您的实际访问者也会赏识这一点的。 参考资料 学习 * 您可以参阅本文在 developerWorks 全球站点上的 英文原文 。 * Search Engine Watch:阅读关于搜索引擎的更详细的技术信息,并参与活跃的论坛讨论。 * Jill Whalen 的 High Rankings:了解关于白帽 SEO 技术的建议。 * Bruce Clay 的 Search Engine Relationship Chart:更好地认识所有搜索引擎的关联方式。这些联系经常变化,这个图表也会经常更新。 * Jakob Nielsen 的 Alertbox 中的 The Power of Defaults(2005 年 9 月 26 日):了解搜索引擎用户为什么会更频繁地点击排在第一位的 SERP 条目,这种现象往往不能用相关性排名来解释。 * Jakob Nielsen 的 Alertbox 中的 [url=When http://www.useit.com/alertbox/20040816.html]When Search Engines Become Answer Engines[/url](2004 年 8 月 16日):了解人们如何利用搜索引擎来找到他们当时关心的问题的答案。 * Jakob Nielsen 的 Alertbox 中的 Information Foraging: Why Google Makes People Leave Your Site Faster(2003 年 6 月 30 日):找到提供出色信息的站点越来越轻松了,可为什么用户在每个 Web 站点上停留的时间缩短了?在这篇文章中您或许能找到答案。 * IBM Accessibility Center:这里的大量参考资料可以帮助您学习如何构建可访问性高的应用程序。 * 美国政府的 Section 508:这是了解美国 Rehabilitations Act 的 section 508 和相关可访问性标准的第一站。 * Google 自己的 统计报告:更好地了解目标受众如何使用 Google。 * Google PageRank:从源头更直接地了解 PageRank。 * Search Engine Marketing, Inc. :要想了解如何进入搜索索引、研究搜索者会使用哪些单词来查找您的站点、优化站点以便此类搜索更容易找到您的站点以及增加站点的搜索访问量的其他措施,请参阅 IBM Press 的这本新书。 * DMOZ 或 Open Directory 项目:访问这个早期的人工编辑目录搜索的例子。Open Directory Project 是最大最全面的人工编辑 Web 目录。它由一个庞大的全球志愿编辑社区进行建设和维护。 * Safari 书店:寻找相关主题的图书。 * Web development 专区的技术库:寻找与基于 Web 的解决方案相关的文章和教程。 获得产品和技术 * 使用 IBM 试用软件 构建您的下一个开发项目,可以直接从 developerWorks 下载。 * lynx 浏览器:看看对于页面阅读器(以及搜索引擎爬行器)来说您的站点是什么样子的。 讨论 * WebmasterWorld Google News Forum:讨论最新的 Google 新闻。 * Cre8asite Forums on Google:访问这些关于搜索引擎营销、实用性和 Web 设计的论坛。 * developerWorks blog:加入 developerWorks 社区。 写在最后面的话: 第一,老外真的很纯粹——甚至是纯粹的一塌糊涂,但是对于SEOer来说,做好google与百度的双重优化,也就意味着拿下了大部分的搜索引擎,因此需要针对这两个搜索引擎多学习; 第二,上面已经写出了google与baidu的技术特点,详细解释一下: 对于google,外国人的思维很单纯,所以一直秉承的是科学的计算,他们对自己的技术很有信心,同时也认为搜索引擎如果抓到了不合格的页,那只是技术问题,他们会去攻克这个技术难关;所以google依旧对于meta中的关键字以及描述部分相当重视;同样,他们也会认为一个站的出现是一个站长辛勤劳动的结果,因此有PR值高的站去链接向一个PR低的站会认为是后者的劳动结果,因此在这点上很容易欺骗搜索引擎——当然前提是你已经有了一个PR比较高的站。甚至可以说,如果你做好了上面的这两点:那么你的站也就优化好了60% 而对于百度,中国人的思维,所以百度除了有一个强大的开发团队以外,还有一个30人(脑袋里的印象,不知道是不是确切)的团队来负责人工审核各个向baidu提交申请的站点。所以百度更注重网站的第一印象——也就是主页。其次,百度的蜘蛛爬行的速度相当快——在很多时候只有你的页面,甚至链接产生了更新才会来爬一次,所以对于更新的频率,对于百度更有诱惑性。 第三,(老了,抽了根烟就忘了下面该写什么了)郁闷呃…… 对了,标题跟绝对链接地址(类似于http://www.patching.net/...../..../.....这一类的东西),标题的重要性就不说了,一个好的标题顶得上一组关键字;绝对链接地址需要有两点特别注意,一种是链接字,比如说http://www.patching.net/yonghu/....这里一眼就可以看出下一级的链接字对应的是“用户”,当然了,没有人会搜索这两个东西,但是如果你的网站是做润滑油的,那么这个就很必要应用了,另外一个就是逻辑地址中的变量,不超过2个为宜,前几天见了个4变量的,郁闷半天…… (暂时先发到这吧,继续工作去了……)
|
||||||||||||||||||||||||
|
y2k1 =学富五车= 积分:5123 贴数:577 |
顶一下再看。 |
||||||||||||||||||||||||
づ★sl战神![]() =八面玲珑= 职务:观察员 积分:577 贴数:1422 |
第二部分:SEO关键词和基础设置策略 作为一名 Web 站点开发人员,使您的 Web 站点得到搜索引擎的关注是获得成功的关键因素之一。在这个共分四部分的系列中,您将学习对 Web 站点进行有机优化所需的基础知识。在第 1 部分中,您了解了为什么白帽 SEO 技术对站点有益的背景知识。在第 2 部分中,您将开始进行优化。我们将创建对关键词进行 “自左上角向下” 优化的策略,并进一步了解影响站点在搜索引擎中排名的其他因素。 其实这就是作者推荐的优化顺序,当然在这里仅仅是指一个页面的代码优化顺序. 在 Google 中获得好排名的关键是对页面上的可见关键词进行优化。正如我在本系列 第 1 部分 中提到的,一些 Web 站点管理员在早期的 SEO 活动中认为,在所有可用区域中塞满关键词就能够提高搜索引擎排名。这些早期的黑帽 SEO 技术未能取得完全的成功,因为关键词常常与页面上的实际内容不符,这误导了搜索引擎和用户。但是,这些早期的黑帽 SEO 技术在大方向上差不多是正确的,因为关键词优化对于提高站点在搜索引擎结果中的排名很重要。 在这一期中,将学习对关键词进行自左上角向下的白帽 SEO 技术,帮助您为站点选择和优化适当的关键词。另外,还将了解其他白帽 SEO 策略,并学习如何解决基础设施问题来提高站点对搜索引擎的吸引力。 只需两步,即可在关键词策略战役中取得成功: <OL>基本上,关键词越接近左上角,Google 给予它们的权重就越大。我将这称为 “自左上角向下(top-left-down)” 关键词优化策略。用户最初查看 Web 站点的方式与爬行器的方式相同,所以按照自左上角向下强调关键词也是一种良好的 Web 设计实践(参见 视线跟踪和搜索行为)。
要想利用关键词策略取得成功,最好是将关键词放在接近页面顶部的地方。许多因素会影响整个搜索引擎排名,包括(但不限于)出站和入站链接、对重定向的使用和其他基础设施问题。但是,SEO 的第一步是选择关键词。 关键词优化中最重要的任务是,判断页面对于人们实际要搜索的关键词是否是优化的,也就是在针对这些关键词的搜索结果中页面是否会获得高排名。如果没有人搜索您的目标关键词,那么站点在搜索引擎的排名再高也没有意义。这实际上是任何关键词策略的重要部分,但是这个步骤却常常被忽视。 如果已经构建好了页面,那么该怎么办? 您可能已经忽视了这个首要步骤,现在面对现有的 Web 页面,您可能会想,“现在选择关键词是不是太晚了”。一点儿也不晚。在页面投入使用前后都可以决定关键词,但建议您预先做好这一工作,这样就不必重写页面上的文本。 如果 Web 页面已经投入使用了,那么已经有了关键词。但是,这些关键词可能并不合适。或者,关键词是合适的,但是没有经过充分优化。在这种情况下,仍然可以进行全面彻底的关键词选择,以确保对正确的关键词进行优化。 另外,可以通过关键词分析工具测试现有页面,以便更好地了解搜索引擎会如何看待这些页面。(页面分析工具的列表见 参考资料。) 如果已经构建好了页面,并认为已经选择了适当的关键词,那么可以跳到 排名检查 以了解页面是否已经充分优化了。 许多专门的 SEO 工具可以帮助您判断可能关键词的流行度和竞争度(更多信息见 SEO 关键词工具)。在创建关键词清单时,要记住的主要概念如下:
我们以 developerWorks Web 站点为例来说明关键词选择问题。这个 Web 站点的主页(www.ibm.com/developerworks/)是在 Google 上搜索 “developerWorks” 时排名第一位的结果。这对我们来说是个好消息,但还不足以证明我们的 SEO 努力是成功的。如果用户搜索的是 “developerWorks” 这个单词,就说明他已经知道要去哪里。developerWorks 主页的目标受众是正在寻找 IBM 支持的众多技术和品牌的相关参考资料的开发人员。我们针对的关键词是 “IBM resource developers”,因为我们认为这个有广泛内容的页面与进行较广泛搜索的潜在受众相匹配。 为了接触到正在通过搜索引擎查找信息的受众(见第 1 部分中关于 Jakob Nielson 的介绍),需要判断哪些人并不是在专门找您的页面,但是您的页面对他们是有用的。应该针对这些 “游荡者” 对页面进行优化。 关键词选择的另一个关注点是,判断关键词是否太流行,即竞争度是否太高。如果太多的页面都在争夺搜索这些关键词时的高排名,那么您可能需要选择更特定的关键词。对于有多种含义的关键词,也需要考虑改变关键词。您必须研究用户可能怎样搜索您的页面。页面的内容会回答哪些特定的问题?根据这些问题精炼您的关键词。 如果对于您认为最适合描述自己页面的关键词,SERP 中会出现数以千计的页面,那么需要考虑搜索者会如何处理这种情况。搜索者不会一页接一页地点击 SERP 中的链接;而是很可能输入第二个搜索词,或者干脆换个搜索词。您需要判断页面的哪些特征是与众不同的,而且是可搜索的。如果顶级页面提供了多种类型的内容,那么总是可以从比较一般化的关键词开始,然后在目录中更深、更特定的第二级页面上使用更特定的关键词。 例如,在 Google 中对 “java” 进行搜索,会得到从咖啡到地理位置的各种结果(java 的另一个意思是印度尼西亚的爪哇岛)。但是,搜索 “java technology tutorials” 会返回 developerWorks Java 技术库(www.ibm.com/developerworks/views/java/library.jsp),这里有大量 Java™ 教程的链接。所以,更特定的关键词可以帮助您接触到正在寻找特定页面类型的用户。
关于关键词精炼的更多原则 在精炼关键词时,要记住大部分搜索只搜索三个或两个单词。在搜索答案时,人们常常用问题组织出搜索词。搜索者不会搜索那些描述解决方案的单词。在对页面进行优化时,一定要像搜索者那样思考问题。 还要记住,在对页面进行优化时不要千篇一律。如果您发现自己的每个页面具有相同的关键词,那么可能需要修改 Web 页面,使它们更有针对性。每个页面都需要适应用户收集信息的方式:常常是从一般化信息到更特定的信息。在导航结构中更特定的页面应该具有更特定的关键词。 如果在决定页面关键词时拿不定主意,那么和编写页面内容的人谈谈,从而进一步了解这些页面,帮助您决定合适的关键词。想一下自己的 Web 站点回答了什么问题。如果您不知道非营销领域如何讨论您的 Web 页面所解决的问题,那么可以访问讨论相同主题的论坛或 blog。 对于关键字的选择,首先需要分析的其实是用户心理.当然,这里包括了新手(指仅仅会利用搜索引擎进行很简单地搜索那种人...记得abu曾经发过一个帖子,里面说有个MM拿搜索引擎搜索内容为"S.H.E中的H",这里说的就是这类人),最普遍的网虫(知道怎么使用搜索引擎技能,如空格,冒号,通配符等找到自己需要的结果)以及搜索引擎使用高手(不仅仅可以寻找到自己需要的结果,而且可以利用搜索引擎提交的结果进行下一步hacker攻击的人). 对于最菜的那种人,偶不说明关键字的选择了...除非你准备把"S.H.E中的H"这类没有任何规律的字符串作为一个页面的关键字之一... 说其他两种人.对于这两种人,一方面要知道用户的心理,比如说我的站是介绍网络安全知识的.那么分析用户在输入哪些关键字时会来到我的站点.黑客?网络?安全?技术?漏洞?病毒?这些都可以成为关键字,那么就把这些作为关键字吧.很多人会说关键字的选择这么简单?可以说简单,也可以说难.简单是必需知道自己的网站会为用户提供什么样的服务,以及用户可以在你这里得到什么样的服务;难是说如何能在众多的关键字中寻找到最佳的关键字来作为首选关键字让用户寻找到. 以patching为例,abu在首页的Meta中的代码是这样写的: <meta name="keywords" content="黑客 网络安全 网络安全服务 网络安全组织 南京网络安全服务 南京网络安全组织 hacker hack"> 先说Keywords,这里就是我们说的每个页面的关键字了,在补天首页,abu基本把patching可以为用户提供的服务都写进去了,但是忽略了两点,第一就是关键字的分隔是","老大没写,只是简单地罗列,这种方式对于搜索引擎的蜘蛛来说,并不是很喜欢;第二,并没有把自己的服务写清楚(尤其是在description中)因此可以说人为地减少了很多用户来到这里的可能. 总体来说,在确定关键字以前,要做的最主要的工作就是明确自己的网站: 主要服务/功能,辅助服务/功能,附加服务/功能,及其子项. 然后将在某一页提供的具体服务中的特定字作为该页的关键字,然后在description中把该服务的功能描述出来,2个要点,第一要写成完整的句子,第二要尽量地多使用自己的关键字,最起码应该出现两次以上. 选择了关键词之后,就该将它们应用在 Web 页面上了。对于搜索引擎来说,页面文本是页面中最重要的部分。搜索引擎会给予页面标题、文本标题或强调的文本较高的权重。这就是前 200 个单词如此重要的原因。这也是 “自左上角向下” 关键词优化策略的基础。除了页面上的前 200 个单词和强调的文本之外,还要确保主体文本包含关键词。 下面是应该进行优化的东西及其原因: <OL>页面中的前 200 个单词和大多数强调的单词应该是关键词。其次,要确保主体文本包含关键词。 关键词精炼和优化实践 我将以 developerWorks Windows to Linux Roadmap 概述页面(www.ibm.com/developerworks/linux/library/l-roadmap.html)为例。这个路线图用来帮助那些希望从 Windows 迁移到 Linux 的开发人员,概述页面针对开发人员可能搜索的单词做了广泛的优化。我突出显示了在顶部标记和前 200 个单词中出现的关键词。 在下面的代码示例中,我提取出 html 中的所有相关代码,包括页面标题、文本标题和小标题后面的前 200 个单词:
注意:在前面的代码示例中,为了便于查看,我们将代码分成了多行。 随着 Linux 路线图变得越来越详细,关键词越来越特定。这个概述页面将得到更广泛的优化,因为它涵盖整个系列。 说的比较详细了,但是需要弥补的一项是在文章的正文中,关键字最好是出现在每一段的第一句话中,比如说我的关键字是网络安全技术,那么就可以以"******网络安全技术"作为正文的标题,然后每一段开头尽量使用这个关键字来作为开头,比如第一段,什么是网络安全技术,第二段,网络安全技术可以带给我们什么等等....这类废话...........
在精炼了关键词并对页面进行优化之后,就该关心所有 SEO 工作的目标了:进行排名检查。在研究了页面之后,检查页面对于它的关键词是否能够获得好排名。 在进行排名检查时,要记录已经搜索的关键词、列出了哪些页面以及在 SERP 中的排名。如果在搜索引擎结果的前三页(即前面的 30 个结果)中没有找到自己站点的页面,那么就可以认为是失败,此时应该集中关注采取哪些措施来改进对这些关键词的排名。 如果页面的排名没有您想象得那么好,那么可能需要精炼关键词,或者研究能够影响在搜索引擎中的排名的其他因素。
我承认,良好的利用 “自左上角向下” 方法的关键词优化策略并不完全代表有机 SEO。然而,关键词优化却是十分有效的白帽 SEO 技术,因为判断和关注页面所表达的内容主题会改进用户体验。另外,在对页面进行优化之后,就不需要为对付搜索引擎中的算法修改而重新修改页面 —— 就像使用黑帽 SEO 技术时那样。 下面是几个其他 SEO 问题。对基础设施的 SEO 改进将在本系列的第 3 部分和第 4 部分中详细讨论。 其他 SEO 改进包括:
SEO 站点提供了在 Google(和其他搜索引擎)中获得高排名的一些策略和猜想。可以参阅 参考资料 中提到的几个站点。但是,编写出色的内容才是在搜索结果中获得高排名和创建有用且可访问的页面的关键。创建合理的关键词策略是最重要的 SEO 任务,这可以满足爬行器和潜在受众的需要。掌握了本系列的 第 1 部分 和第 2 部分中提供的内容后,您应该能够开始进行优化了。 在本系列的最后两部分中,您将学习如何了解搜索引擎是否能够找到您的站点,以及如何了解站点是否受到了搜索引擎的处罚。还会获得对企业 SEO 的建议。 关于图片,flash,最好使用/alt标签,这么做的好处是:如果一旦用户的机器因为各种原因无法访问该区域,可以使用文字描述来告诉用户,这里原来是个关于什么的图片/flash;同时,可以增加关键字密度. 关于链接,不要太滥,不要太烂.....原则问题.尽管现在各搜索引擎会对一个链接垃圾站的站点进行一定的处罚,但是只要你在受到处罚后及时地将该链接去掉并诚恳地写封信告诉搜索引擎,那么还是不会直接把你的站K掉...当然次数太多就不一定了...所以选择链接要小心. 关于导航栏,搜索引擎的蜘蛛比较喜欢的是符合web设计标准的导航栏,一共23个. 学习
|
||||||||||||||||||||||||
づ★sl战神![]() =八面玲珑= 职务:观察员 积分:577 贴数:1422 |
第三部分:让 Web 页面进入搜索引擎索引 作为一名 Web 站点开发人员,使您的 Web 站点得到搜索引擎的关注是获得成功的关键因素之一。在这个共分四部分的系列中,您将学习对 Web 站点进行有机优化所需的基础知识。在这个系列的第 3 部分中,您将学习如何让 Web 站点的页面进入搜索索引。 Web 搜索是热点,而且越来越热门。四分之三的 Web 用户经常进行搜索,64% 的 Web 用户以搜索作为寻找信息的主要方法(参见 参考资料 中相关研究的链接)。这些用户会找到您的站点吗?您的 Web 站点会错过机会吗? 在本系列的前两部分中,Jennette Banks 概述了搜索营销(第 1 部分)以及关键词规划和优化的基础知识(第 2 部分)。 在第 3 部分中,我们重点介绍让 Web 站点的页面进入搜索索引所需的知识。搜索索引是 Google 和 Yahoo!® 这样的搜索引擎在用户进行搜索时使用的数据库。如果 Web 页面没有被编入搜索引擎的索引,那么引擎就不会找到它,所以将页面添加到索引中是取得 SEO 成功的关键一步。 如果想知道您的站点上有多少页面进入了索引,那么先做个简单的测试。进入 Google 或者您喜欢的其他搜索引擎,搜索您公司的名称。如果公司名称是一个常见名称(比如 AAA Plumbing 或 Acme Industries),那么再加上地区(AAA Plumbing Peoria)或公司最出名的产品(Acme Industries sheet metal),看看您的站点是否被找到了。 如果发现一个 Web 站点根本 没有被编入搜索索引中,那么通常有两个原因:
如果幸运的话,在搜索引擎中输入公司名称时,至少会找到您 Web 站点上的一个页面。通常情况是任何特定的搜索引擎只将您的部分页面编入了索引中,但是如果几乎所有页面都被编入了索引,就更好了。没有编入索引的页面越多,您站点的潜在访问者就越有可能转向您的竞争对手(如果他们的页面已编入索引)。 当然了,做这一步的前提条件是你已经向搜索引擎提交了你的站点.在现实中,当然有些运气比较好的人,因为新站刚挂出来,就已经被其他人发现做了相关的链接;这种情况下,即使不提交搜索引擎,也会在比较短的时间内被搜索引擎收录;而与此相反的是,在大多数情况下,你必须登陆搜索引擎,并且不得不为此花费比较长的时间. 首先,计算包含率(inclusion ratio),也就是被搜索引擎编入索引的页面占总页面数的百分比。当然,理想的包含率是 100%,但是稍微低一些也可以让人满意。如果页面中只有不到 50% 被包含在搜索索引中,那么就要认真对待了。 为了计算包含率,将搜索引擎索引中的页面数除以您站点上的页面总数。如果您的 Web 站点相当小,那么估算站点的页面总数可能很容易,但是对于大型站点,有时候很难查明有多少个页面。对于大型站点,可以使用几种方法估算页面数:
对 Web 站点的规模进行估算之后,就要查明站点中有多少页面被编入了索引。Google、Yahoo! Search 和 MSN Search 都提供了 “site:” 操作符,它会报告您需要知道的信息。输入 如果计算包含率的结果很糟糕,那么该怎么办呢?首先,我们回顾一下搜索引擎如何将页面编入索引。搜索引擎使用专门设计的称为爬行器(spider 或 crawler)的程序来检查站点上的页面。 如果你有服务器的后台日志,而且站点已经被搜索引擎收录,那么你就会发现一些来自于搜索引擎爬行器的痕迹.这些信息的来源一般都会标注spider的信息,如:google spider.最好把这些记录都保存一下,尤其是日期及爬行过的页面.如果比较频繁地爬行自己的网站,那么就说明自己的站点在该搜索引擎的友好程度比较高; 反之,就需要分析原因了. 爬行器又称蜘蛛,机器人..... 爬行器收集每个页面的 HTML,并记录到其他页面的链接,这样以后它就可以去收集这些页面的 HTML。您可以想像到,经过足够长的时间之后,爬行器最终会找到 Web 上的每个页面(至少是每个链接到其他页面的页面)。获得页面,找到页面上的所有链接,然后获得链接到的那些页面,这个过程称为 “在 Web 上爬行”。 因为爬行器是这样工作的,创建对每个页面的链接可以简化让站点被编入索引的任务 —— 我们将这些技术称为爬行器路径(spider path)。您的站点已经包含路径,而且可能已经有了最重要的爬行器路径类型:站点地图。如果站点只包含少量页面,那么站点地图可以列出并链接到站点上的每个页面。 但是,站点地图不应该超过 100 个链接,所以比较大的站点地图必须链接到分类页面,这些页面再链接到站点上的其他页面。最大型的 Web 站点通常划分成针对各个国家的分站,这就需要特殊的站点地图,称为国家地图(country map),其中列出每个国家的名称并链接到各个国家站点的主页。爬行器非常喜欢这种技术。(参见 参考资料 中大型站点地图的示例。) 只有爬行器到了您的站点上,站点地图才会发挥作用,但是还有更加主动的使页面被编入索引的方法。Google 和 Yahoo! 都提供包含程序(inclusion program),专门用来使页面被编入索引。Google 的 beta 程序称为 Sitemaps(参见 参考资料),它是免费的,提供几种向 Google 爬行器通知页面位置的方法。甚至可以请求 Google 对您的一部分页面进行更频繁的索引更新。Yahoo! 提供一个付费的包含程序 SiteMatch(参见 参考资料),它承诺在 48 小时内对您的页面重新编制索引。(Google 对时间没有做出承诺。) RSS feed 提供了另一种方法,可以在页面发布时使页面迅速地被编入索引。使用 Ping-O-Matic!(参见 参考资料)通知搜索引擎在 RSS feed 有了新条目,新条目常常会在一两天内被编入索引。 所以对于目录比较多的站点来说,建立一个良好的站点地图是非常必要的.使用工具比较占用内存,所以机器不好就不要尝试了.有能力的话最好自己手写一个.放在首页的最上面或者是最下面. 徒步旅行的队伍要让开路者去探索和标出前进路线,但是开路者必须经常清理这些路径,使路径不会损毁或荒废。爬行器路径也是一样的;除非经常检查它们,否则很可能就会阻塞了。 如果您忽视了爬行器的工作方式,爬行器路径就很容易成为爬行器陷阱。对人来说很好的页面却可能阻碍爬行器。爬行器是自动的,所以不会像人类访问者那样填写注册表单。如果链接到站点上的页面所需的操作不仅仅是沿着 HTML 锚标记走,那么这个链接可能会对爬行器隐藏。 这意味着 JavaScript、Flash、frames 和 cookie 也会造成问题。如果您的 Web 页面没有这些技术就根本无法显示,那么页面就不会被爬行器编入索引。另外,如果用户需要这些技术才能使用链接,那么爬行器就无法沿着链接前进。 爬行器只查看 HTML 代码,就像有视力障碍的用户所用的屏幕阅读器一样。要想体会一下爬行器看到了什么,可以在查看页面时禁用浏览器对 cookie、JavaScript 和图形的支持,或者使用文本模式的 Lynx 浏览器或 Lynx Viewer(参见 参考资料)。如果页面可以使用 Lynx 完整地显示,那么它们很可能能够被编入索引。根本不显示或者显示得很不完整的页面不容易被搜索引擎找到。 即使您避免使用这些惹麻烦的技术,仍然可能会给爬行器造成阻碍。爬行器对 HTML 代码的正确性要求非常严格 —— 浏览器就要宽容多了。在浏览器中看起来很好的页面却可能阻碍爬行器,这会使爬行器看不到或误解整个页面或部分页面。HTML 检验服务(参见 参考资料)和 Firefox 浏览器可以发现这些错误。 还必须注意爬行器对每个页面的内容大小限制。大多数爬行器只对页面中的前 100,000 个字符编制索引。这个数字听起来似乎很大,但是如果在页面中添加 JavaScript 程序和样式表,或者把整个用户手册放进一个 PDF 文件中,那么很快就会达到这个限制。所以,可以考虑将手册分割为每章一个 PDF,并将所有 JavaScript 和样式表代码转移到外部文件中. 链接场的诞生其实当时就是为了把搜索引擎的蜘蛛"永久"地留在自己的站点....可惜,不久就被识破了,现在搜索引擎派发出去的蜘蛛如果超过一个小时左右的时间没有回来,就会认为你的这个站点有链接场...当然,大型的知名站点一般都会派出去 N 个蜘蛛进行搜索以回避这一问题. 同样地,当你准备把一个站挂出去的时候,建议先检查一下是否有死链接.死链接的数量不要超过3%,这个是上限.当然,最好的情况是一个都没有.检查死链接的工具有很多,可以自己找一下. 清理了爬行器路径之后,必须确保爬行器是受欢迎的。最明显的建议是,当爬行器到达时,确保站点正在运行,能够做出响应。因为不知道爬行器什么时候会访问您的站点,频繁地停机(即 “维护时间窗”)会有风险,如果爬行器在站点停机时到来,它就会认为站点是失效的,从而转到其他站点去。 如果站点的响应速度非常慢,这几乎和完全失效一样糟糕,因为爬行器是按进度计划运行的。对于缓慢的站点,它们编入索引的页面更少,而且再次访问的频率更低,因为在同样的时间内它们能够在其他地方处理更多的页面。 昨天还有一哥们问我,为什么他的站最近掉的很厉害....经过N个人的测试后,发现他的站反应速度之慢.....人都受不了,更别提spider了...所以建议在站点更新维护的时候,尽量参考下spider登陆的频繁程度以及规律,在这些蜘蛛大侠们睡觉的时候进行维护.维护的时间一般不要太长.. 即使您的站点通常不停机而且速度很快,仍然有可能由于错误地编写了机器人指令(robots instruction) 而将爬行器拒之门外。可以使用 robots.txt 文件让爬行器避开某些页面、目录或整个站点,所以如果站点的指令编写错了,就可能赶走爬行器。另外,每个页面都可以有一个 robots 标记,它指示爬行器是否将这个页面编入索引,以及是否沿着其中的链接前进(参见 参考资料。) 即使您的站点欢迎爬行器,也不能保证它以后不会遗弃这个站点。 会阻碍爬行器的一个问题是对页面使用长的动态 URL。许多动态 URL 需要用参数来选择要显示的内容,比如来自 Canada 产品目录的产品 2372 的法文说明。爬行器很反感这些动态站点,因为参数的组合几乎是无穷的 —— 爬行器不希望在站点中迷路。当爬行器看到 URL 超过 1,000 个字符或者其中的参数超过两个时,它们往往会跳过这些页面。 这就是为什么说在逻辑地址中的变量不要超过两个了,喜欢动态站点设计的朋友需要注意了. 如果您的站点存在这些有问题的 URL,就必须参考 Web 服务器的文档,研究如何改变 URL 的形式以使爬行器满意。例如,Apache 使用 “mod_rewrite” 功能(参见 参考资料)修改 URL,其他 Web 服务器也有相似的功能。 所谓的 “会话标识符” 也会吓走爬行器。一些程序员在 URL 中创建一个参数,用来捕捉关于当前访问者的信息(常常用 “id=” 加上惟一的字母数字编码来标识)。爬行器很讨厌这种技术,因为它导致成百上千的不同 URL 显示同样的内容。程序员应该将这一信息存储在 Web 应用服务器的会话层或者 cookie 中。(但是,正如前面讨论的,显示页面应该不需要 cookie,否则爬行器无法将它编入索引。) 分析了动态页面之后,还要注意另一个可能给页面造成麻烦的问题。重定向 这种技术告诉浏览器和爬行器请求的 URL 已经改变了。例如,如果您的公司改名了,它可能也会改变 Web 站点的域名,所以重定向可以将来自旧 URL 的所有访问者转到新的 URL。但是,对于爬行器有效的重定向方法只有一种:服务器端重定向,也称为 301 重定向(参见 参考资料)。其他重定向技术对浏览器是有效的,比如元刷新重定向和 JavaScript 重定向,但是爬行器无法沿着这些重定向的路径前进,这会使重定向的页面不被编入搜索索引。 301定向与302定向的介绍文字完了会放出.301定向是将页面内容永久性地重新定向到新的逻辑地址,而302是临时性的. 显然,页面必须先被编入索引,然后搜索引擎才能找到它们,但是大多数页面没有被编入索引。在 1999 年,所有 Web 页面中大约有 16% 被搜索引擎编入了索引,但是几年之后,这个比例大大下降了:在 2001 年,估计只有 0.03% 的页面被编入了索引。 既然这个比例如此低,您的站点中很可能有许多页面没有被编入索引,因此这些页面不可能被搜索到。您现在知道应该如何解决这个问题了。 但是,仅仅进入搜索索引还不够。在这个 SEO 系列的第 4 部分中,我们将讨论大型 Web 站点特有的一些搜索营销问题,比如如何对动态页面进行优化、如何跨多国站点工作以及如何让大型团队进行协同工作。 学习
|
||||||||||||||||||||||||
づ★sl战神![]() =八面玲珑= 职务:观察员 积分:577 贴数:1422 |
第四部分:改进大型站点的搜索营销 作为一名 Web 站点开发人员,使您的 Web 站点得到搜索引擎的关注是获得成功的关键因素之一。在这个共分四部分的系列中,您将学习对 Web 站点进行有机优化所需的基础知识。在这个系列的最后一部分中,您将学习专门针对大型 Web 站点或具有许多动态页面的站点的技术。<!--START RESERVED FOR FUTURE USE INCLUDE FILES--><!-- include java script once we verify teams wants to use this and it will work on dbcs and cyrillic characters --><!--END RESERVED FOR FUTURE USE INCLUDE FILES--> 您的 Web 站点有多大?数千个页面?数百万个页面?如果页面数量超过几千个,那么在搜索引擎优化方面就会遇到在小型站点中没有的特殊问题。我们来谈谈如何对大型站点进行成功的 SEO。 大型 Web 站点对 SEO 提出了一些新挑战。如果您能够将整个 Web 团队集合在一间会议室中,那么您的站点还不算大。您或许拥有一家非常成功的企业,但是您的问题不同于我们这个四部分的 SEO 系列所探讨的问题。 在 第 1 部分 和 第 2 部分 中,Jennette Banks 概述了搜索营销以及关键词规划和优化的基础知识。在 第 3 部分 中,我们集中介绍了如何让页面进入搜索索引。在这三篇文章中,您看到了所有 Web 站点(无论规模如何)必须如何做才能吸引 Google 等互联网搜索引擎的关注。但是,大型 Web 站点确实有所不同。如果您的 Web 站点由数千甚至数百万页面组成,就会遇到这些特殊的 SEO 挑战。 在第 4 部分中,我们要解决大型 Web 站点特有的问题。我们将讨论维护大型 Web 站点的大型 Web 团队为什么会给搜索营销造成问题,还将探讨全球化 Web 站点和具有许多动态 Web 页面的站点的技术挑战。 说服大型组织关注搜索问题 大型站点的 SEO 之所以问题多多,是因为需要许多不同的小组都采取适当的措施,SEO 才能获得成功(参见 参考资料)。无论怎样对 Web 站点和 Web 团队进行组织,它们都会被划分为小组,这些小组就会造成问题。根据站点的不同,您可能会遇到下面这些问题或其中一部分问题:
尽管看似令人畏缩,但可以将整个 Web 站点上的多个 Web 小组组织起来,让他们表现得就像一个搜索营销团队一样。可以让各个小组采取一致的行动,这样就不会分散力量。正如在本系列前面的文章中所介绍的,每个 Web 站点的所有者都必须采取一些重要的措施,以确保搜索营销能够获得成功,但是大型站点需要采用更有组织的方式:
当然,这种组织性的变化会给人造成一定的压力。但是,如果将整个 Web 团队组织在一起并采用正确的实践,那么您的大型站点会由于好名声(使搜索者愿意点击您的页面)、高质量的内容(使其他站点愿意链接您的站点)和更高的营销预算(允许投资于更好的设计和技术)而获益。关于将团队组织在一起的更多信息,请参见 参考资料。 成功的关键是说服。计算增加的站点流量会带来多大的好处,从而说明搜索改进的价值。告诉大家竞争对手在搜索结果中的排名比您的公司高多少,让他们有急迫感。要求团队作为搜索者亲自体验一下,从而让他们理解为什么搜索改进那么重要。请记住,没有人存心破坏您的搜索改进计划 —— 他们只是没有意识到这些工作的意义。越充分地向他们解释这些工作的作用,让他们融入其中,就会越快地看到成果。 说服团队 在这个方面要多加努力。您知道什么方式最适合在公司中推广新思想吗?您的组织可以发布电子邮件新闻通告吗?召开会议?Blog?Podcast?Web 研究会?还是需要更个性化的接触方式?如果需要,可以为每个地区办公室制作 PowerPoint 幻灯片。要确保消息被可靠地发出和接收,从而改变团队的工作方式。 得到了团队成员的理解,他们在工作时已经考虑到了 SEO 原则,在此之后还可能要面对两个大挑战:如何跨全球范围进行搜索营销以及如何处理动态 Web 站点。 接触全球的受众 在一个国家用一种语言进行搜索营销有一定难度,随着 Web 站点涉及的国家和语言的增加,问题会成倍增加。我们先讨论国家问题,然后讨论语言问题。 搜索者常常希望将搜索结果限制于某一国家,尤其是在打算进行网上购物时:他们希望在自己的国家中找到一家使用本国货币进行交易的厂商。这很简单,不是吗?不完全是。为了进行有机搜索,判断每个页面的正确国家不能仅仅依靠搜索引擎的猜测。 那么,Google 和其他搜索引擎如何猜测页面的国家呢?它们使用站点域名(“mydomain.com”)的 IP 地址来判断站点的 Web 服务器所在的国家(参见 参考资料)。如果泰国页面实际上就在泰国,那么没问题。如果为了节约经费,针对东南亚的所有页面都放在中国,搜索引擎就会误认为这些泰国页面是属于中国的。 实际上,搜索引擎比这要聪明一点儿,但只是一点儿。除了查看服务器所在的国家之外,它们还会查看顶级域名(.com、.de 等等)来判断国家。无论页面驻留在哪里,在 URL 中使用国家顶级域名(比如 “de” 表示德国)的页面(比如 “www.deutschefirma.de”)会被认为是属于那个国家的页面。 遗憾的是,大多数全球化 Web 站点对每个页面都使用 “.com” 顶级域名。例如,IBM 的德国主页是 “www.ibm.com/de”,除非这个页面放在德国,否则搜索引擎不会意识到这个页面来自德国。这个问题很重要,因为如果搜索者将结果限制为来自德国的页面,他们就找不到这个来自 IBM 的页面。 幸运的是,有经验的搜索者已经习惯了搜索引擎的这一缺陷,所以他们常常会搜索用德语 编写(而不是来自德国)的页面,从而找到想要的页面。从长远来看,搜索引擎可能会变得更聪明,可以认出 IBM 的德国主页属于德国,到那时,搜索者就不需要这么有经验了。 语言问题 Google 和 Yahoo!™ 都是美国的大型搜索引擎,但是对于世界的其他地方,怎么样呢?Google 实际上在许多国家都占据第一位,但是也要注意在一两个国家市场上占优势的本地搜索引擎(参见 参考资料)。一定要参阅 Search Engine Watch 报告(参见 参考资料),了解各国市场上搜索引擎的份额分布,这样就可以针对适当的搜索引擎进行 SEO 工作,并度量来自适当搜索引擎的流量。 搜索引擎不容易判断出页面的国家,但是它们在探测页面的语言方面要出色得多。搜索引擎一般会通过三方面的迹象来判断页面的语言:它的语言元标记,比如 在大多数情况下,搜索引擎会正确地探测出页面的语言,而不需要您采取任何措施。但是,对于单词非常少的页面,在页面上正确地编写语言和字符集元标记就很重要了;否则的话,当搜索者寻找用特定语言编写的页面时,搜索引擎就不会包含您的页面。 但是,让搜索引擎正确地探测出页面的语言只是个开始。如果您用英语执行所有 SEO 任务,并简单地将结果翻译成其他语言,就会遇到问题。假设您为产品选择了最流行的英语关键词,然后将它们翻译成德语:这不能保证您选择了最流行的德语单词。翻译出的单词在语言学上是正确的,但对于搜索不一定是最优的。如果在德国 SEO 工作中选择了意思正确但不常用的关键词,效果就会大打折扣(参见 参考资料)。 即使对页面的英语版本进行了精心的处理,使其包含正确的关键词,而且在每个页面上都使用适当数量的关键词,也不要指望标准的翻译过程会保持英语优化的成果。必须按照与英语页面相同的方式对德语页面进行优化,以求获得相似的 SEO 效果。 在进行全球化搜索营销活动时,要记住这些关于语言和国家的提示,这样才能在竞争中领先。 如何处理动态站点? 大型 Web 站点通常用动态页面进行装载 —— 它们使大型站点更容易保持新颖的内容和设计。但是,对于动态页面进行优化更困难。 Google 用同样的方式对待动态页面和静态页面的内容,所以本系列前面的文章中讨论的所有内容优化技术也适用于动态页面。 对于静态页面,文字编写人员只需编辑包含页面内容的 HTML 文件 —— 例如,在页面标题中添加关键词。动态页面就没这么简单了。因为动态页面是由程序动态地生成的,所以页面的内容来自两种不同类型的来源:
为了对动态页面上的内容进行优化,首先必须查明内容来自哪里,然后才能修改它。内容由负责更新数据库的小组来管理 —— 可能是内容管理系统的文字编写人员,或者是产品目录的数据输入员。 另一方面,模板常常由 Web 开发人员控制。在某些情况下,模板是一个容易更新的单独的文件 —— 大多数内容管理系统就采用这种方式。在其他时候,HTML 存储在软件本身中,所以程序员必须修改软件才能改变 HTML。 与修改静态页面相比,修改动态页面往往要花费更多精力和时间来说服团队。这是坏消息。好消息是,如果说服了团队修改一个动态页面,他们常常会修改所有动态页面。对于静态页面,修改一个页面时仅影响这一个页面。使用来自数据库的内容通常还会简化质量控制,因为与用 HTML 编辑器检查静态页面相比,数据输入程序可以更容易地检查输入。 结束语 SEO 很有挑战性,而在大型站点上挑战会成倍增加。有许多团队同时参与站点的管理,很难让他们向着同一方向努力。而且,多个国家和动态页面也会增加复杂性。 但是,如果您以前认为 SEO 在大型站点上是不可行的,现在应该知道,这是可行的,也应该知道该怎么去做了。
参考资料 学习
|
||||||||||||||||||||||||
づ★sl战神![]() =八面玲珑= 职务:观察员 积分:577 贴数:1422 |
写在后面的话: 这篇文章经过几天的"磨蹭",今天终于全部放完了.希望对SEO的patchingor有一定的帮助. 之所以拖了这么久,其实就是希望大家有更好的时间来消化每一部分的内容...而不是囫囵吞枣一样地看完,再忘掉... 这篇文章个人认为十分经典.含盖了大多数的SEO基础.每次读都有不同的体会,也有更多的发现... 正因为如此,我才认为这是一篇好的文章. 用心....加油.....学习........ |
||||||||||||||||||||||||
| 返回《数据中心·SEO研究精华》 快速返回 | |||||||||||||||||||||||||
|
| |||||||||||||||||||||||||
|
|
如果您想发帖,请先注册或登录!
| Copyright © 2006 Patching.net All rights reserved. |