新站如何让百度收录
很多朋友最近问我.我的网站怎么还没有被百度收录。的确.百度搜索引擎近一段时间越来越看不起新的网站,这是不争的事实。但是让Baidu收录靠前也是有技巧可寻的。首先要保证你的网站文章至少录入了100篇.这些文章最好都是自己原创的.这样Baidu不会认为你的网站是没有价值的垃圾网站。如果一百篇全是抄袭别人或采集而来.那么你的网站给百度的第一印象就会降低很多.Baidu spider关顾你网站的时间和间隔将大大增长.甚至直接把你的域名放入Spamer表中都是必然的。如果以上两点都没有问题,那么我们就可以提交自己的网站到百度,Baidu提交的网址是http://www.baidu.com/search/url-submit.html虽然提交了Baidu,但是百度的说明页上写到一般要等上一个月才收录.这么漫长的时间怎么熬得过去。其实百度至今还有个弱点.就是格外喜欢自家的产品。经常使用Baidu搜索引擎的人都知道很多问题搜索出来的结果第一条都是Baidu空间或Baidu知道.我们可以整理一些与你网站相关的内容Baidu知道或Baidu空间中去.并附上相关链接。注意,不要让管理员觉察到你是在Baidu知道上发垃圾广告,Baidu知道回答的结果由人工审核.凡事都要有个度,不然事得其反.你的网站就有终身监禁的危险。
网页相似度的计算:引擎不太可能去比较每个网页的相似度,而是每个网页列出一个高频词表,通过这个表换算成一个数字,这叫向量换算,这个数字就代表了这个网页的特征,
叫信息指纹。
引擎通过比较这个指纹来识别网页是否相同。因此网页有多少相似是无所谓的,高频词的接近程度才是致命的。
网页信噪比:
可以这样理解:指网页中的文本内容部分与生成这些文本而产生的html标签内容的比率。声学中,信噪比越高,说明声音信号越清晰,同理,网页信噪比越高,说明页面中纯文本内容相对越多,搜索引擎抓取页面也越容易。提示:减少网页中的图片、flash,将html修饰转化为css样式表,封装css、js等,能大幅度提高网页信噪比,一般来说网页信噪音比小于30%为比较合理。
在网上找到一份facebook架构的文章作为收藏,原网址:http://www.dbanotes.net/arch/facebook_php.html
炙手可热的 Facebook 是用 PHP 开发的。随着一些技术交流,逐渐能看到 Facebook 技术人员分享的经验。近期这个 geekSessions 站点上看到 Facebook 的 Lucas Nealan 分享的文档比较有参考价值。
Cache 为 王
任何一个成功的站点都有一套最合适自己的 Cache 策略。
Note:这个层次图画的稍微有点问题,不是严格从上到下的。
The Alternative PHP Cache , APC
Facebook 平均每个用户每天要访问超过 50 个页面,PHP的页面载入时间的优化就比较重要了。在 PHP Cache 层,Facebook 采用了 APC。
Lucas Nealan 的 PPT 举了一个例子,一个页面显示的时间从 4000 多毫秒降到了 100 多 毫秒。在 apc.stat 关闭的模式下,性能还要更好一些。不过需要重启动或用apc_cache_clear() 来通知更新。

Memcached 层
APC Cache 的是非用户相关的信息,而用户相关的数据 Cache 当然是在 Memcached 中。
Facebook 部署了超过 400 台 Memcached 服务器,超过 5TB 的数据在 Memcached 中。这是当前世界上最大的 Memcached 集群了。也给 Memcached 贡献了不少代码,包括 UDP 的支持和性能上的提升(性能提升超过 20%)。
程序 Profiling
Facebook 开发人员大量采用 Callgrind 、APD、 xdebug 、KCachegrind 等工具进行基准性能测试。任何一个 Web 项目,这也是不可或缺,也是比较容易忽略的一环。所有开发人员都应该具备熟练使用这些工具的能力才好。
补充一下:语言的选择
为什么 Facebook 选择 PHP 而不是其他语言? 用Flickr 的 Cal Henderson 这句话就能说明了: “Languages’s don’t Scale, Architecture Scale”。
从 80-20 的原则看,APC 和 Memcached 是最主要的。在这两个环节上下功夫,受益/开销比要大于另外几个环节。
(上面的图是从 Lucas Nealan 的文档截的,版权所有是他的)
–EOF–
上个月帮朋友优化了一个网站,页面的构建全部用div+css的,关键词密度也不错,由于网站全面改版,必定会让搜索引擎有一段时间的考察,可我这朋友倒是很相信刷排名,毕竟这个来的快嘛,这里我说一下刷排名后的结果,我分析了我朋友这个站的在baidu的排名情况,发现其实是利用了,搜索关键词的次数过少,而用机器认为的点击某一个网站导致搜索引擎认为某个网站不错,得了一个好的排名,而不是网页本身的质量多高,也不是经过搜索引擎的分词与模糊匹配后页面的权重多大,所以只要一付钱给这个刷排名的人,你的网站立马就不会有那个排名,认为的点击只是搜索引擎排序的一个方面,最重要的是整体网站的主题与结构的优化,试想你的网站没有经过任何变化,排名上升了,这种事情用屁股想都知道是怎么回事,一句话,网站做的好不好其实和做站人的性格是有很大关系的,做站不能心浮气躁,做站的心态很重要。SEOR不是神仙,如果有人和你讲,给我MONEY,我可以让你的站排在第一,而不用改变的网站的任何内容,我想这个人就是互联网的骗子,不是一个真正的seor.
1. 我打算改变我的主机提供商,这对我以前的搜索引擎排名有影响吗?
答:这种改变对搜索引擎没有影响,但ISP提供的服务质量有可能影响到网站在搜索引擎中的排名情况,您需要确保您网站可以正常访问并具有正常的访问速度。
2. 标题(title tag)是不是越长越好?
答:我建议,每个网页都应有标题,并且标题包含该网页所应使用的关键词,即你希望人们通过搜索引擎来找到你的单词或短语。网站的标题是对网页内容的高度概括,是文章的主题,做SEO的标题就像语文课中的找中心句一样。
3. 如果我注册了另一个域名,并且在此域名下使用一样的内容,我是否会受到搜索引擎的“惩罚”?
答:这种情形常发生在有“镜象”站点的用户,也就是说,内容完全一致,只是域名不同罢了,大部分网站这样做的原因是为了让用户更快地访问。如果不是以这个原因而认为的想让搜索引擎收录,达到某用户搜没内容出来的全是一个人的站点,也可以讲想占位,这会让搜索引擎把这个站点当作垃圾。
4. 我怎样才能知道我的网站被搜索引擎列入黑名单了?
答:如果你在搜索引擎中输入(site:www.yourdomain.com),发现没有收录,或是以前的收录全不见了,可以讲搜索引擎已经注意你了,当然有可能是你的服务器端出现障碍,也许服务器端使用了robots.txt文件,所以你要好好检查你的站点,搜索引擎不会轻易的污蔑一个人的。