搜索统计分析工具
- 一月 20th, 2011
搜索是个大概念,正如这个世界一样,有个东西能够抓取网上一切,包括你我一不小心留下的某些信息,然后能够整合起来,搜索引擎是个毒虫,同时他也是个益虫。关键在于如何使用,自从人们推出来源的概念以来,搜索引擎也不再封闭,而是把自己统计到的一些信息公布出来,当然有些是虚假的信息,但大多是还是真实即时反映。如何去伪存真利用分析好这些统计数据,对于无论是商人,政客,还是普通人,都有很大作用,因为网络几乎涉及到了每个人、每个行业。 Read more
| 一 | 二 | 三 | 四 | 五 | 六 | 日 |
|---|---|---|---|---|---|---|
| « 十一 | ||||||
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 | |||
与‘ 搜索引擎 ’相关的文章:
搜索是个大概念,正如这个世界一样,有个东西能够抓取网上一切,包括你我一不小心留下的某些信息,然后能够整合起来,搜索引擎是个毒虫,同时他也是个益虫。关键在于如何使用,自从人们推出来源的概念以来,搜索引擎也不再封闭,而是把自己统计到的一些信息公布出来,当然有些是虚假的信息,但大多是还是真实即时反映。如何去伪存真利用分析好这些统计数据,对于无论是商人,政客,还是普通人,都有很大作用,因为网络几乎涉及到了每个人、每个行业。 Read more
观察流量统计,常常会看到很多用户从百度近来,但是仔细查看这些百度url,其参数又各异,只有一个关键词的参数还好看些,但是有些百度url很长,很长,很多参数杂而不齐。
事实上,这些百度url中包含了大量的用户信息。例如:http://goo.gl/2cmvg 真实地址是:
http://www.baidu.com/s?q=&tn=baidulocal
&bs=%D0%EC%D6%DD%CD%E2%C2%F4%B5%E7%BB%B0
本教程依次从以下几个方面介绍.htaccess相关知识。
.htaccess的主要作用就是实现url改写,也就是当浏览器通过url访问到服务器某个文件夹时,作为主人,我们可以来接待这个url,具体地怎样接待它,就是此文件的作用。所有的访问都是通过URL实现,所以.htaccess的作用非同小可。正因为此,所以一般地网站通过设置.htaccess,通过一个十分友好的url吸引用户进来,然后用.htaccess把用户带到需要访问的位置。
要想使用这个强大功能,就得开启apache里面的重写模块。
前面的文章中曾经讲到过windows和ubuntu开启 rewrite模块使用.htaccess 。
其实开启模块大体的步骤都是一样的,无论是Windows和linux。
开启重写引擎 :RewriteEngine on
设置重写的根目录:RewriteBase / — 说明 :因为定义了这个文件夹,所以对应的替换就有了一个参照。
匹配所有符合条件的请求:RewriteCond — 说明:RewriteCond 定义了一系列规则条件,这个指令可以有一条或者多条,只有用户拿来的url符合这些条件之后,我们的.htaccess才开始接待,否则用户就直接自己去访问所需要的目录了。
举个例子,为了能让搜索引擎更多地抓取我们的网页而避免重复抓,我们通常把没有www的域名重定向到www.XXX.com,如下就实现了这个功能:
RewriteEngine On
RewriteCond %{HTTP_HOST} ^nbphp\.com$ [NC]
RewriteRule ^(.*)$ http://www.nbphp.com/$1 [R=301,L]
上例便把nbphp.com 重定向到www.nbphp.com
%{HTTP_HOST} 是指取得用户访问的URL的主域名 然后空格后面是一个正则表达式匹配,意识就是说是否是 nbphp.com 。
如果用户访问使用的URL满足所有列出的RewriteCond 提出的条件,那么进行下一步RewriteRule 即开始进行引导,这才开始实现.htaccess文件的重要功能。
同样,前面是正则表达式,用户分析用户的除了主域名nbphp.com之外的URL ,^(.*)$的意思就是所有的内容。 然后空格后面写的是我们引导用户访问的目录,我们带着他走到新的一个域名上。$1 指的是前面括号里匹配url所得到的内容。
这样就是一个完整的小例子。关于RewriteCond里 如何调用url的某个部分,我们可以参考这篇文章(Apache的Mod_rewrite学习 (RewriteCond重写规则的条件);
推荐一个经典的教程: 正则表达式30分钟入门教程
这个教程的确很简单,看完基本上写一些简单的正则就没有问题了。正则是一个需要长期使用的工具,隔段时间不用会忘记,所以我每次都看一遍这个教程。其实学过之后重要的就是一点内容。我简单罗列了如下:
. 换行符以外的所有字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束
* 重复零次或更多次
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,}重复n次或更多次
{n,m} 重复n到m次
应用替换时,前面第一个()中匹配的内容后面就用$1引用,第二个()中匹配的就用$2应用……
推荐一个实用的正则在线测试网站 http://www.regextester.com/
我们来分析一下 discuz7.0 搜索引擎优化 htaccess 里面的重写。
首先加入用户通过 nbphp.com/forum-2-3.html 访问discuz论坛,那么先通过.htaccess过滤,看看是否需要.htaccess引导一下用户,如果满足列出的一系列RewriteCond的条件那么就进行重写,discuz的没有列出RewriteCond 所以应该全部都进行重写。所以开始进行转写,forum-2-3.html 这个正好符合 列出的^forum-([0-9]+)-([0-9]+)\.html$ 正则表达式。并且 $1 为 2 ,$2为3 ,所以代入后面,即 forumdisplay.php?fid=2&page=3 加上前面的RewriteBase 指定的文件目录,那么就带他到制定目录的forumdisplay.php?fid=2&page=3 。
RewriteEngine On
RewriteCond %{HTTP_REFERER} !^http://(.+.)?mysite.com/ [NC]
RewriteCond %{HTTP_REFERER} !^$
RewriteRule .*.(jpe?g|gif|bmp|png)$ /images/nohotlink.jpg [L]
RewriteEngine on
RewriteCond %{REQUEST_URI} !/upgrade.html$
RewriteCond %{REMOTE_HOST} !^24\.121\.202\.30
RewriteRule $ http://www.nbphp.com/upgrade.html [R=302,L]
# redirect from old domain to new domain
RewriteEngine On
RewriteRule ^(.*)$http://www.yourdomain.com/$1[R=301,L]
ErrorDocument 400 /errors/badrequest.html
ErrorDocument 404 http://yoursite/errors/notfound.html
ErrorDocument 401 “Authorization Required
order allow,deny
deny from 123.45.6.7
deny from 12.34.5. (整个C类地址)
allow from all
# disable directory browsing
Options All -Indexes
# serve alternate default index page
DirectoryIndex about.html
Redirect 301 /d/file.htmlhttp://www.htaccesselite.com/r/file.html
ServerSignature EMail
SetEnv SERVER_ADMINdefault@domain.com
本文章主要介绍了应用最广最实用的重写功能,记住.htaccess的权限要设置成644,但愿对您有所帮助,当然本文肯定有介绍不到位的地方,望指正,谢谢!
wordpress成为全世界应用人数最多的php开源博客系统,有的甚至把它当作是企业的站点。它确实太强大,有很多实用的插件,就像是变形金刚一般,可伸可缩,可繁可简,一切都可以傻瓜操作。
搜索引擎日渐走进我们的生活中,原来通过网络我们能够找东西,现在通过网络能够让别人找到我,分享我的知识。所以搜索引擎日渐显得重要,但是随着大量垃圾信息的增多,各种转载,各种所谓的垃圾文逐渐增多,多是为了赚取流量,我劝朋友们如果真心想做博客的话,倒不如踏踏实实自己原创文章,分享自己真正懂得的知识,呼吁大家共同来维护这个互联网平台。为了防止搜索时遇到的冗余垃圾信息,我做了一个私人的书签网,能够和我比较亲密的朋友分享。
标题是搜索引擎最在乎,首要匹配寻找的目标
有的博客文章标题通常都是 站点名 – 文章名 ,
这点应该优化成 : 文章名- 站点名。
正是因为title很重要,所以搜索引擎会格外关注title,而title中应该把重要的内容放到前面。title也就是搜索条目的那个网址标题。
接着就是优化描述还有标签,我用的是一个叫做All In One SEO 插件来实现, 在这里能够设置以下条目,为我们节省了大量时间,轻松就可设置。下图就是本博客目前的配置参数:
很多wordpress的博客主都不怎么关注博客的description,因为觉得wordpress会自动生成。其实wordpress这个变形金刚还得靠我们自己来操控。
最优化的办法是每篇文章的描述都是不一样的,我建议大家还是通过All In One SEO 插件来设置,安装好插件以后,编辑每篇文章的页面都会有如下的条目:
url的重写能够实现可读性,看到url就能明白页面将要到哪里,搜索引擎当然会对这方面施以权重,如果说http://www.nbphp.com/blog/wordpres-seo-optimizing/ 远远要比http://www.nbphp.com/blog/?p=59 好。
通常我们按下图参数设置:
我通常设置成 /%category%/%postname%
但是官方不太推荐用这种方案:可以设置成 /%postname%/。
通过文章导航很清晰地知道文章所在的文件分类,而且能够链接到目录页面和首页面,搜索引擎对于这一点也施以了很高的权重。 我目前是通过修改html来实现的,当然也可以用插件来实现,我推荐使用 Joost De Valk 的 Breadcrumbs Plugin
XML Sitemap 文件中列举了文章的所有文章和他们的路径标签等等,搜索引擎当然会施以重视。我建议使用XML Sitemaps 这个插件会自动生成XML sitemap文件,这个插件支持设置所有页面的索引项目,可以屏蔽也可以开放。 下图是我的设置参数:
WordPress不可忽略的一点就是图片描述的完整性。上传图片的时候会有设置选项,一定要把ALT和TITLE填充完整。比如说我们的上一张图片, 我们可以用XML_sitemap_para的标题来代替postimages12312.
我使用的是Yet Another Related Posts Plugin 插件,这个插件能够根据题目 标签 描述 正文等等 通过设置权重来关联相关的文章。 当然也可以到WordPress plugins section里面去搜索 关于related posts 的插件。
搜索引擎对于关键词有很高的权重,文章标题一定要用在<h1>闭合标签内。 因为文章的标题重要才采用<h1>标签,所以搜索引擎也会格外重视这个标签。 我们可以在模板的文件里设置类似于如下:
<h1><a href="<?php the_permalink(); ?>"><?php the_title(); ?></a></h1>
在wordpress的根目录下有很多的文件搜索爬虫访问这些文件时,和再访问文章页面容易造成重复,通常通过创建搜索引擎指示文件来控制, 在wordpress根目录建立robot.txt文件。我目前的内容是这样的:
User-agent: * Allow: / Disallow: /wp-content/ Disallow: /trackback/ Disallow: /wp-admin/ Disallow: /archives/ Disallow: /*? Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: */trackback/ Disallow: /c/ Disallow: /author/ Disallow: /tag/ User-agent: Mediapartners-Google Allow: / User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Image Allow: / User-agent: Googlebot-Mobile Allow: / #User-agent: ia_archiver-web.archive.org #Disallow: / Sitemap: http://wpswitch.com/robots.txt
不允许搜索引擎访问我的 category目录 写成 /category/
如果觉得麻烦的话可以使用官方默认的插件 Robots Meta 轻松设置
我只写了几个简单的方法,把我的经验分享给朋友们,当然其实搜索引擎之所以有这些权重分配完全是为了能打造一片和谐高质量的互联网环境,所以从这点出发优化博客,就自然而然得到搜索引擎的青睐,希望这些能够帮你的博客打造成超级优化的变形金刚。
windows中开启rewrite模块:
一、打开apapche2的配置文件,http.conf(可以从开始目录找到或者到安装目录找到)
找到LoadModule rewrite_module modules/mod_rewrite.so这行,将前面的注释符号“#”去掉;
如果没有这行,可以添加上。
并确认apache安装目录下的modules文件夹中是否有mod_rewrite.so这个文件,若没有这个文件,可以到网上下载。
二、添加好模块好,启用。
还是在http.conf 文件中,查到<Directory ,
找到网站目录配置点,形如:<Directory “E:/wwwroot”>
闭合标签内有一项默认是:AllowOverride None
将其改成 AllowOverride All 即可。
三、右击计算机 管理 服务 重启Apache服务,rewrite生效。
ubuntu中开启rewrite模块
一、在终端执行 :sudo a2enmod rewrite 显示ok 即启用了该模块。
或者,做个软链接:
sudo ln -s /etc/apache2/mods-available/rewrite.load /etc/apache2/mods-enabled/rewrite.load
二、和windows一样开启这个模块。
这个配置文件比较隐藏,/etc/apache2/sites-enabled/000-default
我们可以通过 sudo gedit /etc/apache2/sites-enabled/000-default 来修改,找到 网站目录节点的那一行:
将其中的:AllowOverride None
修 改 为:AllowOverride All
三、重启:终端运行 sudo /etc/init.d/apache2 restart