从Google的流量来源字符串(referral string)中抽取SERP(搜索引擎结果页)的垂直信息的方法,这些垂直信息被Google称为Universal Search(即通用搜索)。
(注:所谓的SERP垂直信息,或是Universal Search,是指在Google的搜索结果中,不仅仅只是网页文本信息,还包括图片、新闻、群组、视频、社会化媒体信息等等多元的搜索结果,每一种结果被这篇文章的作者称为SERP的一类垂直信息)
搜索结果链接,以apple为例:
https://www.google.com/search?q=apple
q=apple为关键词
num=100控制SERP一个页面结果显示的数量
start=30代表显示第四页
filter=0显示Google算法隐藏的与已显示页面相近页面
pws=0,pws为personalized web search的缩写,pws=0关闭个性化搜索结果的显示
as_qdr=d,到当前指定时间内的结果y为year, m为month, w为week, d为day, h为hour, n为minute, s为second,如n5代表5分钟
as_rights=cc_publicdomain,指定结果为可复用内容,有cc_publicdomain公共域名, cc_attribute注明出处可复用, cc_sharealike在遵循Creative Commons认证的情况下重新编辑内容,cc_nonderived不允许篡改内容, cc_noncommercial不得用于商业用途,可作用管道符号|添加多项
safe=off,关闭安全搜索过滤,值有off和active两种
http://google.com/search?q=cache:www.amazon.com&strip=1,缓存页中不显示图片和JS等
imgtype=face,用于Google Image,可用值有face, photo, clipart, lineart和news
注:以上分析参考了Search Engine Land
SERP中转页面
所有广告类型均为/aclk?,自然搜索/url?
sa=l,测试小写l为Google Shopping(无论在上方还是右侧边栏), 右侧边栏广告,上方文字广告为大写L,自然搜索中的参数为t
esrc=s,Google https中出现(自然排名),与q=同时出现
ved=0CDIQFjAA,自然搜索解释见下图(转自MOZ),结论一:第二个A处按排名1到10分别为A到J;第二页AA后面会加一个OAo,第三页OBQ,第四页OB4,第五页OCg,第六页ODI,第七页ODw,第八页OEY,第九页OFA,第十页OFo,第十一页OGQ,第十二页OG4,第十三页OHg,第十四页OIIB,第十五页OIwB,第十六页OJYB,第十七页OKAB,第十八页OKoB,第十九页OLQB,第二十页OL4B,结论二:可以看到每九页有一个oQ4gIwYA的循环;结论三:从第二页开始每七页字母不重复(即字母E,M未在连续两页中出现),结论一很容易明白,结论二结论三现在还看不出什么实际意义
注:在页面出现image, news特殊结果后,下面的搜索结果在下图中间三位字母处会出现BEBY, BENU字样,所以看排名和第几页要结全ved=和cd=
当结果中‘ved’参数包含QFJ时才是一个标准的网页搜索结果,例如:
当QqQIw(是大写的“i”不是小写的“L”)出现时表示它是Google News OneBox里的一个通用搜索结果。当QpwI出现时表示是Google News OneBox里的一个缩略图:
rct=j,在所有情况下都会出现
q=,在之前对SEO非常有意义,现在只在客户使用http非加密协议访问Google时才会有值,即为搜索关键字,大多数情况下都为空,也就是我们看到的臭名昭著的Not Provided
cd=1,在搜索结果中排第几位,
ei=,ei之后的参数同一结果会随着每次刷新而改变,
usg=,usg后面的参数可能起到验证作用,比http://www.google.com/url?sa=t&url=http%3A%2F%2Fen.wikipedia.org%2Fwiki%2FWikipedia&usg=AFQjCNHek5Cm1mkLwO0oS69iEDSPhGM3CQ当前可以直接跳转到维基百科的首页,但是去掉会修改usg参数,则无法正常跳转到该页面(其中的sa=t也需要保留)
sig2=,仅在登录Google时才出现
ctype=5
ai=,这可能是最难以破解的参数了
sqi=2
source=web,这个比较明显,值还有newssearch
adurl=,广告渠道目标URL
url=,自然搜索目录URL
cad=rja
bvm=