爬虫--通过搜索字爬取相应的网页

    科技2024-11-28  18

    代码中有注释

    # 根据搜索字进行爬取 import requests if __name__ == '__main__': headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36 Edg/85.0.564.68' //不同浏览器也有不同,详细看下文 } //不同浏览器的形式也不全是后面加‘/s’ 搜狗的后面加‘/web’ url = 'https://www.baidu.com/s' kw = input("enter a word that you want to know:") param = { //这里的‘wd’是百度的搜索字对应的变量,搜狗的是‘query’ 'wd': kw } response = requests.get(url=url,params=param,headers=headers) page_text = response.text fileName = kw+'.html' with open(fileName,'w',encoding='utf-8') as fp: fp.write(page_text) print("保存成功!")

    以下转自: http://blog.csdn.net/l_serein/article/details/8550976

    这里对浏览器各自的userAgent特点做一分析,并给出判断方法: Windows操作系统浏览器系列: IE浏览器系列: 特征表现:均以 "mozilla/" 开头,"msie x.0;" 中的x表示其版本; 判断方法:粗略判断可以只检索 "msie x.0;" 字符串即可,严格判断可检索 "mozilla/x.0 (compatibal; msie x.0; windows nt",不过一般没有这个必要 Windows版Firefox: 特征表现:以"mozilla/x.0"开头,包含"windows nt","gecko/""firefox/" ; 判断方法:粗略判断可以只检索 "firefox/""windows nt" 字符串,严格判断可以检索"mozilla/" ,"windows nt","gecko/""firefox/" 四个字符串; Windows版Chrome: 特征表现: 以"mozilla/x.0"开头,包含"windows nt","chrome/",同时包含"applewebkit/","safari/"; 判断方法:粗略判断可以只检索 "windows nt""chrome/"字符串,严格判断可以同时检索 "mozilla/" ,"windows nt","applewebkit/","safari/","chrome/" 五个字符串; Windows版Opera: 特征表现:以"opera/"开头,含有"windows nt","presto/" 字符串; 判断方法:粗略判断只检索 "windows nt""opera/"字符串,严格判断同时检索 "opera/","windows nt""presto/"; Windows版Safari: 特征表现:以"mozilla/"开头,同时含有"windows nt","applewebkit/","safari/"; 判断方法:粗略判断可以检索含有 "windows nt","safari/" 同时不包含 "chrome/",严格判断需要同时含有"mozilla/","windows nt","applewebkit/","safari/"但是不包含"chrome/"; 小结:Windows操作系统上的浏览器userAgent均包含"windows nt"字符串来表征windows操作系统。 iPhone平台浏览器系列: iPhone自带safari: 特征表现:以"mozilla/"开头,含有"iphone"字符串,同时含有 "mobile/","safari/"字符串; 判断方法:粗略判断只检索 "iphone""safari/"字符串,严格判断则要同时包含 "mozilla/","iphone","mobile/","safari/"四个字符串 iPhone版Opera Mobile: 特征表现: 以"opera/"开头,含有"iphone"字符串,同时含有 "opera mini/","presto/"字符串; 判断方法:粗略判断只检索 "iphone""opera/"字符串,严格判断则要同时包含 "opera/","iphone","opera mini/","presto/"四个字符串 小结:iPhone手机上的浏览器userAgent均包含"iphone"字符串 Android平台浏览器系列: Android自带浏览器(有人说其实是就chrome,但google自己未做表示,且还在开发一个Android上运行的Chrome to Phone): 特征表现: 以"mozilla/"开头,含有"android""linux" 字符串,同时含有 "applewebkit/","mobile safari/"字符串; 判断方法:因为还不知道Android上未来会不会有独立的safari(估计不会了),所以建议直接严格判断,检索 "mozilla/","android","linux","applewebkit/","mobile safari/"五个字符串 Android版Opera Mobile: 特征表现: 以"opera/"开头,含有"android""linux" 字符串,同时含有 "opera mobi/","presto/"字符串; 判断方法:粗略判断只检索 "android""opera/",严格判断则要同时包含"opera/","android","linux","opera mobi/","presto/"五个字符串 Android版Firefox: 特征表现:以"mozilla/"开头,含有"android""linux" 字符串,同时含有 "firefox/","gecko/","fennec/"字符串; 判断方法:粗略判断只检索 "android""firefox/",严格判断则要同时包含"mozilla/","android","linux","firefox/","gecko/","fennec/"六个字符串 小结:Android平台上的浏览器userAgent均包含"android""linux"字符串 以上对windows、iphone、android三大平台的主流浏览器解析就基本结束了,其他平台的linux估计至少与android平台应该类似,而采用了Mac OS的iPad和麦金塔应该与iphone平台类似,故而暂时先不做解析,也因为手头没有那么多设备和操作系统来测试,希望日后能够补上。 现在的网站产品开发要求跟以前又不一样了,因为不仅要满足电脑浏览,还需要满足用户通过智能手机(这里仅指iphone、android、windows phone等真正的智能手机,blackberry和palm这样的小众半智能系统暂时不考虑,至于symbian这个伪智能系统就一边玩去吧)通过以上三个具有代表性的平台,也大致可以推测出根据浏览器userAgent判断用户设备的解决方案了。 1、如果需要判断操作系统,方法比较简单,在userAgent里面检索以下字符串: 含有"windows nt":显而易见了,windows操作系统,nt后面的版本号可以判断OS版本; 含有"mac":苹果的Mac OS X或者其他Mac OS内核的系统; 含有"iphone":苹果iphone手机专有的,一般情况下也应该含有"mac"; 含有"ipad":苹果iPad平板电脑(资料表明iPad的浏览器userAgent同时含有"mac","iphone","ipad"); 含有"linux":Linux操作系统或者其他以linux作为内核的操作系统; 含有"android":谷歌的Android操作系统,有可能是智能手机,也有可能是安卓版的平板电脑哦,一般情况下android平台上的userAgent也应该包含"linux"; 含有"unix","sunos","bsd"三者之一:Unix系统,其实对这个系统的用户体验问题,目前几乎可以不用考虑了; 含有"ubuntu":ubuntu定制版的linux …… 你也看到了,判断操作系统及其版本其实并不一直有用,但总有能用到的地方,比如开发专门针对iphone、ipad、android等设备屏幕分辨率的页面 2、判断浏览器的内核,方法也不困难,我自己琢磨出来的,不一定都对啊: IE(Trident)内核(IE for Mac, IEs4Linux之类的就不用说了,只考虑windows下的):以"mozilla/"开头,含有"windows nt""msie"字符串; Firefox(Gecko)内核:以"mozilla/"开头,含有"firefox/""gecko/"字符串的就是啦,其中Android版的还带有"fennec/"字符串; Opera()内核:以"opera/"开头,含有"presto/"字符串,其中iphone版还带有"opera mini/",Android版也带有"opera mobi/"; Webkit内核:以"mozilla/"开头,含有"applewebkit/""safari/"字符串,其中带有"chrome/"的就是Chrome浏览器,不带的就是Safari或其他; 以上就是主要的浏览器内核了 浏览器内核才是解决兼容性的关键问题所在,然而,这个兼容性问题已经有jQuery和Extjs等框架帮你解决了,因此这个判断只针对个别页面的CSS样式在不同内核渲染效果不同的情况下使用,当然了,同样的内核在智能手机和电脑等不同设备上渲染结果也不同,这一点也需要注意。 3、判断浏览器useAgent的实际应用举例: 不同浏览器内核对页面的渲染效果不同,虽然已经有jQuery和Extjs等为我们做了兼容处理,但是依然会有一些细小的差别需要我们单独处理,此时需要判断浏览器内核; 用户并不仅仅是通过电脑访问网站的,随着智能手机的日益普及还有平板电脑的大行其道,使用这两者来上网的比例越来越高,怎么办?平板电脑还好,屏幕大分辨率高,智能手机受限于他的屏幕尺寸和分辨率,虽有强劲的处理能力,也可以完美支持现有的网站,但是为客户多考虑一点总没有坏处你说对吧?毕竟通过局部缩放拖拽的方式看网页很不舒服,这时呢,我们就可以专门为iphone、android这样的窄条屏幕提供一个专用版本来布局了,一来提升浏览体验,二来降低网络流量,加快访问速度; 做访客流量分析,通过判断客户浏览器类型并记录其数量,来优化设计自己的网站,以分别提升其客户体验
    Processed: 0.009, SQL: 8