爬虫--通过搜索字爬取相应的网页

科技2024-11-28 68

代码中有注释

# 根据搜索字进行爬取 import requests if __name__ == '__main__': headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36 Edg/85.0.564.68' //不同浏览器也有不同，详细看下文 } //不同浏览器的形式也不全是后面加‘/s’ 搜狗的后面加‘/web’ url = 'https://www.baidu.com/s' kw = input("enter a word that you want to know:") param = { //这里的‘wd’是百度的搜索字对应的变量，搜狗的是‘query’ 'wd': kw } response = requests.get(url=url,params=param,headers=headers) page_text = response.text fileName = kw+'.html' with open(fileName,'w',encoding='utf-8') as fp: fp.write(page_text) print("保存成功!")

以下转自： http://blog.csdn.net/l_serein/article/details/8550976

这里对浏览器各自的userAgent特点做一分析，并给出判断方法： Windows操作系统浏览器系列： IE浏览器系列：特征表现：均以 "mozilla/" 开头，"msie x.0;" 中的x表示其版本；判断方法：粗略判断可以只检索 "msie x.0;" 字符串即可，严格判断可检索 "mozilla/x.0 (compatibal; msie x.0; windows nt"，不过一般没有这个必要 Windows版Firefox：特征表现：以"mozilla/x.0"开头，包含"windows nt","gecko/"和"firefox/" ；判断方法：粗略判断可以只检索 "firefox/"和"windows nt" 字符串，严格判断可以检索"mozilla/" ,"windows nt","gecko/"和"firefox/" 四个字符串； Windows版Chrome：特征表现：以"mozilla/x.0"开头，包含"windows nt","chrome/"，同时包含"applewebkit/","safari/"；判断方法：粗略判断可以只检索 "windows nt"和"chrome/"字符串，严格判断可以同时检索 "mozilla/" ,"windows nt","applewebkit/","safari/","chrome/" 五个字符串； Windows版Opera：特征表现：以"opera/"开头，含有"windows nt","presto/" 字符串；判断方法：粗略判断只检索 "windows nt"和"opera/"字符串，严格判断同时检索 "opera/","windows nt" 和 "presto/"； Windows版Safari：特征表现：以"mozilla/"开头，同时含有"windows nt","applewebkit/","safari/"；判断方法：粗略判断可以检索含有 "windows nt","safari/" 同时不包含 "chrome/"，严格判断需要同时含有"mozilla/","windows nt","applewebkit/","safari/"但是不包含"chrome/"；小结：Windows操作系统上的浏览器userAgent均包含"windows nt"字符串来表征windows操作系统。 iPhone平台浏览器系列： iPhone自带safari：特征表现：以"mozilla/"开头，含有"iphone"字符串，同时含有 "mobile/","safari/"字符串；判断方法：粗略判断只检索 "iphone"和"safari/"字符串，严格判断则要同时包含 "mozilla/","iphone","mobile/","safari/"四个字符串 iPhone版Opera Mobile：特征表现：以"opera/"开头，含有"iphone"字符串，同时含有 "opera mini/","presto/"字符串；判断方法：粗略判断只检索 "iphone"和"opera/"字符串，严格判断则要同时包含 "opera/","iphone","opera mini/","presto/"四个字符串小结：iPhone手机上的浏览器userAgent均包含"iphone"字符串 Android平台浏览器系列： Android自带浏览器（有人说其实是就chrome，但google自己未做表示，且还在开发一个Android上运行的Chrome to Phone）：特征表现：以"mozilla/"开头，含有"android"和"linux" 字符串，同时含有 "applewebkit/","mobile safari/"字符串；判断方法：因为还不知道Android上未来会不会有独立的safari（估计不会了），所以建议直接严格判断，检索 "mozilla/","android","linux","applewebkit/","mobile safari/"五个字符串 Android版Opera Mobile：特征表现：以"opera/"开头，含有"android"和"linux" 字符串，同时含有 "opera mobi/","presto/"字符串；判断方法：粗略判断只检索 "android"和"opera/"，严格判断则要同时包含"opera/","android","linux","opera mobi/","presto/"五个字符串 Android版Firefox：特征表现：以"mozilla/"开头，含有"android"和"linux" 字符串，同时含有 "firefox/","gecko/","fennec/"字符串；判断方法：粗略判断只检索 "android"和"firefox/"，严格判断则要同时包含"mozilla/","android","linux","firefox/","gecko/","fennec/"六个字符串小结：Android平台上的浏览器userAgent均包含"android"和"linux"字符串以上对windows、iphone、android三大平台的主流浏览器解析就基本结束了，其他平台的linux估计至少与android平台应该类似，而采用了Mac OS的iPad和麦金塔应该与iphone平台类似，故而暂时先不做解析，也因为手头没有那么多设备和操作系统来测试，希望日后能够补上。现在的网站产品开发要求跟以前又不一样了，因为不仅要满足电脑浏览，还需要满足用户通过智能手机（这里仅指iphone、android、windows phone等真正的智能手机，blackberry和palm这样的小众半智能系统暂时不考虑，至于symbian这个伪智能系统就一边玩去吧）通过以上三个具有代表性的平台，也大致可以推测出根据浏览器userAgent判断用户设备的解决方案了。 1、如果需要判断操作系统，方法比较简单，在userAgent里面检索以下字符串：含有"windows nt"：显而易见了，windows操作系统，nt后面的版本号可以判断OS版本；含有"mac"：苹果的Mac OS X或者其他Mac OS内核的系统；含有"iphone"：苹果iphone手机专有的，一般情况下也应该含有"mac"；含有"ipad"：苹果iPad平板电脑（资料表明iPad的浏览器userAgent同时含有"mac","iphone","ipad"）；含有"linux"：Linux操作系统或者其他以linux作为内核的操作系统；含有"android"：谷歌的Android操作系统，有可能是智能手机，也有可能是安卓版的平板电脑哦，一般情况下android平台上的userAgent也应该包含"linux"；含有"unix","sunos","bsd"三者之一：Unix系统，其实对这个系统的用户体验问题，目前几乎可以不用考虑了；含有"ubuntu"：ubuntu定制版的linux …… 你也看到了，判断操作系统及其版本其实并不一直有用，但总有能用到的地方，比如开发专门针对iphone、ipad、android等设备屏幕分辨率的页面 2、判断浏览器的内核，方法也不困难，我自己琢磨出来的，不一定都对啊： IE（Trident）内核（IE for Mac, IEs4Linux之类的就不用说了，只考虑windows下的）：以"mozilla/"开头，含有"windows nt"和"msie"字符串； Firefox（Gecko）内核：以"mozilla/"开头，含有"firefox/"和"gecko/"字符串的就是啦，其中Android版的还带有"fennec/"字符串； Opera（）内核：以"opera/"开头，含有"presto/"字符串，其中iphone版还带有"opera mini/"，Android版也带有"opera mobi/"； Webkit内核：以"mozilla/"开头，含有"applewebkit/"和"safari/"字符串，其中带有"chrome/"的就是Chrome浏览器，不带的就是Safari或其他；以上就是主要的浏览器内核了浏览器内核才是解决兼容性的关键问题所在，然而，这个兼容性问题已经有jQuery和Extjs等框架帮你解决了，因此这个判断只针对个别页面的CSS样式在不同内核渲染效果不同的情况下使用，当然了，同样的内核在智能手机和电脑等不同设备上渲染结果也不同，这一点也需要注意。 3、判断浏览器useAgent的实际应用举例：不同浏览器内核对页面的渲染效果不同，虽然已经有jQuery和Extjs等为我们做了兼容处理，但是依然会有一些细小的差别需要我们单独处理，此时需要判断浏览器内核；用户并不仅仅是通过电脑访问网站的，随着智能手机的日益普及还有平板电脑的大行其道，使用这两者来上网的比例越来越高，怎么办？平板电脑还好，屏幕大分辨率高，智能手机受限于他的屏幕尺寸和分辨率，虽有强劲的处理能力，也可以完美支持现有的网站，但是为客户多考虑一点总没有坏处你说对吧？毕竟通过局部缩放拖拽的方式看网页很不舒服，这时呢，我们就可以专门为iphone、android这样的窄条屏幕提供一个专用版本来布局了，一来提升浏览体验，二来降低网络流量，加快访问速度；做访客流量分析，通过判断客户浏览器类型并记录其数量，来优化设计自己的网站，以分别提升其客户体验

Processed: 0.039, SQL: 9