2022年 11月 9日

Python网络爬虫——获取cookie的方法

一、无需登录的网站

1.手动获取

  1. 1.通过浏览器打开网站
  2. 2.网页右键检查或F12
  3. 3.右上找到网络或network
  4. 4.在xhr下,重新刷新网页
  5. 5.左键名称下的链接,右侧弹出中headers(标头)中存在cookie

2.requset获取

  1. import requests
  2. session = requests.session()
  3. #province省份,creditcode统一社会信用代码,company市场主体(企业名字),cpmc地理标志(特产),
  4. url_search='https://dlbzsl.hizhuanli.cn:8888/Logo/Result?cpmc='+'五常大米'+'&company=&creditcode='
  5. cookies = session.get(url_search).cookies.get_dict()
  6. cookie = 'ASP.NET_SessionId'+'='+cookies['ASP.NET_SessionId']
  7. print(cookies)
  8. print(cookie)

二、需要登录的网站

  1. import requests
  2. url = 'https://www.processon.com/login'
  3. login_email = '283867@qq.com'
  4. login_password = 'ZZZ0'
  5. # 创建一个session,作用会自动保存cookie
  6. session = requests.session()
  7. data = {
  8. 'login_email': login_email,
  9. 'login_password': login_password
  10. }
  11. # 使用session发起post请求来获取登录后的cookie,cookie已经存在session中
  12. response = session.post(url = url,data=data)
  13. # 用session给个人主页发送请求,因为session中已经有cookie了
  14. index_url = 'https://www.processon.com/diagrams'
  15. index_page = session.get(url=index_url).text
  16. print(index_page)

参考链接:

爬虫——cookie模拟登陆

https://blog.csdn.net/gets_s/article/details/115839687

爬虫中获取cookie的方式 – 程序员一学徒 – 博客园 (cnblogs.com)

https://blog.csdn.net/wzyaiwl/article/details/104741543