夜鹰教程网-程序员的加油站
 当前位置:文章中心 >> vs2022_vs2019_vs2017_vs2014_vs2012
用C#抓取需要登录的页面数据
夜鹰教程网 来源:www.yyjcw.com 日期:2017-10-25 19:33:33
 用C#抓取需要登录的页面数据

抓取需要登录的页面的内容,原理主要是:先模拟登录,获取到COOKIE,然后接下来的访问,都使用这个COOKIE,就可以访问到需要登录的页面。

理论上,浏览器可以做到的事情,程序应该也可以。

不过,模拟登录,说起来容易,但不同站点有不同的处理方式,复杂程度不同。

1、最简单的,是POST适当的数据,不用验证码

2、象Discuz!系列的,要先访问某一个页面,获得随机码,然后置于POST数据中,才可以登录

3、需要验证码。验证码识别是另外一个课题。

无论如何,POST数据必须的。那么,模拟登录,需要POST哪些数据呢?

其实,需要POST哪些数据,每个站点都有所不同,所以要有一个合适的工具来进行分析。我装的是firefox的扩展控件:HttpFox。利用它,可以很方便的获取登录指定站点时,所需要提交的数据串。

模拟登录的代码是这样的:

[csharp] view plaincopy

  1. //sPostData,待提交的数据串,如http://www.test.com/login.aspx?user=admin&pwd=123456  

  2.         public static CookieContainer Login(string url, string sPostData, CookieContainer cc)  

  3.         {  

  4.             CookieContainer container = (cc == null) ? new CookieContainer() : cc;  

  5.             ASCIIEncoding encoding = new ASCIIEncoding();  

  6.             byte[] data = encoding.GetBytes(sPostData);  

  7.   

  8.             HttpWebRequest resquest = ResquestInit(url);  

  9.             resquest.Method = "POST";  

  10.             resquest.ContentLength = data.Length;  

  11.             resquest.CookieContainer = container;  

  12.   

  13.             Stream newStream = resquest.GetRequestStream();  

  14.             newStream.Write(data, 0, data.Length);  

  15.             newStream.Close();  

  16.             try  

  17.             {  

  18.                 HttpWebResponse response = (HttpWebResponse)resquest.GetResponse();  

  19.                 response.Cookies = container.GetCookies(resquest.RequestUri);  

  20.             }  

  21.             catch{}  

  22.   

  23.             return container;  

  24.         }  

  25. //这个函数的作用就是统一Request的格式,使得每次访问目标网站都用相同的口径。如果参数不同的话,可能造成COOKIE无效,因而登录无效  

  26.  public static HttpWebRequest ResquestInit(string url)  

  27.         {  

  28.             Uri target = new Uri(url);  

  29.             HttpWebRequest resquest = (HttpWebRequest)WebRequest.Create(target);  

  30.             resquest.UserAgent = "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2 (.NET CLR 3.5.30729)";  

  31.             resquest.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8";  

  32.             resquest.AllowAutoRedirect = true;  

  33.             resquest.KeepAlive = true;  

  34.             resquest.ReadWriteTimeout = 120000;  

  35.             resquest.ContentType = "application/x-www-form-urlencoded";  

  36.             resquest.Referer = url;  

  37.   

  38.             return resquest;  

  39.         }  


获得这个CookieContainer后,保存下来,以后每访问该网站,都带上它。CookieContainer相当于浏览器的COOKIE容器,里面存放访问各个网站的COOKIE。

带COOKIE访问代码如下:

[csharp] view plaincopy

  1. static HttpWebResponse GetResponse(string url, CookieContainer cc)  

  2. {  

  3.     try  

  4.     {  

  5.         CookieContainer container = (cc == null) ? new CookieContainer() : cc;  

  6.         HttpWebRequest resquest = ResquestInit(url);  

  7.         resquest.CookieContainer = container;  

  8.         HttpWebResponse response = (HttpWebResponse)resquest.GetResponse();  

  9.         response.Cookies = container.GetCookies(resquest.RequestUri);  

  10.         return response;  

  11.     }  

  12.     catch  

  13.     {  

  14.         return null;  

  15.     }  

  16. }  

其中参数 CookieContainer cc 就是保存的CookieContainer。

复制链接 网友评论 收藏本文 关闭此页
上一条: C#中正则表达式的用法  下一条: VS2015新功能
夜鹰教程网成立于2008年,目前已经运营了将近 13 年,发布了大量关于 html5/css3/C#/asp.net/java/python/nodejs/mongodb/sql server/android/javascript/mysql/mvc/easyui/vue/echarts原创教程。 我们一直都在坚持的是:认证负责、一丝不苟、以工匠的精神来打磨每一套教程,让读者感受到作者的用心。我们默默投入的时间,确保每一套教程都是一件作品,而不是呆板的文字和视频! 目前我们推出在线辅导班试运营,模式为一对一辅导,教学工具为QQ。我们的辅导学科包括 java 、android原生开发、webapp开发、商城开发、C#和asp.net开发,winform和物联网开发、web前端开发,但不仅限于此。 普通班针对的是国内学员,例如想打好基础的大学生、想转行的有志青年、想深入学习的程序员、想开发软件的初学者或者业余爱好者等。 就业办针对即将毕业上岗的大四学生,或者打算转行的初级开发工程师。 留学生班针对的是在欧美、加拿大、澳洲、日本、韩国、新加坡等地留学的中国学子,目的是让大家熟练地掌握编程技能,按时完成老师布置的作业,并能顺利地通过考试。 详细咨询QQ:1416759661   夜鹰教程网  基于角色的权限管理系统(c-s/b-s)。
  夜鹰教程网  基于nodejs的聊天室开发视频教程
  夜鹰教程网  Git分布式版本管理视频教程
  夜鹰教程网  MVC+EasyUI视频教程
  夜鹰教程网  在线考试系统视频教程
  夜鹰教程网  MongoDB视频教程。
  夜鹰教程网 Canvas视频教程
  夜鹰教程网 报表开发视频教程
  热点推荐
一个关于天气预报的WebService【C…
VS2010最大的新特点是并行编程的进…
TextBox控件:asp.net中如何为密码…
Web服务调用实例:实现天气预报的…
ASP.NET程序员面试试题(130道题)
ASP.NET教程:调用WebService的源码…
网站开发全程设计
据说这套.net面试题很多网络公司都…
考考你:C#常见题型及部分答案
原创:.net读取数据库sql2000
伪静态URL重写配置
配置web.config代码asp.net3.5个性…
使用线程池提高性能 Socket网络编…
ASP.NET(C#)GridView表头的增加…
如何找到正确的学习方向【.NET版】…
  最近更新
C#修改注册表demo
一个获取内容中的图片地址的方法
ASP.NET 4.0尚未在 Web 服务器上注…
四大作用域:application,session…
ConfigurationManager不存在的解决…
vs2012_vs2013_vs2015没有Web Dep…
vs2015禁用解决方案中单击打开文件…
微软为Visual Studio 2015新增安卓…
C#如何实现搜索引擎网络爬虫程序
C#中正则表达式的用法
用C#抓取需要登录的页面数据
VS2015新功能
VS2015安装图解教程
vs2015新功能介绍
vs2015安装图解

关于我们 | 网站建设 | 技术辅导 | 常见问题 | 联系我们 | 友情链接

夜鹰教程网 版权所有 www.yyjcw.com All rights reserved 备案号:蜀ICP备08011740号3