用哪些程序语言写爬虫
用哪些程序语言写爬虫
C,C++。高效率,*,适合通用搜索引擎做全网爬取。缺点,开发慢,写起来又臭又长,例如:天网搜索源代码。
脚本语言:Perl, Python, Java, Ruby。简单,易学,良好的文本处理能方便网页内容的细致提取,但效率往往不高,适合对少量网站的聚焦爬取
C#?(貌似信息管理的人比较喜欢的语言)
为什么终选择Python?
跨平台,对Linux和windows都有不错的支持。
科学计算,数值拟合:Numpy,Scipy
可视化:2d:Matplotlib(做图很漂亮), 3d: Mayavi2
复杂网络:Networkx
统计:与R语言接口:Rpy
交互式终端
网站的*开发?
怎么学习爬虫呢?
学习爬虫永远绕不开HTTP协议。如果你仔细思考一下写的代码,你就会问一个问题,为啥要用Requests(Requests is the only Non-GMO HTTP library for Python, safe for human consumption.)。当你问这个问题的时候,请你去看一下百度词条上http。当你对http协议有一个大致的了解,那么你就能理解为啥会用到那些工具库了。
此外,基于需求和兴趣的学习是效率的方法,比如说做一个邮件推送功能,做一个图片自动下载器等。对于我而言,学习爬虫有以下几个要求:
能够爬取多个网页,并且不断优化数据提取方法
能够模拟登陆新浪微博、知乎、豆瓣、简书、微信等
能够爬取通过js生成的网页内容
使用ip pool和user agent pool防止被ban
学会分布式爬取
我使用python学习爬虫,因为我只学过一点的C(大学老师居然没教C核心的指针思想),不会java和C++,主要在Python实战:一周学会爬取网页学的还不错。
现在使用python的scrapy框架,因为我想通过读源代码进行深入学习。
更多培训课程,学习资讯,课程优惠等学校信息,请进入 重庆博为峰教育 网站详细了解,免费咨询电话:400-998-6158