怎么样在Phantomjs中抓取渲染JS后的网页？ _ 路由器设置|192.168.1.1|无线路由器设置|192.168.0.1

怎么样在Phantomjs中抓取渲染JS后的网页？

2016-07-02 19:04:59 来源:www.45fan.com 【大中小】

怎么样在Phantomjs中抓取渲染JS后的网页？

最近需要爬取某网站，无奈页面都是JS渲染后生成的，普通的爬虫框架搞不定，于是想到用Phantomjs搭一个代理。

Python调用Phantomjs貌似没有现成的第三方库（如果有，请告知小编），漫步了一圈，发现只有pyspider提供了现成的方案。

简单试用了一下，感觉pyspider更像一个为新手打造的爬虫工具，好比一个老妈子，有时无微不至，有时喋喋不休。轻巧的小工具应该更受人喜爱，我也怀着一点私心，可以带着我最爱的BeautifulSoup一块儿用，而不用再学PyQuery（pyspider用来解析HTML），更不用忍受浏览器写Python的糟糕体验（偷笑）。

所以花了一个下午的时间，把pyspider当中实现Phantomjs代理的部分拆了出来，独立成一个小的爬虫模块，希望大家会喜欢（感谢binux！）。

准备工作

你当然要有Phantomjs，废话！（Linux下最好用supervisord守护，必须保持抓取的时候Phantomjs一直处于开启状态）
用项目路径下的phantomjs_fetcher.js启动：phantomjs phantomjs_fetcher.js [port]
安装tornado依赖（使用了tornado的httpclient模块）

调用是超级简单的

from tornado_fetcher import Fetcher

# 创建一个爬虫
>>> fetcher=Fetcher(
 user_agent='phantomjs', # 模拟浏览器的User-Agent
 phantomjs_proxy='http://localhost:12306', # phantomjs的地址
 poolsize=10, # 最大的httpclient数量
 async=False # 同步还是异步
 )
# 开始连接Phantomjs的代码，可以渲染JS！
>>> fetcher.fetch(url)
# 渲染成功后执行额外的JS脚本（注意用function包起来！）
>>> fetcher.fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')

代码 https://github.com/2shou/PhantomjsFetcher

本文地址：http://www.45fan.com/a/question/55806.html

3D电影《苹果核战记》介绍和赏析	RapidShare链接抓取助手的方法
xmlhttp对象抓取事例介绍	怎么样通过渲染到纹理和32位浮点实现三维
怎么样通过c#抓取网页分析？	如何抓取屏幕中选中区域并存取为bmp位图
怎么样使用c#抓取邮件内容？	通过Python使用Srapy框架爬虫模拟登陆并
怎么样在Python中使用lxml模块和Requests	如何通过python基于phantomjsphantomjs导

45fan.com - 路饭网

怎么样在Phantomjs中抓取渲染JS后的网页？

Tags：渲染抓取 PhantomJS

45fan.com - 路饭网

怎么样在Phantomjs中抓取渲染JS后的网页？

Tags： 渲染 抓取 PhantomJS

Tags：渲染抓取 PhantomJS