您好,匿名用户

怎么爬到网站未显示出来的那部分数据?

0 投票

尝试爬了一个国外的招聘网站www.indeed.com. 当选择了在美国的职位后,网页返回的搜索结果大概有3百万条。但是网页每次显示10条,最终有100页。 我用的python request 和beautifulsoup 能爬下这1000条数据。但是我的目标是爬下这近3百万条的数据。
期间尝试过先爬完显示的100页然后进行多次的循环,也就是反复的爬这100页。但是重复率很高。

有没有很好地解决办法能爬完所有的搜索结果(近300万的数据)?

用户头像 提问 2017年 6月16日 @ Vladimir 中士 (1,030 威望)
分享到:

1个回答

0 投票

用post查询连接应该返回就是你需要的相关数据了
这是要用到的参数
q=java
jt=fulltime
start=210

用户头像 回复 2017年 6月16日 @ Lissandra 下士 (791 威望)
提一个问题:

相关问题

0 投票
1 回复 126 阅读
0 投票
1 回复 94 阅读
用户头像 提问 2017年 4月1日 @ Jayce 中士 (1,071 威望)
0 投票
1 回复 62 阅读
0 投票
0 回复 57 阅读

欢迎来到随意问技术百科, 这是一个面向专业开发者的IT问答网站,提供途径助开发者查找IT技术方案,解决程序bug和网站运维难题等。
温馨提示:本网站禁止用户发布与IT技术无关的、粗浅的、毫无意义的或者违法国家法规的等不合理内容,谢谢支持。

欢迎访问随意问技术百科,为了给您提供更好的服务,请及时反馈您的意见。
...