您好,匿名用户
随意问技术百科期待您的加入

Spider抓取动态内容(JavaScript指向的页面)

+1 投票

PHP新手,在写爬虫练手,一般情况下跟踪链接不是很难,但是如果是动态页面就束手无策了。

也许分析协议(但是怎么分析?),模拟执行JavaScript脚本(怎么弄?),……

另外可能写一个通用的爬取AJAX页面的Spider或许是比较复杂的问题,没有听说或相关开源项目。

下面是问题描述:

比如一个页面的下一页(ajax函数中有一个得到url对应数据放到content标签部分):

javascript: <a href="javascript:Down(1)">下一页</a>

对应的JavaScript代码可能是:

function Down(index)
{
    $("#pageindex").val(parseInt(index)+1);
    ajaxpage(parseInt(index)+1);
}

function ajaxpage(index)
{
    $.ajax({
    type:"post",
    url:"class.aspx",
 data:"Option=select&cid="+$("#classid").val()+"&asc="+$("#orderselect>option:selected").val()+"&keyword="+escape($("#textfield").val())+"&PI="+index,
    success:function(data)
    {
        $("#content").html(data);
    },
    error: function(data) { 
             alert("连接超时,稍后再试!");
    }
}

ps: 我正在翻Stackoverflow,期望有进展,但是可能放在这里可能会更快得到解答。

用户头像 提问 2012年 12月1日 @ Teemo 上等兵 (318 威望)
分享到:

1个回答

0 投票

php里面没有这样的扩展(至少我还没遇到过),但是原来做java的时候有很多html引擎的实现,你可以去找一找。比如

http://lobobrowser.org/cobra.jsp

用户头像 回复 2012年 12月1日 @ Orianna 上等兵 (193 威望)
提一个问题:

相关问题

0 投票
0 回复 22 阅读
0 投票
1 回复 41 阅读
0 投票
1 回复 97 阅读
用户头像 提问 2012年 12月1日 @ Lulu 上等兵 (293 威望)
+1 投票
1 回复 101 阅读
用户头像 提问 2013年 9月10日 @ Malphite 上等兵 (306 威望)
0 投票
1 回复 55 阅读
用户头像 提问 2012年 12月1日 @ Apollo 上等兵 (269 威望)

欢迎来到随意问技术百科, 这是一个面向专业开发者的IT问答网站,提供途径助开发者查找IT技术方案,解决程序bug和网站运维难题等。
温馨提示:本网站禁止用户发布与IT技术无关的、粗浅的、毫无意义的或者违法国家法规的等不合理内容,谢谢支持。

欢迎访问随意问技术百科,为了给您提供更好的服务,请及时反馈您的意见。
...