您好,匿名用户

我正在写一个爬虫,怎么通过网页内容误别出是否为中文网页?

0 投票

因定制内容较多,暂时无发现现有爬虫框架满足要求,所以需要自己写(用redis做队列)。
我的问题是在爬虫得到一个网页之后,怎么识别出这个网页是否为中文网页

用户头像 提问 2015年 6月27日 @ Janna 上士 (1,657 威望)
分享到:

1个回答

0 投票
 
最佳答案

用 Google Chrome 的识别算法吧,支持 HTML,有 Python 绑定

用户头像 回复 2015年 6月27日 @ Jarvan IV 中士 (1,128 威望)
提一个问题:

相关问题

0 投票
1 回复 535 阅读
0 投票
1 回复 179 阅读
0 投票
1 回复 56 阅读
用户头像 提问 2015年 9月1日 @ 河蟹 中士 (1,281 威望)

欢迎来到随意问技术百科, 这是一个面向专业开发者的IT问答网站,提供途径助开发者查找IT技术方案,解决程序bug和网站运维难题等。
温馨提示:本网站禁止用户发布与IT技术无关的、粗浅的、毫无意义的或者违法国家法规的等不合理内容,谢谢支持。

欢迎访问随意问技术百科,为了给您提供更好的服务,请及时反馈您的意见。
...