[CPyUG] [新手求助] 新浪微博内容的内容抓取

classic Classic list List threaded Threaded
33 messages Options
12
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

kenneth chia-2
基本没有办法爬。
1.部分数据是通过json给到页面的,也就是一般爬虫无法处理js
2.数据量太大,盲爬不可能,规则爬又不好控制。
3.单纯正则,效率低,复杂的,估计一时半会你还不会。

在 2011年10月28日 上午9:18,Felix Yan <[hidden email]>写道:
无需认证的内容, 可以本地缓存一份啊...

Felix Yan
Twitter: @felixonmars
Blog: http://felixc.at


2011/10/28 pansz <[hidden email]>
api 一个是要认证,二个有访问次数限制的。

有时你必须做个无需认证的内容,就不能用api了。例如你要查看分类话题呀,名人啊,这些本来都是无需登录就可以在页面上看到的。但是用 api 就非得登录。

2011/10/27 pako pc <[hidden email]>:
> 新浪提供python api了 不过现在不支持Basic Authentication
> 还有他那个api python版有点问题 需要改下
> 没必要去抓网页 在分析。

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
       http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
http://www.mvmap.com

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

Felix Yan
1, 我前面说过, 移动版结构简单, 也不需要解析JS
2, 用户和微博都有唯一ID, 有foer/foing产生后续目标; 名人堂等数据也有page分页, 怎么不好控制呢?
3, 移动版的结构用单纯正则都没什么问题了, 除非你打算让整个爬虫的性能瓶颈卡在正则上? (那得有多高的秒请求啊, 新浪可以直接封IP了..)

Felix Yan
Twitter: @felixonmars
Blog: http://felixc.at


2011/10/28 kenneth <[hidden email]>
基本没有办法爬。
1.部分数据是通过json给到页面的,也就是一般爬虫无法处理js
2.数据量太大,盲爬不可能,规则爬又不好控制。
3.单纯正则,效率低,复杂的,估计一时半会你还不会。

在 2011年10月28日 上午9:18,Felix Yan <[hidden email]>写道:

无需认证的内容, 可以本地缓存一份啊...

Felix Yan
Twitter: @felixonmars
Blog: http://felixc.at


2011/10/28 pansz <[hidden email]>
api 一个是要认证,二个有访问次数限制的。

有时你必须做个无需认证的内容,就不能用api了。例如你要查看分类话题呀,名人啊,这些本来都是无需登录就可以在页面上看到的。但是用 api 就非得登录。

2011/10/27 pako pc <[hidden email]>:
> 新浪提供python api了 不过现在不支持Basic Authentication
> 还有他那个api python版有点问题 需要改下
> 没必要去抓网页 在分析。

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
       http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
http://www.mvmap.com

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

david-873
我用pywebkit解析过sina的微博,效果还不错,还可以模拟JS的各种事件,但是配置起来很麻烦

在 2011年10月28日 上午9:30,Felix Yan <[hidden email]>写道:
1, 我前面说过, 移动版结构简单, 也不需要解析JS
2, 用户和微博都有唯一ID, 有foer/foing产生后续目标; 名人堂等数据也有page分页, 怎么不好控制呢?
3, 移动版的结构用单纯正则都没什么问题了, 除非你打算让整个爬虫的性能瓶颈卡在正则上? (那得有多高的秒请求啊, 新浪可以直接封IP了..)

Felix Yan
Twitter: @felixonmars
Blog: http://felixc.at


2011/10/28 kenneth <[hidden email]>
基本没有办法爬。
1.部分数据是通过json给到页面的,也就是一般爬虫无法处理js
2.数据量太大,盲爬不可能,规则爬又不好控制。
3.单纯正则,效率低,复杂的,估计一时半会你还不会。

在 2011年10月28日 上午9:18,Felix Yan <[hidden email]>写道:

无需认证的内容, 可以本地缓存一份啊...

Felix Yan
Twitter: @felixonmars
Blog: http://felixc.at


2011/10/28 pansz <[hidden email]>
api 一个是要认证,二个有访问次数限制的。

有时你必须做个无需认证的内容,就不能用api了。例如你要查看分类话题呀,名人啊,这些本来都是无需登录就可以在页面上看到的。但是用 api 就非得登录。

2011/10/27 pako pc <[hidden email]>:
> 新浪提供python api了 不过现在不支持Basic Authentication
> 还有他那个api python版有点问题 需要改下
> 没必要去抓网页 在分析。

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
       http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
http://www.mvmap.com

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

Chuan-3
In reply to this post by hejibo
我读的科目是新闻学,论文传播学方向,需要做传播路径分析

On Thursday, October 27, 2011 11:21:47 PM UTC+8, ueseo.org wrote:
请问什么是“爬新浪微博的内容作传播分析”呀?

---------------------------
He Jibo
Department of Psychology,
Beckman Institute for Advanced Science and Technology
University of Illinois, Urbana Champaign,
603 East Daniel St.,
Champaign, IL 61820
website: www.hejibo.info


2011/10/27 Andelf <[hidden email]>
爬新浪微博的内容作传播分析

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

Chuan-3
In reply to this post by Felix Yan
多谢,但是爬虫的路径是沿着转发链,移动版的想要抽取转发路径似乎并不简单。我得再看看 > <
多谢

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

Chuan-3
In reply to this post by Felix Yan
多谢,但是爬虫的路径是沿着转发链,移动版的想要抽取转发路径似乎并不简单。我得再看看 > <
多谢

On Thursday, October 27, 2011 11:48:58 PM UTC+8, Felix Yan wrote:
LS请看原文说的: 海量,api应付不过来

不过我建议LZ去试试移动版的新浪微博, 比普通版的网页结构简单不少, 我以前遇到类似情况就是去抓移动版的...
传送门: http://m.weibo.com

Felix Yan
Twitter: @felixonmars
Blog: http://felixc.at


2011/10/27 pako pc <[hidden email]>
新浪提供python api了

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容ץȡ

Chuan-3
In reply to this post by victor lee-3
多谢,稍后如果遇到问题会去试着学一下phantomjs

On Friday, October 28, 2011 8:30:51 AM UTC+8, victorlee129 wrote:

试试看phantomjs?

2011-10-27 下午7:11 於 "Chuan" <[hidden email]> �道:
求教求教求教,如何提取
我就是只小白

On Thursday, October 27, 2011 6:36:34 PM UTC+8, Larry Li wrote:
那些本身就是json数据,直接提取不就是了。用webkit或者v8都是杀鸡用牛刀了。

2011/10/27 依云 <[hidden email]>
On Thu, Oct 27, 2011 at 03:07:27AM -0700, Chuan wrote:
> re 依云:
> 抱歉,没有阐述明白问题
>
> 我希望能从新浪微博上抓取到类似如下结构的内容:
>
> > <dl class="feed_list " mid="3373167961719989" isforward="1"
> > action-type="feed_list_item">
> > <dt class="face">
> > <a href="/cbvivi" title="cbvivi"><img usercard="id=1674067880"
> > title="cbvivi" alt="" width="50" height="50"
> > src="http://tp1.sinaimg.cn/1674067880/50/1289796483/1"></a>
> > </dt>
> > <dd class="content">
> > <p node-type="feed_list_content">
> > <a nick-name="cbvivi" title="cbvivi" href="/cbvivi"
> > usercard="id=1674067880">
> > cbvivi</a>:<em>买!</em></p>
> >
> > <dl class="comment">
> > <dd class="arrow"><span>◆</span></dd>
> > <dt node-type="feed_list_forwardContent">
> > <a nick-name="顾不厌" href="/gubuyan" title="顾不厌" usercard="id=1495287021">
> > @顾不厌</a>:<em>《好小猫》卓越链接
> > ...
>
>
> 但是在页面源码中的相应相应内容,却是通过js组合的:
>
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_liteFacePersonInfo","js":["home\/js\/pl
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_userInfo","js":[],"css":["style\/css\/mo
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_followStatus","js":["home\/js\/pl\/cont
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_hisTags","js":[],"css":["style\/css\/mod
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_medal","js":["home\/js\/pl\/content\/med
>
>
> 我希望能有一种方法,使后者的内容变得可读,方便正则提取,使我可以进一步做数据挖掘。
> lu_zi_2000同学的建议在我的理解中是:直接提取我所需要的信息。这当然可以,但是我的所需信息多且杂,在这种混乱的面貌下让我相当头晕。因此仍旧求一枚使之“对人类阅读更友好”的方法。
> 不知表述地是否清楚。
>
> 多谢~

用浏览器引擎(如 qt 支持的 webkit)解析吧,比如这个
http://www.phantomjs.org/ (也有 Python 绑定的)。

--
Best regards,
lilydjwg

Linux Vim Python 我的博客
http://lilydjwg.is-programmer.com/

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
       http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容ץȡ

Chuan-3
In reply to this post by pansz-2
多谢回复,
说起来,虽然是在</body>之后,但那些json里的内容,的确是页面上微博的主体内容。
当然我并不了解js和json,无从得知这是如何构成的。

On Friday, October 28, 2011 8:43:29 AM UTC+8, poet wrote:
2011/10/27 lu_zi_2000 <[hidden email]>:
> 找你想要的东西都行了
> 于 2011年10月27日 17:18, Chuan 写道:
>
> 背景:文科生,论文需要用爬新浪微博的内容作传播分析
> 原本的需求:把新浪微博的页面爬下来,海量,api应付不过来,看起来...只能爬虫爬
> 状况:登陆没问题,页面也爬下来了的,打开一看,晕了,它的内容段如下,不知如何还原:

我这两天正在做新浪微博的爬虫,要想使这个事情简单些,给你一个提示:把你伪装成手机浏览器。因为手机页面解析起来相对简单些。一般 wap 版的页面是最简单的。

至于那一段“正文”貌似并不是正文,因为那一段都已经在 </body> 之后了,后面的内容可以忽略。你其实只需要关注  <body> </body> 以内的东西。

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

Chuan-3
In reply to this post by Chuan-3
啊,我错了,现在手机版也能看到转发信息了
谢楼上各位提及手机版的大大,
这就去改爬手机版

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

adan chou
In reply to this post by Chuan-3
用 v8js 试试,或者 weibo 不是有开放接口吗? 直接调用接口应该可以吧。

在 2011年10月27日 下午5:18,Chuan <[hidden email]>写道:
背景:文科生,论文需要用爬新浪微博的内容作传播分析
原本的需求:把新浪微博的页面爬下来,海量,api应付不过来,看起来...只能爬虫爬

状况:登陆没问题,页面也爬下来了的,打开一看,晕了,它的内容段如下,不知如何还原:
....
</body>
<script src="http://js.t.sinajs.cn/t4/home/js/base.js?version=1319630439" type="text/javascript" ></script>
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_content_publisherTop","js":["home\/js\/pl\/content\/publisherTop.js?version=1319630439"],"css":["style\/css\/module\/combination\/A_layer_send_weibo.css?version=1319630439"],"html":"<div class=\"send_weibo send_weibo_current\" node-type=\"wrap\">\n<div class=\"title\"><\/div>\n<div class=\"num\" node-type=\"num\" style=\"display: none\">\u8bf7\u6587\u660e\u53d1\u8a00\uff0c\u8fd8\u53ef\u4ee5\u8f93\u5165<span>140<\/span>\u5b57<\/div>\n<div class=\"key W_textb\" node-type=\"recommendTopic\"><a href=\"http:\/\/weibo.com\/zt\/s?k=10746&hasori=1&refer=Index_hot_new\">\u6da8\u5de5\u8d44 \u96be\u4e8e\u4e0a\u9752\u5929<\/a> <a href=\"javascript:;\" style=\"position:absolute;top:-1000px;\" title=\"\u5fae\u535a\u5185\u5bb9\u5217\u8868\"><\/a>\n<a href=\"javascript:;\" id=\"focus_feed_list\" style=\"position:absolute;top:-1000px;\"><\/a><\/div>\n<div class=\"input\">\n<div 
.....

好吧,我只知道怎么把里头的中文转换出来。
问题:如何把这个还原成类似以下的HTML

....
<dl class="feed_list " mid="3373156128017591" isforward="1" action-type="feed_list_item">
<dt class="face">
<a href="/knewledge" title="拇姬"><img usercard="id=1261141474" title="拇姬" alt="" width="50" height="50" src="http://tp3.sinaimg.cn/1261141474/50/1283203850/1"></a>
....

求各位大大指教 Orz




--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
生活是个很奇妙的的东西,当我们以为正要踏到幸福的时候,原来我们才刚刚开始 ......

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

Rui-Fong TSE
将字符串重新编码,估计就可以了!unicode( rev, 'UTF-8')

在 2011年10月31日 下午5:45,adan chou <[hidden email]>写道:
用 v8js 试试,或者 weibo 不是有开放接口吗? 直接调用接口应该可以吧。

在 2011年10月27日 下午5:18,Chuan <[hidden email]>写道:

背景:文科生,论文需要用爬新浪微博的内容作传播分析
原本的需求:把新浪微博的页面爬下来,海量,api应付不过来,看起来...只能爬虫爬

状况:登陆没问题,页面也爬下来了的,打开一看,晕了,它的内容段如下,不知如何还原:
....
</body>
<script src="http://js.t.sinajs.cn/t4/home/js/base.js?version=1319630439" type="text/javascript" ></script>
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_content_publisherTop","js":["home\/js\/pl\/content\/publisherTop.js?version=1319630439"],"css":["style\/css\/module\/combination\/A_layer_send_weibo.css?version=1319630439"],"html":"<div class=\"send_weibo send_weibo_current\" node-type=\"wrap\">\n<div class=\"title\"><\/div>\n<div class=\"num\" node-type=\"num\" style=\"display: none\">\u8bf7\u6587\u660e\u53d1\u8a00\uff0c\u8fd8\u53ef\u4ee5\u8f93\u5165<span>140<\/span>\u5b57<\/div>\n<div class=\"key W_textb\" node-type=\"recommendTopic\"><a href=\"http:\/\/weibo.com\/zt\/s?k=10746&hasori=1&refer=Index_hot_new\">\u6da8\u5de5\u8d44 \u96be\u4e8e\u4e0a\u9752\u5929<\/a> <a href=\"javascript:;\" style=\"position:absolute;top:-1000px;\" title=\"\u5fae\u535a\u5185\u5bb9\u5217\u8868\"><\/a>\n<a href=\"javascript:;\" id=\"focus_feed_list\" style=\"position:absolute;top:-1000px;\"><\/a><\/div>\n<div class=\"input\">\n<div 
.....

好吧,我只知道怎么把里头的中文转换出来。
问题:如何把这个还原成类似以下的HTML

....
<dl class="feed_list " mid="3373156128017591" isforward="1" action-type="feed_list_item">
<dt class="face">
<a href="/knewledge" title="拇姬"><img usercard="id=1261141474" title="拇姬" alt="" width="50" height="50" src="http://tp3.sinaimg.cn/1261141474/50/1283203850/1"></a>
....

求各位大大指教 Orz




--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
生活是个很奇妙的的东西,当我们以为正要踏到幸福的时候,原来我们才刚刚开始 ......

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
Rui-Fong.Tse

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

wertliii
This post has NOT been accepted by the mailing list yet.
In reply to this post by Chuan-3
你好,我看了你的帖子,不知道你能不能把解析新浪微博源码的代码发给我一份(719235390@qq.com),谢谢!
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

wertliii
This post has NOT been accepted by the mailing list yet.
In reply to this post by kenneth chia-2
你好,我看了你的帖子,能不能把解析新浪微博源码的代码发给我?(719235390@qq.com)
谢谢!
12