Quantcast

[CPyUG] [新手求助] 新浪微博内容的内容抓取

Previous Topic Next Topic
 
classic Classic list List threaded Threaded
33 messages Options
12
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

[CPyUG] [新手求助] 新浪微博内容的内容抓取

Chuan-3
背景:文科生,论文需要用爬新浪微博的内容作传播分析
原本的需求:把新浪微博的页面爬下来,海量,api应付不过来,看起来...只能爬虫爬

状况:登陆没问题,页面也爬下来了的,打开一看,晕了,它的内容段如下,不知如何还原:
....
</body>
<script src="http://js.t.sinajs.cn/t4/home/js/base.js?version=1319630439" type="text/javascript" ></script>
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_content_publisherTop","js":["home\/js\/pl\/content\/publisherTop.js?version=1319630439"],"css":["style\/css\/module\/combination\/A_layer_send_weibo.css?version=1319630439"],"html":"<div class=\"send_weibo send_weibo_current\" node-type=\"wrap\">\n<div class=\"title\"><\/div>\n<div class=\"num\" node-type=\"num\" style=\"display: none\">\u8bf7\u6587\u660e\u53d1\u8a00\uff0c\u8fd8\u53ef\u4ee5\u8f93\u5165<span>140<\/span>\u5b57<\/div>\n<div class=\"key W_textb\" node-type=\"recommendTopic\"><a href=\"http:\/\/weibo.com\/zt\/s?k=10746&hasori=1&refer=Index_hot_new\">\u6da8\u5de5\u8d44 \u96be\u4e8e\u4e0a\u9752\u5929<\/a> <a href=\"javascript:;\" style=\"position:absolute;top:-1000px;\" title=\"\u5fae\u535a\u5185\u5bb9\u5217\u8868\"><\/a>\n<a href=\"javascript:;\" id=\"focus_feed_list\" style=\"position:absolute;top:-1000px;\"><\/a><\/div>\n<div class=\"input\">\n<div 
.....

好吧,我只知道怎么把里头的中文转换出来。
问题:如何把这个还原成类似以下的HTML

....
<dl class="feed_list " mid="3373156128017591" isforward="1" action-type="feed_list_item">
<dt class="face">
<a href="/knewledge" title="拇姬"><img usercard="id=1261141474" title="拇姬" alt="" width="50" height="50" src="http://tp3.sinaimg.cn/1261141474/50/1283203850/1"></a>
....

求各位大大指教 Orz




--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容ץȡ

lu_zi_2000
找你想要的东西都行了
于 2011年10月27日 17:18, Chuan 写道:
背景:文科生,论文需要用爬新浪微博的内容作传播分析
原本的需求:把新浪微博的页面爬下来,海量,api应付不过来,看起来...只能爬虫爬

状况:登陆没问题,页面也爬下来了的,打开一看,晕了,它的内容段如下,不知如何还原:
....
</body>
<script src="http://js.t.sinajs.cn/t4/home/js/base.js?version=1319630439" type="text/javascript" ></script>
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_content_publisherTop","js":["home\/js\/pl\/content\/publisherTop.js?version=1319630439"],"css":["style\/css\/module\/combination\/A_layer_send_weibo.css?version=1319630439"],"html":"<div class=\"send_weibo send_weibo_current\" node-type=\"wrap\">\n<div class=\"title\"><\/div>\n<div class=\"num\" node-type=\"num\" style=\"display: none\">\u8bf7\u6587\u660e\u53d1\u8a00\uff0c\u8fd8\u53ef\u4ee5\u8f93\u5165<span>140<\/span>\u5b57<\/div>\n<div class=\"key W_textb\" node-type=\"recommendTopic\"><a href=\<a class="moz-txt-link-rfc2396E" href="http:\/\/weibo.com\/zt\/s?k=10746&amp;hasori=1&amp;refer=Index_hot_new\">"http:\/\/weibo.com\/zt\/s?k=10746&hasori=1&refer=Index_hot_new\">\u6da8\u5de5\u8d44 \u96be\u4e8e\u4e0a\u9752\u5929<\/a> <a href=\<a class="moz-txt-link-rfc2396E" href="javascript:;\">"javascript:;\" style=\"position:absolute;top:-1000px;\" title=\"\u5fae\u535a\u5185\u5bb9\u5217\u8868\"><\/a>\n<a href=\<a class="moz-txt-link-rfc2396E" href="javascript:;\">"javascript:;\" id=\"focus_feed_list\" style=\"position:absolute;top:-1000px;\"><\/a><\/div>\n<div class=\"input\">\n<div 
.....

好吧,我只知道怎么把里头的中文转换出来。
问题:如何把这个还原成类似以下的HTML

....
<dl class="feed_list " mid="3373156128017591" isforward="1" action-type="feed_list_item">
<dt class="face">
<a href="/knewledge" title="拇姬"><img usercard="id=1261141474" title="拇姬" alt="" width="50" height="50" src="http://tp3.sinaimg.cn/1261141474/50/1283203850/1"></a>
....

求各位大大指教 Orz




--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容ץȡ

Chuan-3
我想要的东西比较杂,现在这样...非常头晕,因此希望能有一个较为简便的方法还原出来
不知是否有 (> <)
实在不行也只能直接找想要的东西...多谢lu_zi_2000同学回复

On Thursday, October 27, 2011 5:30:52 PM UTC+8, lu_zi_2000 wrote:
找你想要的东西都行了
于 2011年10月27日 17:18, Chuan 写道:
背景:文科生,论文需要用爬新浪微博的内容作传播分析
原本的需求:把新浪微博的页面爬下来,海量,api应付不过来,看起来...只能爬虫爬

状况:登陆没问题,页面也爬下来了的,打开一看,晕了,它的内容段如下,不知如何还原:
....
</body>
<script src="http://js.t.sinajs.cn/t4/home/js/base.js?version=1319630439" type="text/javascript" ></script>
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_content_publisherTop","js":["home\/js\/pl\/content\/publisherTop.js?version=1319630439"],"css":["style\/css\/module\/combination\/A_layer_send_weibo.css?version=1319630439"],"html":"<div class=\"send_weibo send_weibo_current\" node-type=\"wrap\">\n<div class=\"title\"><\/div>\n<div class=\"num\" node-type=\"num\" style=\"display: none\">\u8bf7\u6587\u660e\u53d1\u8a00\uff0c\u8fd8\u53ef\u4ee5\u8f93\u5165<span>140<\/span>\u5b57<\/div>\n<div class=\"key W_textb\" node-type=\"recommendTopic\"><a href=\"http:\/\/weibo.com\/zt\/s?k=10746&hasori=1&refer=Index_hot_new\">\u6da8\u5de5\u8d44 \u96be\u4e8e\u4e0a\u9752\u5929<\/a> <a href=\"javascript:;\" style=\"position:absolute;top:-1000px;\" title=\"\u5fae\u535a\u5185\u5bb9\u5217\u8868\"><\/a>\n<a href=\"javascript:;\" id=\"focus_feed_list\" style=\"position:absolute;top:-1000px;\"><\/a><\/div>\n<div class=\"input\">\n<div 
.....

好吧,我只知道怎么把里头的中文转换出来。
问题:如何把这个还原成类似以下的HTML

....
<dl class="feed_list " mid="3373156128017591" isforward="1" action-type="feed_list_item">
<dt class="face">
<a href="/knewledge" title="拇姬"><img usercard="id=1261141474" title="拇姬" alt="" width="50" height="50" src="http://tp3.sinaimg.cn/1261141474/50/1283203850/1"></a>
....

求各位大大指教 Orz




--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容ץȡ

依云
On Thu, Oct 27, 2011 at 02:40:27AM -0700, Chuan wrote:
> 我想要的东西比较杂,现在这样...非常头晕,因此希望能有一个较为简便的方法还原出来
> 不知是否有 (> <)
> 实在不行也只能直接找想要的东西...多谢lu_zi_2000同学回复

没明白你的问题。。。。建议先读下列表签名里的几个链接。

> On Thursday, October 27, 2011 5:30:52 PM UTC+8, lu_zi_2000 wrote:
> >
> >  找你想要的东西都行了
> > 于 2011年10月27日 17:18, Chuan 写道:
> >
> > 背景:文科生,论文需要用爬新浪微博的内容作传播分析
> > 原本的需求:把*新浪微博的页面爬下来*,海量,api应付不过来,看起来...只能爬虫爬
> >
> >  状况:登陆没问题,页面也爬下来了的,打开一看,晕了,它的内容段如下,不知如何还原:
> > ....
> >  </body>
> > <script src="http://js.t.sinajs.cn/t4/home/js/base.js?version=1319630439"<http://js.t.sinajs.cn/t4/home/js/base.js?version=1319630439>type="text/javascript" ></script>
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_publisherTop","js":["home\/js\/pl\/content\/publisherTop.js?version=1319630439"],"css":["style\/css\/module\/combination\/A_layer_send_weibo.css?version=1319630439"],"html":"<div
> > class=\"send_weibo send_weibo_current\" node-type=\"wrap\">\n<div
> > class=\"title\"><\/div>\n<div class=\"num\" node-type=\"num\"
> > style=\"display:
> > none\">\u8bf7\u6587\u660e\u53d1\u8a00\uff0c\u8fd8\u53ef\u4ee5\u8f93\u5165<span>140<\/span>\u5b57<\/div>\n<div
> > class=\"key W_textb\" node-type=\"recommendTopic\"><a href=\
> > "http:\/\/weibo.com\/zt\/s?k=10746&hasori=1&refer=Index_hot_new\"<http:%5C/%5C/weibo.com%5C/zt%5C/s?k=10746&hasori=1&refer=Index_hot_new%5C>>\u6da8\u5de5\u8d44
> > \u96be\u4e8e\u4e0a\u9752\u5929<\/a> <a href=\"javascript:;\"style=\"position:absolute;top:-1000px;\"
> > title=\"\u5fae\u535a\u5185\u5bb9\u5217\u8868\"><\/a>\n<a href=\
> > "javascript:;\" id=\"focus_feed_list\"
> > style=\"position:absolute;top:-1000px;\"><\/a><\/div>\n<div
> > class=\"input\">\n<div
> >  .....
> >
> >  好吧,我只知道怎么把里头的中文转换出来。
> > 问题:*如何把这个还原成类似以下的HTML*?
> >
> >  ....
> >  <dl class="feed_list " mid="3373156128017591" isforward="1"
> > action-type="feed_list_item">
> > <dt class="face">
> > <a href="/knewledge" title="拇姬"><img usercard="id=1261141474" title="拇姬"
> > alt="" width="50" height="50" src=
> > "http://tp3.sinaimg.cn/1261141474/50/1283203850/1"<http://tp3.sinaimg.cn/1261141474/50/1283203850/1>
> > ></a>
> > ....
> >
> >  求各位大大指教 Orz

--
Best regards,
lilydjwg

Linux Vim Python 我的博客
http://lilydjwg.is-programmer.com/

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
        http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容ץȡ

Chuan-3
re 依云:
抱歉,没有阐述明白问题

我希望能从新浪微博上抓取到类似如下结构的内容:
<dl class="feed_list " mid="3373167961719989" isforward="1" action-type="feed_list_item">
<dt class="face">
<a href="/cbvivi" title="cbvivi"><img usercard="id=1674067880" title="cbvivi" alt="" width="50" height="50" src="http://tp1.sinaimg.cn/1674067880/50/1289796483/1"></a>
</dt>
<dd class="content">
<p node-type="feed_list_content">
<a nick-name="cbvivi" title="cbvivi" href="/cbvivi" usercard="id=1674067880">
cbvivi</a>:<em>买!</em></p>

<dl class="comment">
<dd class="arrow"><span>◆</span></dd>
<dt node-type="feed_list_forwardContent">
<a nick-name="顾不厌" href="/gubuyan" title="顾不厌" usercard="id=1495287021">
@顾不厌</a>:<em>《好小猫》卓越链接 
...

但是在页面源码中的相应相应内容,却是通过js组合的:
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_content_liteFacePersonInfo","js":["home\/js\/pl
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_content_userInfo","js":[],"css":["style\/css\/mo
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_content_followStatus","js":["home\/js\/pl\/cont
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_content_hisTags","js":[],"css":["style\/css\/mod
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_content_medal","js":["home\/js\/pl\/content\/med

我希望能有一种方法,使后者的内容变得可读,方便正则提取,使我可以进一步做数据挖掘。
lu_zi_2000同学的建议在我的理解中是:直接提取我所需要的信息。这当然可以,但是我的所需信息多且杂,在这种混乱的面貌下让我相当头晕。因此仍旧求一枚使之“对人类阅读更友好”的方法。
不知表述地是否清楚。

多谢~



On Thursday, October 27, 2011 5:55:03 PM UTC+8, 依云 wrote:
On Thu, Oct 27, 2011 at 02:40:27AM -0700, Chuan wrote:

> 我想要的东西比较杂,现在这样...非常头晕,因此希望能有一个较为简便的方法还原出来
> 不知是否有 (> <)
> 实在不行也只能直接找想要的东西...多谢lu_zi_2000同学回复

没明白你的问题。。。。建议先读下列表签名里的几个链接。

> On Thursday, October 27, 2011 5:30:52 PM UTC+8, lu_zi_2000 wrote:
> >
> >  找你想要的东西都行了
> > 于 2011年10月27日 17:18, Chuan 写道:
> >
> > 背景:文科生,论文需要用爬新浪微博的内容作传播分析
> > 原本的需求:把*新浪微博的页面爬下来*,海量,api应付不过来,看起来...只能爬虫爬
> >
> >  状况:登陆没问题,页面也爬下来了的,打开一看,晕了,它的内容段如下,不知如何还原:
> > ....
> >  </body>
> > <script src="http://js.t.sinajs.cn/t4/home/js/base.js?version=1319630439"<http://js.t.sinajs.cn/t4/home/js/base.js?version=1319630439>type="text/javascript" ></script>
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_publisherTop","js":["home\/js\/pl\/content\/publisherTop.js?version=1319630439"],"css":["style\/css\/module\/combination\/A_layer_send_weibo.css?version=1319630439"],"html":"<div
> > class=\"send_weibo send_weibo_current\" node-type=\"wrap\">\n<div
> > class=\"title\"><\/div>\n<div class=\"num\" node-type=\"num\"
> > style=\"display:
> > none\">\u8bf7\u6587\u660e\u53d1\u8a00\uff0c\u8fd8\u53ef\u4ee5\u8f93\u5165<span>140<\/span>\u5b57<\/div>\n<div
> > class=\"key W_textb\" node-type=\"recommendTopic\"><a href=\
> > "http:\/\/weibo.com\/zt\/s?k=10746&hasori=1&refer=Index_hot_new\"<http:%5C/%5C/weibo.com%5C/zt%5C/s?k=10746&hasori=1&refer=Index_hot_new%5C>>\u6da8\u5de5\u8d44
> > \u96be\u4e8e\u4e0a\u9752\u5929<\/a> <a href=\"javascript:;\"style=\"position:absolute;top:-1000px;\"
> > title=\"\u5fae\u535a\u5185\u5bb9\u5217\u8868\"><\/a>\n<a href=\
> > "javascript:;\" id=\"focus_feed_list\"
> > style=\"position:absolute;top:-1000px;\"><\/a><\/div>\n<div
> > class=\"input\">\n<div
> >  .....
> >
> >  好吧,我只知道怎么把里头的中文转换出来。
> > 问题:*如何把这个还原成类似以下的HTML*?
> >
> >  ....
> >  <dl class="feed_list " mid="3373156128017591" isforward="1"
> > action-type="feed_list_item">
> > <dt class="face">
> > <a href="/knewledge" title="拇姬"><img usercard="id=1261141474" title="拇姬"
> > alt="" width="50" height="50" src=
> > "http://tp3.sinaimg.cn/1261141474/50/1283203850/1"<http://tp3.sinaimg.cn/1261141474/50/1283203850/1>
> > ></a>
> > ....
> >
> >  求各位大大指教 Orz

--

Best regards,
lilydjwg

Linux Vim Python 我的博客
http://lilydjwg.is-programmer.com/

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容ץȡ

依云
On Thu, Oct 27, 2011 at 03:07:27AM -0700, Chuan wrote:

> re 依云:
> 抱歉,没有阐述明白问题
>
> 我希望能从新浪微博上抓取到类似如下结构的内容:
>
> > <dl class="feed_list " mid="3373167961719989" isforward="1"
> > action-type="feed_list_item">
> > <dt class="face">
> > <a href="/cbvivi" title="cbvivi"><img usercard="id=1674067880"
> > title="cbvivi" alt="" width="50" height="50"
> > src="http://tp1.sinaimg.cn/1674067880/50/1289796483/1"></a>
> > </dt>
> > <dd class="content">
> > <p node-type="feed_list_content">
> > <a nick-name="cbvivi" title="cbvivi" href="/cbvivi"
> > usercard="id=1674067880">
> > cbvivi</a>:<em>买!</em></p>
> >
> > <dl class="comment">
> > <dd class="arrow"><span>◆</span></dd>
> > <dt node-type="feed_list_forwardContent">
> > <a nick-name="顾不厌" href="/gubuyan" title="顾不厌" usercard="id=1495287021">
> > @顾不厌</a>:<em>《好小猫》卓越链接
> > ...
>
>
> 但是在页面源码中的相应相应内容,却是通过js组合的:
>
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_liteFacePersonInfo","js":["home\/js\/pl
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_userInfo","js":[],"css":["style\/css\/mo
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_followStatus","js":["home\/js\/pl\/cont
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_hisTags","js":[],"css":["style\/css\/mod
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_medal","js":["home\/js\/pl\/content\/med
>
>
> 我希望能有一种方法,使后者的内容变得可读,方便正则提取,使我可以进一步做数据挖掘。
> lu_zi_2000同学的建议在我的理解中是:直接提取我所需要的信息。这当然可以,但是我的所需信息多且杂,在这种混乱的面貌下让我相当头晕。因此仍旧求一枚使之“对人类阅读更友好”的方法。
> 不知表述地是否清楚。
>
> 多谢~

用浏览器引擎(如 qt 支持的 webkit)解析吧,比如这个
http://www.phantomjs.org/ (也有 Python 绑定的)。

--
Best regards,
lilydjwg

Linux Vim Python 我的博客
http://lilydjwg.is-programmer.com/

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
        http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容ץȡ

Larry Li
那些本身就是json数据,直接提取不就是了。用webkit或者v8都是杀鸡用牛刀了。

2011/10/27 依云 <[hidden email]>
On Thu, Oct 27, 2011 at 03:07:27AM -0700, Chuan wrote:
> re 依云:
> 抱歉,没有阐述明白问题
>
> 我希望能从新浪微博上抓取到类似如下结构的内容:
>
> > <dl class="feed_list " mid="3373167961719989" isforward="1"
> > action-type="feed_list_item">
> > <dt class="face">
> > <a href="/cbvivi" title="cbvivi"><img usercard="id=1674067880"
> > title="cbvivi" alt="" width="50" height="50"
> > src="http://tp1.sinaimg.cn/1674067880/50/1289796483/1"></a>
> > </dt>
> > <dd class="content">
> > <p node-type="feed_list_content">
> > <a nick-name="cbvivi" title="cbvivi" href="/cbvivi"
> > usercard="id=1674067880">
> > cbvivi</a>:<em>买!</em></p>
> >
> > <dl class="comment">
> > <dd class="arrow"><span>◆</span></dd>
> > <dt node-type="feed_list_forwardContent">
> > <a nick-name="顾不厌" href="/gubuyan" title="顾不厌" usercard="id=1495287021">
> > @顾不厌</a>:<em>《好小猫》卓越链接
> > ...
>
>
> 但是在页面源码中的相应相应内容,却是通过js组合的:
>
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_liteFacePersonInfo","js":["home\/js\/pl
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_userInfo","js":[],"css":["style\/css\/mo
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_followStatus","js":["home\/js\/pl\/cont
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_hisTags","js":[],"css":["style\/css\/mod
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_medal","js":["home\/js\/pl\/content\/med
>
>
> 我希望能有一种方法,使后者的内容变得可读,方便正则提取,使我可以进一步做数据挖掘。
> lu_zi_2000同学的建议在我的理解中是:直接提取我所需要的信息。这当然可以,但是我的所需信息多且杂,在这种混乱的面貌下让我相当头晕。因此仍旧求一枚使之“对人类阅读更友好”的方法。
> 不知表述地是否清楚。
>
> 多谢~

用浏览器引擎(如 qt 支持的 webkit)解析吧,比如这个
http://www.phantomjs.org/ (也有 Python 绑定的)。

--
Best regards,
lilydjwg

Linux Vim Python 我的博客
http://lilydjwg.is-programmer.com/

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
       http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容ץȡ

依云
我又没去看它的原始数据格式是什么样子。不过国内网站用标准的 json 格式的很
少,大多是 eval。

On Thu, Oct 27, 2011 at 06:36:34PM +0800, Larry Li wrote:

> 那些本身就是json数据,直接提取不就是了。用webkit或者v8都是杀鸡用牛刀了。
>
> 2011/10/27 依云 <[hidden email]>
>
> > On Thu, Oct 27, 2011 at 03:07:27AM -0700, Chuan wrote:
> > > re 依云:
> > > 抱歉,没有阐述明白问题
> > >
> > > 我希望能从新浪微博上抓取到类似如下结构的内容:
> > >
> > > > <dl class="feed_list " mid="3373167961719989" isforward="1"
> > > > action-type="feed_list_item">
> > > > <dt class="face">
> > > > <a href="/cbvivi" title="cbvivi"><img usercard="id=1674067880"
> > > > title="cbvivi" alt="" width="50" height="50"
> > > > src="http://tp1.sinaimg.cn/1674067880/50/1289796483/1"></a>
> > > > </dt>
> > > > <dd class="content">
> > > > <p node-type="feed_list_content">
> > > > <a nick-name="cbvivi" title="cbvivi" href="/cbvivi"
> > > > usercard="id=1674067880">
> > > > cbvivi</a>:<em>买!</em></p>
> > > >
> > > > <dl class="comment">
> > > > <dd class="arrow"><span>◆</span></dd>
> > > > <dt node-type="feed_list_forwardContent">
> > > > <a nick-name="顾不厌" href="/gubuyan" title="顾不厌"
> > usercard="id=1495287021">
> > > > @顾不厌</a>:<em>《好小猫》卓越链接
> > > > ...
> > >
> > >
> > > 但是在页面源码中的相应相应内容,却是通过js组合的:
> > >
> > > > <script>STK && STK.pageletM &&
> > > >
> > STK.pageletM.view({"pid":"pl_content_liteFacePersonInfo","js":["home\/js\/pl
> > > > <script>STK && STK.pageletM &&
> > > >
> > STK.pageletM.view({"pid":"pl_content_userInfo","js":[],"css":["style\/css\/mo
> > > > <script>STK && STK.pageletM &&
> > > >
> > STK.pageletM.view({"pid":"pl_content_followStatus","js":["home\/js\/pl\/cont
> > > > <script>STK && STK.pageletM &&
> > > >
> > STK.pageletM.view({"pid":"pl_content_hisTags","js":[],"css":["style\/css\/mod
> > > > <script>STK && STK.pageletM &&
> > > >
> > STK.pageletM.view({"pid":"pl_content_medal","js":["home\/js\/pl\/content\/med
> > >
> > >
> > > 我希望能有一种方法,使后者的内容变得可读,方便正则提取,使我可以进一步做数据挖掘。
> > >
> > lu_zi_2000同学的建议在我的理解中是:直接提取我所需要的信息。这当然可以,但是我的所需信息多且杂,在这种混乱的面貌下让我相当头晕。因此仍旧求一枚使之“对人类阅读更友好”的方法。
> > > 不知表述地是否清楚。
> > >
> > > 多谢~
> >
> > 用浏览器引擎(如 qt 支持的 webkit)解析吧,比如这个
> > http://www.phantomjs.org/ (也有 Python 绑定的)。
> >
> > --
> > Best regards,
> > lilydjwg
> >
> > Linux Vim Python 我的博客
> > http://lilydjwg.is-programmer.com/
> >
> > --
> > 来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
> > 发言: [hidden email]
> > 退订: [hidden email] (向此发空信即退!)
> > 详情: http://code.google.com/p/cpyug/wiki/PythonCn
> > 严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
> > 强烈: 建议使用技巧: 如何有效地报告Bug
> >        http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
> >
>
> --
> 来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
> 发言: [hidden email]
> 退订: [hidden email] (向此发空信即退!)
> 详情: http://code.google.com/p/cpyug/wiki/PythonCn
> 严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
> 强烈: 建议使用技巧: 如何有效地报告Bug
>         http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
Best regards,
lilydjwg

Linux Vim Python 我的博客
http://lilydjwg.is-programmer.com/

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
        http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容ץȡ

Chuan-3
In reply to this post by Larry Li
求教求教求教,如何提取
我就是只小白

On Thursday, October 27, 2011 6:36:34 PM UTC+8, Larry Li wrote:
那些本身就是json数据,直接提取不就是了。用webkit或者v8都是杀鸡用牛刀了。

2011/10/27 依云 <[hidden email]>
On Thu, Oct 27, 2011 at 03:07:27AM -0700, Chuan wrote:
> re 依云:
> 抱歉,没有阐述明白问题
>
> 我希望能从新浪微博上抓取到类似如下结构的内容:
>
> > <dl class="feed_list " mid="3373167961719989" isforward="1"
> > action-type="feed_list_item">
> > <dt class="face">
> > <a href="/cbvivi" title="cbvivi"><img usercard="id=1674067880"
> > title="cbvivi" alt="" width="50" height="50"
> > src="http://tp1.sinaimg.cn/1674067880/50/1289796483/1"></a>
> > </dt>
> > <dd class="content">
> > <p node-type="feed_list_content">
> > <a nick-name="cbvivi" title="cbvivi" href="/cbvivi"
> > usercard="id=1674067880">
> > cbvivi</a>:<em>买!</em></p>
> >
> > <dl class="comment">
> > <dd class="arrow"><span>◆</span></dd>
> > <dt node-type="feed_list_forwardContent">
> > <a nick-name="顾不厌" href="/gubuyan" title="顾不厌" usercard="id=1495287021">
> > @顾不厌</a>:<em>《好小猫》卓越链接
> > ...
>
>
> 但是在页面源码中的相应相应内容,却是通过js组合的:
>
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_liteFacePersonInfo","js":["home\/js\/pl
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_userInfo","js":[],"css":["style\/css\/mo
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_followStatus","js":["home\/js\/pl\/cont
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_hisTags","js":[],"css":["style\/css\/mod
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_medal","js":["home\/js\/pl\/content\/med
>
>
> 我希望能有一种方法,使后者的内容变得可读,方便正则提取,使我可以进一步做数据挖掘。
> lu_zi_2000同学的建议在我的理解中是:直接提取我所需要的信息。这当然可以,但是我的所需信息多且杂,在这种混乱的面貌下让我相当头晕。因此仍旧求一枚使之“对人类阅读更友好”的方法。
> 不知表述地是否清楚。
>
> 多谢~

用浏览器引擎(如 qt 支持的 webkit)解析吧,比如这个
http://www.phantomjs.org/ (也有 Python 绑定的)。

--
Best regards,
lilydjwg

Linux Vim Python 我的博客
http://lilydjwg.is-programmer.com/

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
       http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

风向标
In reply to this post by Chuan-3
解释js

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

连高欣
注意网页的编码格式,如果是gb2312之类的,可以尝试先decode成unicode处理,然后再encode至必要的编码

在 2011年10月27日 下午8:15,风向标 <[hidden email]>写道:
解释js

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
关注和奉献Tianjin Linux User Group的建设,Linux爱好者,Python初学者,开源拥护者,求交流求指导

天津Linux交流 qq群104029520 73809331
twitter:@freetstar

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

[CPyUG] Re: [新手求助] 新浪微博内容的内容抓取

Chuan-3
In reply to this post by Chuan-3
搞定,先re,再用json取出来,继而encode('gbk')
多谢 Larry Li 大大的提示,这是我第一次见json,不说还真不知道怎么办。

On Thursday, October 27, 2011 5:18:47 PM UTC+8, Chuan wrote:
背景:文科生,论文需要用爬新浪微博的内容作传播分析
原本的需求:把新浪微博的页面爬下来,海量,api应付不过来,看起来...只能爬虫爬

状况:登陆没问题,页面也爬下来了的,打开一看,晕了,它的内容段如下,不知如何还原:
....
</body>
<script src="http://js.t.sinajs.cn/t4/home/js/base.js?version=1319630439" type="text/javascript" ></script>
<script>STK && STK.pageletM && STK.pageletM.view({"pid":"pl_content_publisherTop","js":["home\/js\/pl\/content\/publisherTop.js?version=1319630439"],"css":["style\/css\/module\/combination\/A_layer_send_weibo.css?version=1319630439"],"html":"<div class=\"send_weibo send_weibo_current\" node-type=\"wrap\">\n<div class=\"title\"><\/div>\n<div class=\"num\" node-type=\"num\" style=\"display: none\">\u8bf7\u6587\u660e\u53d1\u8a00\uff0c\u8fd8\u53ef\u4ee5\u8f93\u5165<span>140<\/span>\u5b57<\/div>\n<div class=\"key W_textb\" node-type=\"recommendTopic\"><a href=\"http:\/\/weibo.com\/zt\/s?k=10746&hasori=1&refer=Index_hot_new\">\u6da8\u5de5\u8d44 \u96be\u4e8e\u4e0a\u9752\u5929<\/a> <a href=\"javascript:;\" style=\"position:absolute;top:-1000px;\" title=\"\u5fae\u535a\u5185\u5bb9\u5217\u8868\"><\/a>\n<a href=\"javascript:;\" id=\"focus_feed_list\" style=\"position:absolute;top:-1000px;\"><\/a><\/div>\n<div class=\"input\">\n<div 
.....

好吧,我只知道怎么把里头的中文转换出来。
问题:如何把这个还原成类似以下的HTML

....
<dl class="feed_list " mid="3373156128017591" isforward="1" action-type="feed_list_item">
<dt class="face">
<a href="/knewledge" title="拇姬"><img usercard="id=1261141474" title="拇姬" alt="" width="50" height="50" src="http://tp3.sinaimg.cn/1261141474/50/1283203850/1"></a>
....

求各位大大指教 Orz




--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

Andelf
In reply to this post by Chuan-3


2011/10/27 Chuan <[hidden email]>
背景:文科生,论文需要用爬新浪微博的内容作传播分析
原本的需求:把新浪微博的页面爬下来,海量,api应付不过来,看起来...只能爬虫爬



用API做吧, 你这个够纠结~ 

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

hejibo
请问什么是“爬新浪微博的内容作传播分析”呀?

---------------------------
He Jibo
Department of Psychology,
Beckman Institute for Advanced Science and Technology
University of Illinois, Urbana Champaign,
603 East Daniel St.,
Champaign, IL 61820
website: www.hejibo.info


2011/10/27 Andelf <[hidden email]>
爬新浪微博的内容作传播分析

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

pako pc
新浪提供python api了 不过现在不支持Basic Authentication

还有他那个api python版有点问题 需要改下

没必要去抓网页 在分析。

在 2011年10月27日 下午11:21,He Jibo <[hidden email]>写道:
请问什么是“爬新浪微博的内容作传播分析”呀?

---------------------------
He Jibo
Department of Psychology,
Beckman Institute for Advanced Science and Technology
University of Illinois, Urbana Champaign,
603 East Daniel St.,
Champaign, IL 61820
website: www.hejibo.info


2011/10/27 Andelf <[hidden email]>
爬新浪微博的内容作传播分析

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

Felix Yan
LS请看原文说的: 海量,api应付不过来

不过我建议LZ去试试移动版的新浪微博, 比普通版的网页结构简单不少, 我以前遇到类似情况就是去抓移动版的...
传送门: http://m.weibo.com

Felix Yan
Twitter: @felixonmars
Blog: http://felixc.at


2011/10/27 pako pc <[hidden email]>
新浪提供python api了

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容ץȡ

victor lee-3
In reply to this post by Chuan-3

试试看phantomjs?

2011-10-27 下午7:11 於 "Chuan" <[hidden email]> ��道:
求教求教求教,如何提取
我就是只小白

On Thursday, October 27, 2011 6:36:34 PM UTC+8, Larry Li wrote:
那些本身就是json数据,直接提取不就是了。用webkit或者v8都是杀鸡用牛刀了。

2011/10/27 依云 <[hidden email]>
On Thu, Oct 27, 2011 at 03:07:27AM -0700, Chuan wrote:
> re 依云:
> 抱歉,没有阐述明白问题
>
> 我希望能从新浪微博上抓取到类似如下结构的内容:
>
> > <dl class="feed_list " mid="3373167961719989" isforward="1"
> > action-type="feed_list_item">
> > <dt class="face">
> > <a href="/cbvivi" title="cbvivi"><img usercard="id=1674067880"
> > title="cbvivi" alt="" width="50" height="50"
> > src="http://tp1.sinaimg.cn/1674067880/50/1289796483/1"></a>
> > </dt>
> > <dd class="content">
> > <p node-type="feed_list_content">
> > <a nick-name="cbvivi" title="cbvivi" href="/cbvivi"
> > usercard="id=1674067880">
> > cbvivi</a>:<em>买!</em></p>
> >
> > <dl class="comment">
> > <dd class="arrow"><span>◆</span></dd>
> > <dt node-type="feed_list_forwardContent">
> > <a nick-name="顾不厌" href="/gubuyan" title="顾不厌" usercard="id=1495287021">
> > @顾不厌</a>:<em>《好小猫》卓越链接
> > ...
>
>
> 但是在页面源码中的相应相应内容,却是通过js组合的:
>
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_liteFacePersonInfo","js":["home\/js\/pl
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_userInfo","js":[],"css":["style\/css\/mo
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_followStatus","js":["home\/js\/pl\/cont
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_hisTags","js":[],"css":["style\/css\/mod
> > <script>STK && STK.pageletM &&
> > STK.pageletM.view({"pid":"pl_content_medal","js":["home\/js\/pl\/content\/med
>
>
> 我希望能有一种方法,使后者的内容变得可读,方便正则提取,使我可以进一步做数据挖掘。
> lu_zi_2000同学的建议在我的理解中是:直接提取我所需要的信息。这当然可以,但是我的所需信息多且杂,在这种混乱的面貌下让我相当头晕。因此仍旧求一枚使之“对人类阅读更友好”的方法。
> 不知表述地是否清楚。
>
> 多谢~

用浏览器引擎(如 qt 支持的 webkit)解析吧,比如这个
http://www.phantomjs.org/ (也有 Python 绑定的)。

--
Best regards,
lilydjwg

Linux Vim Python 我的博客
http://lilydjwg.is-programmer.com/

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
       http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容ץȡ

pansz-2
In reply to this post by lu_zi_2000
2011/10/27 lu_zi_2000 <[hidden email]>:
> 找你想要的东西都行了
> 于 2011年10月27日 17:18, Chuan 写道:
>
> 背景:文科生,论文需要用爬新浪微博的内容作传播分析
> 原本的需求:把新浪微博的页面爬下来,海量,api应付不过来,看起来...只能爬虫爬
> 状况:登陆没问题,页面也爬下来了的,打开一看,晕了,它的内容段如下,不知如何还原:

我这两天正在做新浪微博的爬虫,要想使这个事情简单些,给你一个提示:把你伪装成手机浏览器。因为手机页面解析起来相对简单些。一般 wap 版的页面是最简单的。

至于那一段“正文”貌似并不是正文,因为那一段都已经在 </body> 之后了,后面的内容可以忽略。你其实只需要关注  <body> </body> 以内的东西。

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
        http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

pansz-2
In reply to this post by pako pc
api 一个是要认证,二个有访问次数限制的。

有时你必须做个无需认证的内容,就不能用api了。例如你要查看分类话题呀,名人啊,这些本来都是无需登录就可以在页面上看到的。但是用 api 就非得登录。

2011/10/27 pako pc <[hidden email]>:
> 新浪提供python api了 不过现在不支持Basic Authentication
> 还有他那个api python版有点问题 需要改下
> 没必要去抓网页 在分析。

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
        http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|  
Report Content as Inappropriate

Re: [CPyUG] [新手求助] 新浪微博内容的内容抓取

Felix Yan
无需认证的内容, 可以本地缓存一份啊...

Felix Yan
Twitter: @felixonmars
Blog: http://felixc.at


2011/10/28 pansz <[hidden email]>
api 一个是要认证,二个有访问次数限制的。

有时你必须做个无需认证的内容,就不能用api了。例如你要查看分类话题呀,名人啊,这些本来都是无需登录就可以在页面上看到的。但是用 api 就非得登录。

2011/10/27 pako pc <[hidden email]>:
> 新浪提供python api了 不过现在不支持Basic Authentication
> 还有他那个api python版有点问题 需要改下
> 没必要去抓网页 在分析。

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
       http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug
http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
12
Loading...