[CPyUG] 求一个分布式日志分析方案(不影响线上系统)

classic Classic list List threaded Threaded
15 messages Options
Reply | Threaded
Open this post in threaded view
|

[CPyUG] 求一个分布式日志分析方案(不影响线上系统)

dean forever
我们目前做法是同步线上几十G的日志 到线下系统
入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)

问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。

看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

Zoom.Quiet
在 2011年12月9日 上午1:44,dean forever <[hidden email]> 写道:
> 我们目前做法是同步线上几十G的日志 到线下系统
> 入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)
>
使用Fluentd + MongoDB构建实时日志收集系统 - NoSQLFan - 关注NoSQL相关技术、新闻
    http://blog.nosqlfan.com/html/3521.html
等等,海量分布式的日志管理一般就两个方向:
- 专用客户端+服务端 (Scibe/Flume...)
- 用各种方式异步,对硬盘日志进行自动化收集

> 问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。
>
> 看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
> 百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?
>

- 以前 豆瓣是用 RabbitMQ 收集日志的,但是后来流量也支持不住了,而且也有管理的复杂性
- 所以,找到了 dpark+mesos 组合
    - 适合豆瓣已经进行良好均衡的集群
    - 只要分布式FS 内部的同步可调节,降低同步频率,网络消耗就可以控制在可接受范畴之内了



--
人生苦短, Pythonic! 冗余不做,日子甭过!备份不做,十恶不赦!
俺: http://about.me/zoom.quiet
文字协议: http://creativecommons.org/licenses/by-sa/2.5/cn/

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

dean forever
赞 多谢大妈  我学习一下MongoDB去


在 2011年12月9日 上午9:23,Zoom.Quiet <[hidden email]>写道:
在 2011年12月9日 上午1:44,dean forever <[hidden email]> 写道:
> 我们目前做法是同步线上几十G的日志 到线下系统
> 入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)
>
使用Fluentd + MongoDB构建实时日志收集系统 - NoSQLFan - 关注NoSQL相关技术、新闻
   http://blog.nosqlfan.com/html/3521.html
等等,海量分布式的日志管理一般就两个方向:
- 专用客户端+服务端 (Scibe/Flume...)
- 用各种方式异步,对硬盘日志进行自动化收集

> 问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。
>
> 看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
> 百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?
>

- 以前 豆瓣是用 RabbitMQ 收集日志的,但是后来流量也支持不住了,而且也有管理的复杂性
- 所以,找到了 dpark+mesos 组合
   - 适合豆瓣已经进行良好均衡的集群
   - 只要分布式FS 内部的同步可调节,降低同步频率,网络消耗就可以控制在可接受范畴之内了



--
人生苦短, Pythonic! 冗余不做,日子甭过!备份不做,十恶不赦!
俺: http://about.me/zoom.quiet
文字协议: http://creativecommons.org/licenses/by-sa/2.5/cn/

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

范三山
用srcibe,千万日志毫无压力

在 2011年12月9日 上午9:33,dean forever <[hidden email]> 写道:

> 赞 多谢大妈  我学习一下MongoDB去
>
>
> 在 2011年12月9日 上午9:23,Zoom.Quiet <[hidden email]>写道:
>
>> 在 2011年12月9日 上午1:44,dean forever <[hidden email]> 写道:
>> > 我们目前做法是同步线上几十G的日志 到线下系统
>> > 入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)
>> >
>> 使用Fluentd + MongoDB构建实时日志收集系统 - NoSQLFan - 关注NoSQL相关技术、新闻
>>    http://blog.nosqlfan.com/html/3521.html
>> 等等,海量分布式的日志管理一般就两个方向:
>> - 专用客户端+服务端 (Scibe/Flume...)
>> - 用各种方式异步,对硬盘日志进行自动化收集
>>
>> > 问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip
>> >  rm旧日志时系统负载会升高很多。
>> >
>> > 看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
>> > 百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?
>> >
>>
>> - 以前 豆瓣是用 RabbitMQ 收集日志的,但是后来流量也支持不住了,而且也有管理的复杂性
>> - 所以,找到了 dpark+mesos 组合
>>    - 适合豆瓣已经进行良好均衡的集群
>>    - 只要分布式FS 内部的同步可调节,降低同步频率,网络消耗就可以控制在可接受范畴之内了
>>
>>
>>
>> --
>> 人生苦短, Pythonic! 冗余不做,日子甭过!备份不做,十恶不赦!
>> 俺: http://about.me/zoom.quiet
>> 文字协议: http://creativecommons.org/licenses/by-sa/2.5/cn/
>>
>> --
>> 来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
>> 规则: http://code.google.com/p/cpyug/wiki/PythonCn
>> 发言: [hidden email]
>> 退订: [hidden email] (向此发空信即退!)
>> 详情: http://code.google.com/p/cpyug/wiki/PythonCn
>> 严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
>> 强烈: 建议使用技巧: 如何有效地报告Bug
>> http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
>
>
> --
> 来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
> 规则: http://code.google.com/p/cpyug/wiki/PythonCn
> 发言: [hidden email]
> 退订: [hidden email] (向此发空信即退!)
> 详情: http://code.google.com/p/cpyug/wiki/PythonCn
> 严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
> 强烈: 建议使用技巧: 如何有效地报告Bug
> http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

lan soda
In reply to this post by dean forever
早上在wc刚看了一篇文章,关于mongodb的:
http://coolshell.cn/articles/5826.html


在 2011年12月9日 上午9:33,dean forever <[hidden email]>写道:
赞 多谢大妈  我学习一下MongoDB去


在 2011年12月9日 上午9:23,Zoom.Quiet <[hidden email]>写道:

在 2011年12月9日 上午1:44,dean forever <[hidden email]> 写道:
> 我们目前做法是同步线上几十G的日志 到线下系统
> 入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)
>
使用Fluentd + MongoDB构建实时日志收集系统 - NoSQLFan - 关注NoSQL相关技术、新闻
   http://blog.nosqlfan.com/html/3521.html
等等,海量分布式的日志管理一般就两个方向:
- 专用客户端+服务端 (Scibe/Flume...)
- 用各种方式异步,对硬盘日志进行自动化收集

> 问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。
>
> 看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
> 百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?
>

- 以前 豆瓣是用 RabbitMQ 收集日志的,但是后来流量也支持不住了,而且也有管理的复杂性
- 所以,找到了 dpark+mesos 组合
   - 适合豆瓣已经进行良好均衡的集群
   - 只要分布式FS 内部的同步可调节,降低同步频率,网络消耗就可以控制在可接受范畴之内了



--
人生苦短, Pythonic! 冗余不做,日子甭过!备份不做,十恶不赦!
俺: http://about.me/zoom.quiet
文字协议: http://creativecommons.org/licenses/by-sa/2.5/cn/

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

ubunoon-2
In reply to this post by dean forever
hongdong讲了用nc和fileinput方式,进行日志转移到另一台机器上,之后在另一台机器上处理。

在 2011年12月9日 上午1:44,dean forever <[hidden email]>写道:
我们目前做法是同步线上几十G的日志 到线下系统
入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)

问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。

看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
To be pythoner
My blog: http://www.cnblogs.com/ubunoon/
珍珠饰品:http://zjyuezz.cn.alibaba.com/


--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

dean forever
In reply to this post by lan soda
哈 看过这个帖子  有点搞笑的意思吧。。。

在 2011年12月9日 上午10:07,Lan Soda <[hidden email]>写道:
早上在wc刚看了一篇文章,关于mongodb的:
http://coolshell.cn/articles/5826.html


在 2011年12月9日 上午9:33,dean forever <[hidden email]>写道:
赞 多谢大妈  我学习一下MongoDB去


在 2011年12月9日 上午9:23,Zoom.Quiet <[hidden email]>写道:

在 2011年12月9日 上午1:44,dean forever <[hidden email]> 写道:
> 我们目前做法是同步线上几十G的日志 到线下系统
> 入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)
>
使用Fluentd + MongoDB构建实时日志收集系统 - NoSQLFan - 关注NoSQL相关技术、新闻
   http://blog.nosqlfan.com/html/3521.html
等等,海量分布式的日志管理一般就两个方向:
- 专用客户端+服务端 (Scibe/Flume...)
- 用各种方式异步,对硬盘日志进行自动化收集

> 问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。
>
> 看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
> 百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?
>

- 以前 豆瓣是用 RabbitMQ 收集日志的,但是后来流量也支持不住了,而且也有管理的复杂性
- 所以,找到了 dpark+mesos 组合
   - 适合豆瓣已经进行良好均衡的集群
   - 只要分布式FS 内部的同步可调节,降低同步频率,网络消耗就可以控制在可接受范畴之内了



--
人生苦短, Pythonic! 冗余不做,日子甭过!备份不做,十恶不赦!
俺: http://about.me/zoom.quiet
文字协议: http://creativecommons.org/licenses/by-sa/2.5/cn/

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

Shell Xu
In reply to this post by dean forever

你的日志需要保证不丢么?

From P81HD

在 2011-12-9 上午1:44,"dean forever" <[hidden email]>写道:
我们目前做法是同步线上几十G的日志 到线下系统
入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)

问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。

看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

Qiangning Hong-2
In reply to this post by dean forever
2011/12/9 dean forever <[hidden email]>
我们目前做法是同步线上几十G的日志 到线下系统
入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)

问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。

看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?


豆瓣用 scribe 


--
洪强宁 Qiangning Hong
http://www.douban.com/people/hongqn/
twitter: @hongqn

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

Davies Liu
In reply to this post by dean forever
一个合适的做法是用 scribe 传送日志,它可以跨公网的慢速通道(新版本可能还用QuickLZ来做透明压缩来降低网络IO)。
这样做可以实现近实时的日志分析,基本 上 0:30 就可以开始分析前一天的日志(给网络故障留了比较多的余量)。

离线分析时,每天批量处理可以用hadoop,同时格式化导入 InfoBright 等数据仓库。
用 Oracle/MySQL/MongoDB 来等 OLTP 数据库来做OLAP的事情是不合适的。

豆瓣现在离线和在线在同一个机房,用scribe收集日志到MooseFS,然后用dpark来做常规分析,并导入到InfoBright。

2011/12/9 dean forever <[hidden email]>:

> 我们目前做法是同步线上几十G的日志 到线下系统
> 入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)
>
> 问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。
>
> 看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
> 百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?
>
> --
> 来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
> 规则: http://code.google.com/p/cpyug/wiki/PythonCn
> 发言: [hidden email]
> 退订: [hidden email] (向此发空信即退!)
> 详情: http://code.google.com/p/cpyug/wiki/PythonCn
> 严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
> 强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
 - Davies

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

dean forever
我们在线服务器是托管的  离线的不太可能放在一起
说的很详细 谢谢豆瓣各位大牛

在 11-12-9,Davies Liu<[hidden email]> 写道:

> 一个合适的做法是用 scribe 传送日志,它可以跨公网的慢速通道(新版本可能还用QuickLZ来做透明压缩来降低网络IO)。
> 这样做可以实现近实时的日志分析,基本 上 0:30 就可以开始分析前一天的日志(给网络故障留了比较多的余量)。
>
> 离线分析时,每天批量处理可以用hadoop,同时格式化导入 InfoBright 等数据仓库。
> 用 Oracle/MySQL/MongoDB 来等 OLTP 数据库来做OLAP的事情是不合适的。
>
> 豆瓣现在离线和在线在同一个机房,用scribe收集日志到MooseFS,然后用dpark来做常规分析,并导入到InfoBright。
>
> 2011/12/9 dean forever <[hidden email]>:
>> 我们目前做法是同步线上几十G的日志 到线下系统
>> 入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)
>>
>> 问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip
>> rm旧日志时系统负载会升高很多。
>>
>> 看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
>> 百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?
>>
>> --
>> 来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
>> 规则: http://code.google.com/p/cpyug/wiki/PythonCn
>> 发言: [hidden email]
>> 退订: [hidden email] (向此发空信即退!)
>> 详情: http://code.google.com/p/cpyug/wiki/PythonCn
>> 严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
>> 强烈: 建议使用技巧: 如何有效地报告Bug
>> http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
>
>
>
> --
>  - Davies
>
> --
> 来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
> 规则: http://code.google.com/p/cpyug/wiki/PythonCn
> 发言: [hidden email]
> 退订: [hidden email] (向此发空信即退!)
> 详情: http://code.google.com/p/cpyug/wiki/PythonCn
> 严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
> 强烈: 建议使用技巧: 如何有效地报告Bug
> http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
>

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

panfei
In reply to this post by Qiangning Hong-2
scribe +1

在 2011年12月9日 下午4:21,Qiangning Hong <[hidden email]>写道:
2011/12/9 dean forever <[hidden email]>
我们目前做法是同步线上几十G的日志 到线下系统
入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)

问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。

看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?


豆瓣用 scribe 


--
洪强宁 Qiangning Hong
http://www.douban.com/people/hongqn/
twitter: @hongqn

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
Knowledge Mangement .

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

fang qiang
scribe 数据接收到 hdfs上,然后hadoop离线算。(facebook是这一套)

其他的还有比较成熟的:flum、kafka、storm

2011/12/10 air <[hidden email]>
scribe +1

在 2011年12月9日 下午4:21,Qiangning Hong <[hidden email]>写道:

2011/12/9 dean forever <[hidden email]>
我们目前做法是同步线上几十G的日志 到线下系统
入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)

问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。

看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?


豆瓣用 scribe 


--
洪强宁 Qiangning Hong
http://www.douban.com/people/hongqn/
twitter: @hongqn

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
Knowledge Mangement .


--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

MadFrog-2
这里的日志是指哪些日志啊?

fang qiang <[hidden email]> 於 2011年12月20日下午2:38 ��道:
scribe 数据接收到 hdfs上,然后hadoop离线算。(facebook是这一套)

其他的还有比较成熟的:flum、kafka、storm


2011/12/10 air <[hidden email]>
scribe +1

在 2011年12月9日 下午4:21,Qiangning Hong <[hidden email]>写道:

2011/12/9 dean forever <[hidden email]>
我们目前做法是同步线上几十G的日志 到线下系统
入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)

问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。

看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?


豆瓣用 scribe 


--
洪强宁 Qiangning Hong
http://www.douban.com/people/hongqn/
twitter: @hongqn

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
Knowledge Mangement .


--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html
Reply | Threaded
Open this post in threaded view
|

Re: [CPyUG] 求一个分布式日志分析方案(不影响线上系统)

yangmin.li@gmail.com
日志收集的系统哪个比较成熟,需要支持topic 订阅模式的, taobao的timetunnel 如何?

2011/12/26 MadFrog <[hidden email]>
这里的日志是指哪些日志啊?

fang qiang <[hidden email]> 於 2011年12月20日下午2:38 ��道:

scribe 数据接收到 hdfs上,然后hadoop离线算。(facebook是这一套)

其他的还有比较成熟的:flum、kafka、storm


2011/12/10 air <[hidden email]>
scribe +1

在 2011年12月9日 下午4:21,Qiangning Hong <[hidden email]>写道:

2011/12/9 dean forever <[hidden email]>
我们目前做法是同步线上几十G的日志 到线下系统
入oracle库 用hadoop做日志分析 (分析log本身或者查询oracle我就不清楚了哈)

问题是日志一大同步就非常慢(压缩后也要花快好几个小时,网速不给力) ,线上系统和线下的不在一个机房。而且发现做gzip  rm旧日志时系统负载会升高很多。

看pycon  洪教授讲 dpark+mesos  日志本身在分布式系统上,不需要做同步。我有点疑问是这样会不会影响线上服务器性能(本身pv
百万级,负载有时会高)?问下大家我们这种场景有没有好的解决方案?


豆瓣用 scribe 


--
洪强宁 Qiangning Hong
http://www.douban.com/people/hongqn/
twitter: @hongqn

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html



--
Knowledge Mangement .


--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html

--
来自: python-cn`CPyUG`华蟒用户组(中文Python技术邮件列表)
规则: http://code.google.com/p/cpyug/wiki/PythonCn
发言: [hidden email]
退订: [hidden email] (向此发空信即退!)
详情: http://code.google.com/p/cpyug/wiki/PythonCn
严正: 理解列表! 智慧提问! http://wiki.woodpecker.org.cn/moin/AskForHelp
强烈: 建议使用技巧: 如何有效地报告Bug http://www.chiark.greenend.org.uk/%7Esgtatham/bugs-cn.html