Mobility

发表于2015-08-08|消息队列

测试场景公司使用activemq和camel做消息的分发，之前数据量不是很大，所以一直没怎么考虑效率问题，对camel的工作原理研究也不深。单是最近随着业务量的增加，camel的效率逐渐成了瓶颈，所以根据日志大概了解了camel的工作原理。虽然camel是被嵌入到activemq中，但在工作过程中，camel和activemq其实还是相对独立的。我们在camel中会配置一个到activemq的连接. http://camel.apache.org/activemq.html 关于vm这种传输方式，参考http://activemq.apache.org/vm-transport-reference.html 瓶颈分析看了下日志，发现这种配置下camel会有一个很严重的问题: camel每次执行转发操作时，都会新建一个到activemq的连接，之后再将其关闭。这严重拖慢了转发效率，因为事实上每次转发都可以使用同一个连接。优化建议因此查了一下camel文档，找到了 http://camel.apache.org/activemq.html 。里边有关于线程池的配置： &n...

一篇不错的lda模型入门文档

发表于2012-12-02|技术杂谈

转自http://leyew.blog.51cto.com/5043877/860255#559183-tsina-1-46862-ed0973a0c870156ed15f06a6573c8bf0 前几天开始学习lda,走了不少弯路，对lda仍然是一头雾水。看了这篇文档以后总算明白lda是干啥的了 LDA（Latent Dirichlet Allocation）学习笔记最近在看LDA算法，经过了几天挣扎，总算大致了解了这个算法的整体框架和流程。示例LDA要干的事情简单来说就是为一堆文档进行聚类（所以是非监督学习），一种topic就是一类，要聚成的topic数目是事先指定的。聚类的结果是一个概率，而不是布尔型的100%属于某个类。国外有个博客[1]上有一个清晰的例子，直接引用： Suppose you have the following set of sentences: I like to eat broccoli and bananas. I ate a banana and spinach smoothie for breakfast. Chinchil...

wordcount代码

发表于2012-10-28|大数据

概述参考http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.inpu...

hadoop基本的学习资料

发表于2012-10-28|大数据

⚠️ 这是一篇 2012 年的学习笔记。Hadoop 生态在过去十几年发生了巨大变化，下面的链接已非常陈旧。我保留了原始内容作为历史记录，并补充了 2026 年的学习建议。为什么 2026 年还要了解 Hadoop？可能你会问：现在都用 Spark、Flink、数据湖了，为什么还要学 Hadoop？答案很简单：HDFS 和 YARN 仍然是大数据基础设施的底座。Spark 默认跑在 YARN 上，Hive 的表数据存在 HDFS 里，甚至很多云原生数据平台底层还是 HDFS 兼容存储。理解 Hadoop 的核心设计（分布式文件系统、计算资源调度、数据本地性），能帮你更好地理解上层框架的设计决策。 2026 年推荐的学习路径入门：理解核心概念 HDFS：分布式文件系统的基本原理——NameNode/DataNode 架构、数据块（block）、副本机制、机架感知 MapReduce：了解 map-shuffle-reduce 的计算模型，理解为什么它适合批处理但不适合迭代计算 YARN：资源管理和调度框架，理解 ApplicationMaster 和 Cont...