一篇不错的lda模型入门文档
转自http://leyew.blog.51cto.com/5043877/860255#559183-tsina-1-46862-ed0973a0c870156ed15f06a6573c8bf0 前几天开始学习lda,走了不少弯路,对lda仍然是一头雾水。看了这篇文档以后总算明白lda是干啥的了 LDA(Latent Dirichlet Allocation)学习笔记最近在看LDA算法,经过了几天挣扎,总算大致了解了这个算法的整体框架和流程。 示例LDA要干的事情简单来说就是为一堆文档进行聚类(所以是非监督学习),一种topic就是一类,要聚成的topic数目是事先指定的。聚类的结果是一个概率,而不是布尔型的100%属于某个类。国外有个博客[1]上有一个清晰的例子,直接引用: Suppose you have the following set of sentences: I like to eat broccoli and bananas. I ate a banana and spinach smoothie for breakfast. Chinchil...
wordcount代码
概述参考http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.inpu...
hadoop基本的学习资料
⚠️ 这是一篇 2012 年的学习笔记。Hadoop 生态在过去十几年发生了巨大变化,下面的链接已非常陈旧。我保留了原始内容作为历史记录,并补充了 2026 年的学习建议。 为什么 2026 年还要了解 Hadoop?可能你会问:现在都用 Spark、Flink、数据湖了,为什么还要学 Hadoop? 答案很简单:HDFS 和 YARN 仍然是大数据基础设施的底座。Spark 默认跑在 YARN 上,Hive 的表数据存在 HDFS 里,甚至很多云原生数据平台底层还是 HDFS 兼容存储。理解 Hadoop 的核心设计(分布式文件系统、计算资源调度、数据本地性),能帮你更好地理解上层框架的设计决策。 2026 年推荐的学习路径入门:理解核心概念 HDFS:分布式文件系统的基本原理——NameNode/DataNode 架构、数据块(block)、副本机制、机架感知 MapReduce:了解 map-shuffle-reduce 的计算模型,理解为什么它适合批处理但不适合迭代计算 YARN:资源管理和调度框架,理解 ApplicationMaster 和 Cont...






