avatar
文章
90
标签
111
分类
14
Home
Tags
Categories
Archives
Sitemap
English
Mobilityhadoop基本的学习资料 返回首页
搜索
Home
Tags
Categories
Archives
Sitemap
English

hadoop基本的学习资料

发表于2012-10-28|更新于2026-05-30|大数据
|总字数:79|阅读时长:1分钟|浏览量:

http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html wordcount运行过程详解

http://www.cnblogs.com/gpcuster/archive/2010/06/04/1751538.html hdfs命令介绍

http://hi.baidu.com/gkf8605/item/d6b8af09c3463512eafe38b1 hdfs命令

http://www.cnblogs.com/forfuture1978/archive/2010/11/14/1877086.html mapreduce入门

 

http://hadoop.apache.org/docs/r0.20.2/api/index.html hadoop0.20.2 api

文章作者: 流沙
文章链接: https://lichuanyang.top/posts/35575/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Mobility!
订阅公众号
  • 微信
    微信
上一篇
wordcount代码
参考http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html   package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input....
相关推荐
2012-10-28
wordcount代码
参考http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html   package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input....
2018-11-14
数据分析的利器-clickhouse介绍
Clickhouse是Yandex开源的一个用于实时数据分析的数据库,一开始就用在yandex内部的多个数据分析业务上。要介绍clickhouse,还是需要先介绍一下yandex。Clickhouse为什么会出现,其实和yandex的业务关系非常大。Yandex是俄罗斯最大的搜索引擎,会有很多数据分析的业务,其中数据量最大的业务,就是Yandex.Metrica,这是一个和百度统计类似的网站数据分析服务,数据量也仅次于google analysis。自从Clickhouse开源后,在国内外的很多公司的线上业务都已经开始使用。 因此,写这篇clickhouse教程,对clickhouse做一个基础的介绍。 概述Clickhouse是极其适合OLAP(联机分析处理)问题的一个数据库。这类问题有如下一些特点: 请求以读为主,数据添加、更新一般以批量的形式进行; 表可以很宽,但是实际查询时只会用到有限的几列; 列值较小,一般是数字或者短字符串; 查询结果集的大小显著小于源数据; 事务处理需求较弱 根据clickhouse提供的性能测试结果,clickhouse的性能要大大领先于所...
2012-12-02
一篇不错的lda模型入门文档
转自http://leyew.blog.51cto.com/5043877/860255#559183-tsina-1-46862-ed0973a0c870156ed15f06a6573c8bf0 前几天开始学习lda,走了不少弯路,对lda仍然是一头雾水。看了这篇文档以后总算明白lda是干啥的了   LDA(Latent Dirichlet Allocation)学习笔记最近在看LDA算法,经过了几天挣扎,总算大致了解了这个算法的整体框架和流程。 示例LDA要干的事情简单来说就是为一堆文档进行聚类(所以是非监督学习),一种topic就是一类,要聚成的topic数目是事先指定的。聚类的结果是一个概率,而不是布尔型的100%属于某个类。国外有个博客[1]上有一个清晰的例子,直接引用: Suppose you have the following set of sentences: I like to eat broccoli and bananas. I ate a banana and spinach smoothie for breakfast. Chinchil...

评论
avatar
流沙
Mobility | 增加人生的可选择性
文章
90
标签
111
分类
14
Follow Me
公告
后端开发 | 架构设计 | AI实践
用代码拓展选择的边界
目录
  1. 1. http://hadoop.apache.org/docs/r0.20.2/api/index.html hadoop0.20.2 api
最新文章
教你薅token(二):构建agent无关的skills管理工作流2026-06-04
教你薅token:构建agent无关的AI工作流2026-06-03
用 AI Agent 完成 Hexo 主题迁移:从 Next 到 Butterfly 的全自动化实践2026-05-28
Vercel封禁163邮箱后,我是怎么恢复博客的2026-05-11
用LLM管理安全开发规范:一次llm-wiki实践2026-05-11
© 2025 - 2026 By 流沙框架 Hexo 8.1.2|主题 Butterfly 5.5.4
搜索
数据加载中