文件字頻分析:中英文
Hadoop MapReduce :
WordCount
程式
請自行找你熟悉的中英文資料,
做字數統計,並觀察結果(利用Excel做排序)
哪些是常見字? (Top 30)
扣除掉常見字(s
top words) 你
發現還有哪西重要的字?
Example: WordCount v2.0
比較不同的資料來源,觀察字數統計差異性?你如何得到更有說服力的結果?
ps. 中文