雲端資料處理與挖掘
(Cloud Data Management and
Mining)
因為電腦教室硬體關係,教室更新為: I627
時間更改為:週四 ( 中午(N), 5, 6節) (12:00am~3:00pm)
- 教師:王經篤(亞大資工)、周澤民
博士(業界教師:資訊工業策進會-智慧網通系統研究所)
- 教科書
-
參考書
-
Hadoop實戰技術手冊(Chapter
13 Mahout),陸嘉恆,
佳魁資訊,ISBN:9789866007309,2012
-
Hadoop: The Definitive Guide, 3ed Edition,Tom
White,2012
-
Hadoop 技術手冊,
3/e (Hadoop: The Definitive Guide,
3/e)Tom White 著、王耀聰、辜文元、魏綸毅 譯, 2013
-
Data-Intensive Text
Processing with MapReduce, Jimmy Lin and Chris
Dyer.2010
-
Hadoop In Action.Chuck Lam,
先修課程: Java Programming Language
雲端運算基礎課程
(Hadoop簡介、安裝與範例實作)(From: NCHC 國家高速電腦中心)
- 課程大綱(Outline)
-
(2013. 9.12)課程簡介
-
(2013. 9.19)中秋節放假
-
(2013. 9.26)(教室
I628 13:10pm)上課(周澤民博士)雲端運算技術簡介
(Cloud Computing,IaaS,PaaS,SaaS,Virtualization,
...)
-
(2013.10. 3) Hadoop 簡介(WinHadoop 安裝與設定)
-
(2013.10.10)雙十節放假
-
(2013.10.17)HDFS
介紹與操作+
-
(2013.10.24)MapReduce計算模型+Hadoop範例程式(2)(Hadoop4Win)(編譯、執行)
- 資策會電通所-太陽能板性能量測資料
-
- 資策會電通所-太陽能板性能量測資料-程式範例
-
(2013.10.31)Hadoop範例程式(3)(編譯、執行)
-
Windoop
Cluster 架設
- 資策會電通所-電源監測資料
-
(2013.11. 7)期中專題(大量資料測試:資策會電通所-太陽能板性能量測資料)
- 資策會電通所-太陽能板性能量測資料
- 繳交期中專題書面心得報告(不上課)
-
(2013.11.14)(教室
I628 13:10pm)(周澤民博士)巨量資料分析簡介 (Big
Data、Data Science)
-
(2013.11.21)HDFS programming
-
(2013.11.28)HBase簡介
-
(2013.12. 5)
-
(教室
I628 13:10pm)(周澤民博士)Hadoop應用案例分析
-
(2013.12.12)
(調課=>12.13
全國計算機會議
-
(12/13)
-
13:00 - 14:00
- 演講者:張瑞雄 (臺灣觀光學院校長 台灣雲端計算學會理事長)
- 題目:Data, Big Data, and Data Centers
-
16:50 - 18:20 論壇:雲端運算-Big
Data分析
-
(2013.12.19)
Pattern
History
-
(2013.12.26)
Pattern
History:小組專題計畫討論(分組名單+小組題目)
-
(2014. 1.
2)(教室
I628 13:10pm)(周澤民博士)期末專題上台報告(2014. 1.
5)期末專題書面報告
-
(2014. 1. 9)學期成績公布
助教(TA) =>
陳彥棠 exia0105@gmail.com,郭佳霖
darkfirzenmax@gmail.com
hadoiop的設定檔
(I627電腦專用)
(請同學填入email
https://sites.google.com/site/dark1021ta/方便未來聯絡)
成績評量
-
作業繳交:作業遲交扣分,每日原始分數*0.9(遲交最多一週,逾期不收)
-
書面心得格式
- (課程名稱,第?次作業:?,題目:?,執行過程與結果,討論與問題,心得)
-
評量標準參考
-
有交書面報告(40%)
-
有交書面報告+上機檢查(ok)(60%)
-
有交書面報告+上機檢查(ok)+作業過程舉證完整(70%)
-
有交書面報告+上機檢查(ok)+作業過程舉證完整+心得(80%)
-
有交書面報告+上機檢查(ok)+作業過程舉證完整+心得+問題討論(90%)
-
英文專有名詞
- 作業1(10%) WinHadoop
安裝+Hadoop範例程式執行
-
Hadoop範例程式(1:wordcount,
Hadoopp Program: Complier,
Execute, 結果顯示)
-
WordCount.java
=>
- WordCount_學號.java,
- Reducer_學號.java
- Mapper_學號.java
-
(2013.10.17)上機(課堂檢查是否完成)+(2013.10.24)書面心得報告
- 期中專題(20%)
- (大量資料測試:資策會電通所-太陽能板性能量測資料)
- Windoop
Cluster 安裝與設定
-
(2013.11.7以前)書面心得報告
- 評量標準參考+請加入『實驗』
-
實驗
- 參考程式
- 資料來源
- 結果觀察
- 效能比較(WindoopExecuteTime.xlsx)
- 資料量 vs.執行時間 (固定Node數目=> 1 Node, 2 Node, 3 Node, 4 Node,)
- 執行時間 vs. 節點個數 (固定資料量)=> e.g.10MB, 20MB, ˇ30M,40MB, 50MB)
- 作業3(15%)
- HDFS programming (以下利用Java程式
HDFSOperation.7z)
- 建立目錄
- output_PubMed_Paresed_100_Pass2
- output_PubMed_Paresed_200_Pass2
- output_PubMed_Paresed_400_Pass2
- output_PubMed_Paresed_800_Pass2
- output_PubMed_Paresed_1000_Pass2.rar
- 檔案上傳
- output_PubMed_Paresed_100_Pass2/part-r-00000
- output_PubMed_Paresed_200_Pass2/part-r-00000
- output_PubMed_Paresed_400_Pass2/part-r-00000
- output_PubMed_Paresed_800_Pass2/part-r-00000
- output_PubMed_Paresed_1000_Pass2/part-r-00000
-
(2013.11.21)上機(課堂檢查是否完成)+(2013.11.28)書面心得報告
-
(加分5%)(2013.12.12)=>(12/13)
- (12/16
以前)全國計算機會議照片(兩張:自己在會、報告者)+心得(題目、演講者、內容摘要、心得)
- 12/13
13:00 - 14:00 演講者:張瑞雄 (臺灣觀光學院校長
台灣雲端計算學會理事長)題目:Data, Big Data,
and Data Centers
16:50 - 18:20 論壇:雲端運算-Big Data分析
主持人:蔡進發校長 與談人:產官學專家等4位
-
(2013.12.19)上機(課堂檢查是否完成)+(2013.12.26)書面心得報告
- 小組期末專題(30%)(2013/12/26
分組名單:2~4名/每組,(小組:班級、學號、姓名)寄給TA)
- Pattern
History Mining
-
熱門樣式
- (50%)(依月份區分)(Top 3 or ?)
- (+10%)(依年區分)(Top 3 or ?)
-
(+20%)效能比較(WindoopExecuteTime.xlsx)
- 資料量 vs.執行時間 (固定Node數目=> 1 Node, 2 Node, 3 Node, 4 Node,
8 Node)
-
執行時間 vs. 節點個數
(固定資料量)=>
e.g.100, 200,
400, 800, 1000
-
(+10%)結果觀察
-
(2014. 1.
2)小組上台報告
- PPT(題目、小組成員、完成項目、實驗結果、小組成員工作分配、個別貢獻度百分比)
-
(2014. 1.
5)期末專題書面報告(題目、小組成員、完成項目、實驗結果、小組成員工作分配、個別貢獻度、個別貢獻度百分比、個人心得)
=================================================================================
Extra:
-
Mahout簡介
-
Mahout-Clustering(分群)+範例程式