- (10%)平時成績:出席(缺席:-1/次,遲到(請假):0.5/次)(最多扣10分))
作業繳交:作業遲交扣分,每日原始分數*0.9(遲交最多一週,逾期不收)
- 書面心得格式
- 課程名稱:?, 第?次作業:?,題目:?,班級 學號 姓名 日期,
- 完成項目
- YouTube(1~3分鐘)(URL連結)
- 執行過程與結果,
- 討論與問題,
- 心得
- 評量標準參考
- 有交書面報告(40%)
- 有交書面報告+心得(60%)
- 有交書面報告+作業過程舉證完整+心得(80%)
- 有交書面報告+作業過程舉證完整+問題討論+心得(90%)
- (15%)作業1( Deadline 2019/10/25 12:00PM )
書面報告(封面、完成項目(條列)、方法(畫面舉證)、心得與討論)+ YouTube (URL)(設定:半公開)
(錄影上傳YouTube+ 1~3 Min)+錄影工具:EverCam (亞大有授權)
或 OCam(免費授權:需注意避免安裝廣告軟體)
(1) AWS Educate : Construct two EC2s(VM) on AWS, one with Linus and another with Microsoft Window
Example: Launch a Linux Virtual Machine (Amazon EC2)
利用 AWS EC2 在 AWS 架設一個虛擬機器(Window)(Virtual Machine)(選擇 8 core, 記憶體 16GB or 32 GB)
(不用時候, 記得要關掉 不然 $ ...)
AWS Educate : EC2 installAWS Educate Program ($50 US dallar )
(2) Windoop (Single Node)(run Presentation.java)
[3] Hadoop Java Programming Import, add Jar Library(pdf解說)
(1)安裝Java JDK (Java 8 JDK, not JRE) 和系統路徑設定 ( 安裝說明:王家恩)
How to Download & Install Java JDK 8 in Windows(From:Guru99)
(2)安裝WindoopWindoop (Single Node)
(3)執行(PresentElection.java),(程式中加入新候選人"你的學號_姓名", e.g "10500001_jdwang")
(4)下載 WordCount_jdwang_2016_10_12.zip
(5)匯入 Java Project Hadoop Java Programming Import, add Jar Library(pdf解說)
(6) WordCount Examples WordCount_jdwang_2016_10_12.zip
修改 "WordCount_jdwang.java" "Mapper_jdwang.java" "Reducer_jdwang.java" <
將"jdwang" 改成你的學號如:"WordCount_10500001.java" "Mapper_10500001.java" "Reducer_10500001.java"
(注意:需要調整"WordCount_10500001.java"的對應檔案)
(完成後,刪除"WordCount_jdwang.java" "Mapper_jdwang.java" "Reducer_jdwang.java")
並完成 compiler 後可以執行
- (30%)期中專題(Hadoop SingleNode):小組(2~4人/每組)(2019/11/1上台報告, 2019/11/8 書面報告,上傳Moodle)
分組名單:(108_1_ BigDataApplications_MiddleProject)
(1)
選一個你熟悉或想要觀察的匝道(說明你的動機:為何要選這個匝道?) <利用 Google Map 標示出來>利用>
(國道計費門架座標及里程牌價表104.09.04版.csv)
國道計費門架座標
如: "03F-186.0S"(國道三號 龍井-和美)=> GantryID="03F1860S"
高速公路計費匝道位置-Google Map 匯入教學
參考程式:TDCS_GIDSequence_GantryID_VihicleType_Date_Weekday_24Hour_Statistics_jdwang_2018_10_12.zip
(1) 修改:(main&mapper)匝道名稱 {String TargetGantryID = "01F0557N"; // 想要觀察的匝道}
(2) 修改 input path(輸入)
(3) 修改 output path(輸出)
參考:專題:『交通部高速公路閘道資料』資訊擷取
參考:1062 雲端程式設計-計算交流道的車流量變化-感謝(Thanks):陳咨雅同學提供(2018 亞大資工所)
利用『交通部高速公路閘道資料』做大數據分析
如何利用這些分析,讓分析資料加值(車輛種類?不同時段分析(星期?24 小時?連續假期?)?避免尖峰時段?流量估計?)
觀察匝道: 選定至少一個交流道 (注意每個交流道車流 分為{上交流道}與{下交流道} 每一種又分為{南下}{北上}共四種統計資料)
以{龍井}交流道為例:
{上交流道}:
{從龍井南下}: 如: "03F-186.0S"(國道三號 龍井-和美)=> GantryID="03F1860S"
{從龍井北上}: 如: "03F-177.9N"(國道三號 龍井-沙鹿)=> GantryID="03F1779N"
{下交流道}:
{南下到龍井}: 如: "03F-177.9S"(國道三號 沙鹿-龍井)=> GantryID="03F1779S"
{北上到龍井}: 如: "03F-186.0N"(國道三號 和美-龍井)=> GantryID="03F1860N"
測試資料 :
TDCS_M06A_20161127_230000.csv(One hour)]
(201701_1-1.7z)(24 Hours)
(2018_9_1-7.7z)(7 days : One week)
part-r-00000_2018_9_1-7_01F0557N.xlsx
資料來源(需要從交通部臺灣區國道高速公路局「交通資料庫」自行下載):
DataSet (1): TDCS(06A)2019/9/1-2019/9/7 (共7天)
DataSet (2): TDCS(06A)2019/9/8-2019/9/14 (共7天)
DataSet (3): TDCS(06A)2019/9/15-2019/9/21 (共7天)
DataSet (4): TDCS(06A)2019/9/22-2019/9/28 (共7天)
人數2人(共14天):DataSet (1)+(2)
人數3人(共21天):DataSet (1)+(2)+(3)
人數4人(共28天):DataSet (1)+(2)+(3)+(4)
參考:Hadoop MapReduce 程式設計 課程
(Python Example)TDCS_06A_Download_WebRobot_And_Analysis_jdwang2019_11_23.7z
書面報告(封面、完成項目(條列)、方法(畫面舉證)、心得與討論)+ YouTube (URL)(設定:半公開)
小組書面報告:(全組繳交一份即可)
題目:交通部高速公路閘道資料資訊擷取-以?閘道為例
小組成員:(學號+姓名)
個別貢獻百分比(全組總和=100%)(小組成績微調,如:兩人一組個別貢獻百分比 45% (小組成績*95%)和 55% (小組成績*105%)
Youtube 說明影片 URL(2~3分鐘)
小組會議記錄(至少2次)
個人心得(每個組員都要)
相關新聞交通大數據新成果,高雄6萬事故大學生傷亡多,交通部要用大數據避災(文/黃郁芸 | 2018-10-25發表)
評分參考:
(0) (15%)上台報告(小組互評)
(1) (15%)上台報告(老師)
(2) (5%)計算硬體(幾台電腦? CPU? RAM? GB, HD:?),計算時間?
(3) (10%)說明資料完整性(完整下載與正確執行)+ GoogleMap(截圖)(他組的資料比對?)
注意: Gantry (ETC 電子匝道) vs. Intersection (交流道)
(計算一個交流道(Intersection)的流量:會對應到四個(ETC 電子匝道)(上,下交流道各兩個) )
請利用 GoogleMap 顯示你所要觀察的 交流道(Intersection)與相對應的電子匝道(Gantry)
計算{Gantry (ETC 電子匝道)}流量,需要以資料最後一個欄位(該旅程所有經過的(ETC 電子匝道)來計算)
國道計費門架座標
(4) (15%)實驗結果(實驗結果說明(圖表標題 資料清晰 需觀察統計結果,解釋可能原因)
<車輛型別比較?是否連續假日?南下或北上?周末?不相關匝道(如 台中有三處交流道?)
圖表(01F0005S_part-r-00000_2018_9_22-28_jdwang2018_10_12.xlsx)
<注意有欄位為0>注意有欄位為0>
(5) (10%)可能的應用(如何加值? Big Data (Value)?)
(6) (5%)小組會議討論紀錄(內容與照片)
(7) (5%)(錄影上傳YouTube+ 3~5 Min)=> 只須給 YouTube URL(請打開分享)
(8) (10%)學習心得(每個組員都要)
(錄影上傳YouTube+ 3~5 Min)+錄影工具:EverCam (亞大有授權)
或 OCam(免費授權:需注意避免安裝廣告軟體)
- (10%) 作業2:
AWS EMR Cluster + 直執行 (作業1) "word_count_你的學號.jar"(Deadline: 2019/12/6)
(0) Windoop 測試 WordCount_jdwang2019_12_11.zip(Eclipse Java 程式碼)
(需修改 (1) hdfs (2) Conf.set WordCount_ForAWS_NoDFS_NoConfSet_jdwang2019_12_13.zip)
(1) 輸出 jar 檔 "wordcount_ForAWS_你的學號.jar"
(2)登入 AWS Educate (需先申請)
(3) AWS S3 建立一個 Bucket "S3_你的學號"
(4) 上傳 spider.txt 到 AWS S3 Bucket "S3_你的學號"
(5) 上傳 "wordcount_ForAWS_你的學號.jar" 到 AWS S3 Bucket "S3_你的學號"
(6) (AWS EC2 console)產生 key pair "EMR_key_你的學號" (下一步連接 AWS "EMR_你的學號" 使用 )
(7) 建立 AWS "EMR_你的學號" ("EMR_key_你的學號") 並啟動
(8) 上傳 "wordcount_ForAWS_你的學號.jar" 到 "S3_你的學號"
(e.g.WordCount_ForAWS_NoDFS_NoConfset_jdwang.jar)
(9) AWS EMR 執行 "word_count_你的學號.jar"(設定 input output)
(10) 執行完畢’記得關掉(a) AWS "EMR_你的學號" (2) "Terminate" running AWS EC2 instances (3)移除 AWS "S3_你的學號"
=> 否則你的Money$$$$....
AWS EC2 console(create Key pairs)
Amazon EMR 管理指南
Amazon EMR 開始使用
Introduction to Map/Reduce (Part 1/3)(From: Prof. Patterson, 2017)
Creating a Java Program for Map/Reduce (Part 2/3)(From: Prof. Patterson, 2017)
(*)Running a custom java jar on an AWS EMR cluster (Part 3/3)(From: Prof. Patterson, 2017)
Elastic MapReduce 的運作方式
如何在五分鐘內透過AWS的EMR服務快速開啟一個Hadoop叢集?
Amazon EMR - Amazon Web Services
Amazon EMR Hadoop Demonstration
100. How to Launch Amazon EMR Cluster with sample data in AWS EMR service
書面報告(封面、目的:?(為何要做這個觀察?)、方法(畫面舉證)、心得與討論)+ YouTube (URL)(設定:半公開)
(錄影上傳YouTube+ 2~5 Min)+錄影工具:EverCam (亞大有授權)
或 OCam(免費授權:需注意避免安裝廣告軟體)
- (35%)期末專題(Hadoop Cluster on AWS) (小組(2~4人/每組))
第一梯次上台報告(2019/12/27)(請先和助教登記)
第二梯次上台報告(2020/1/3)
書面報告(2020/1/10 Moodle (PPT+Report+YouTube))
分組名單 + GoogleMap(路線URL分享)(2019/12/6以前)
台灣國道高速公路{路段}車流分析(選擇任兩個閘道作為啟起始與結束)(南下&北上)
選一個你熟悉或想要觀察的{路段}(選擇任兩個閘道)
(說明你的動機:為何要選這個{路段}車流分析?) 利用 Google Map 標示出來
- 交通部交通部臺灣區國道高速公路局「交通資料庫」TDCS06