大數據應用(Big Data Applications)(金融科技與人工智慧學程)
成績(Score)
107_1_亞洲大學_大數據應用 (Facebook 社團)
教科書(Text Book):
大數據基礎與實務 (Big Data Fundamentals and Practices) 2017, 胡嘉璽 著,ISBN:9789869527767, 普林斯頓 (高立圖書)
(Asis University)亞洲大學 大數據資料處理 –Hadoop MapReduce 程式設計
高速公路計費匝道位置-Google Map 匯入教學
Google Maps JavaScript API Tutorial
Windoop (Single Node)(run Presentation.java)
網路資料自動下載-範例程式(TDCS_WebURLDownload_jdwang_2017_10_20.zip)
(ewant)亞洲大學 大數據資料處理–Hadoop MapReduce 程式設計與資料視覺化 教師: 王經篤,何承遠
註冊(請使用學校email帳號 學號@live.asia.edu.tw)
上課時間: (五)234 I627
Class period : Fri.234 I627
調課:
2018/11/30 (Friday,2,3,4 (9:10am~12:00am))=>2018/9/28 Friday (7:10pm~10:00pm)
原因:教師參加過際會議
Adv.Bioinformatics 2018), November 26-27, 2018 Dublin, Ireland
(線上課程(不需要到教室)
(1)完成 AWS Educate Propgram : Student Account 申請)
Apply for an AWS Educate (蘇棻翎同學 提供)
在自己的電腦完成
(2)需要安裝Java JDK 和系統路徑設定 ( 安裝說明:王家恩)
How to Download & Install Java JDK 8 in Windows(From:Guru99)
(3)安裝WindoopWindoop (Single Node)
(4)執行(PresentElection.java),(程式中加入新候選人"你的學號_姓名", e.g "10500001_jdwang")
(5)下載 WordCount_jdwang_2016_10_12.zip
(6)匯入 Java Project Hadoop Java Programming Import, add Jar Library(pdf解說)
匯入外部 jar
1. "\windoop\hadoop\share\hadoop\common\*.jar
2. "\windoop\hadoop\share\hadoop\common\lib\*.jar
3. "\windoop\hadoop\share\hadoop\hdfs\*.jar
4. "\windoop\hadoop\share\hadoop\mapreduce\*.jar
5. "\windoop\hadoop\share\hadoop\yarn\*.jar
修改"WordCount_jdwang.java"
參數:"input output_學號"
環境:
HADOOP_HOME=>${eclipse_home}\..\hadoop
PATH=> %PATH%;${eclipse_home}\..\hadoop\bin
(7)修改 "WordCount_jdwang.java" "Mapper_jdwang.java" "Reducer_jdwang.java" <
將"jdwang" 改成你的學號如:"WordCount_10500001.java" "Mapper_10500001.java" "Reducer_10500001.java"
(注意:需要調整"WordCount_10500001.java"的對應檔案)
(完成後,刪除"WordCount_jdwang.java" "Mapper_jdwang.java" "Reducer_jdwang.java")
並完成 compiler 後可以執行
完成後截圖(程式碼"WordCount_學號_姓名.java")(output: 執行結果(新候選人"學號_姓名"))
上傳 107_1_亞洲大學_大數據應用 (Facebook 社團)
(Deadline : 2018/9/28, 12:00PM)
AWS Educate Program
AWS Educate
AWS 準備認證
AWS Services
Hadoop Cluster Setup(Only SingleNode for VM practice)
授課內容(Contents):
評分(Score):
- (10%)平時成績:出席(缺席:-1/次,遲到(請假):0.5/次)(最多扣10分))
作業繳交:作業遲交扣分,每日原始分數*0.9(遲交最多一週,逾期不收)
- 書面心得格式
- 課程名稱:?, 第?次作業:?,題目:?,班級 學號 姓名 日期,
- 完成項目
- YouTube(1~3分鐘)(URL連結)
- 執行過程與結果,
- 討論與問題,
- 心得
- 評量標準參考
- 有交書面報告(40%)
- 有交書面報告+心得(60%)
- 有交書面報告+作業過程舉證完整+心得(80%)
- 有交書面報告+作業過程舉證完整+問題討論+心得(90%)
- (10%)作業1(2018/10/5)
(1) 選一個你熟悉或想要觀察的匝道(說明你的動機:為何要選這個匝道?)
<利用 Google Map 標示出來>利用>
(國道計費門架座標及里程牌價表104.09.04版.csv)
國道計費門架座標
如: "03F-186.0S"(國道三號 龍井-和美)=> GantryID="03F1860S"
高速公路計費匝道位置-Google Map 匯入教學
(2) Windoop (Single Node)(run Presentation.java)
[3] Hadoop Java Programming Import, add Jar Library(pdf解說)
WordCount Examples WordCount_jdwang_2016_10_12.zip
修改 "WordCount_jdwang.java" "Mapper_jdwang.java" ".java" 將 "jdwang" 改成你的學號<
如:"WordCount_10500001.java" "Mapper_10500001.java" "Reducer_10500001.java"
並可以執行
Report (pdf) : Submit to Moodle (Deadline : 2018/10/5, 12:00PM)
書面報告(封面、完成項目(條列)、方法(畫面舉證)、心得與討論)+ YouTube (URL)(設定:半公開)
(錄影上傳YouTube+ 1~3 Min)+錄影工具:EverCam (亞大有授權)
或 OCam(免費授權:需注意避免安裝廣告軟體)
- (30%)期中專題(Hadoop SingleNode):小組(2~4人/每組)(2018/11/2上台報告, 2018/11/9 書面報告,上傳Moodle)
分組名單:(107_1_ BigDataApplications_MiddleProject_jdwang2018_9_21)
參考程式:TDCS_GIDSequence_GantryID_VihicleType_Date_Weekday_24Hour_Statistics_jdwang_2018_10_12.zip
(1) 修改:(main&mapper)匝道名稱 {String TargetGantryID = "01F0557N"; // 想要觀察的匝道}
(2) 修改 input path(輸入)
(3) 修改 output path(輸出)
參考:專題:『交通部高速公路閘道資料』資訊擷取
參考:1062 雲端程式設計-計算交流道的車流量變化-感謝(Thanks):陳咨雅同學提供(2018 亞大資工所)
利用『交通部高速公路閘道資料』做大數據分析
如何利用這些分析,讓分析資料加值(車輛種類?不同時段分析(星期?24 小時?連續假期?)?避免尖峰時段?流量估計?)
觀察匝道: 選定至少一個 (北上+南下) 如: "03F-186.0S"(國道三號 龍井-和美)=> GantryID="03F1860S"
資料來源:
DataSet (1): TDCS(06A)2018/9/1-2018/9/7 (共7天)
DataSet (2): TDCS(06A)2018/9/8-2018/9/14 (共7天)
DataSet (3): TDCS(06A)2018/9/15-2018/9/21 (共7天)
DataSet (4): TDCS(06A)2018/9/22-2018/9/28 (共7天)
人數2人(共14天):DataSet (3)+(4)
人數3人(共21天):DataSet (2)+(3)+(4)
人數4人(共28天):DataSet (1)+(2)+(3)+(4)
參考:Hadoop MapReduce 程式設計 課程
(Deadline: 2018/11/11(期中考週不上課),晚上 12:00pm以前,上傳電子檔到 Moodle)
書面報告(封面、完成項目(條列)、方法(畫面舉證)、心得與討論)+ YouTube (URL)(設定:半公開)
小組書面報告:(全組繳交一份即可)
題目:交通部高速公路閘道資料資訊擷取-以?閘道為例
小組成員:(學號+姓名)
個別貢獻百分比(全組總和=100%)(小組成績微調,如:兩人一組個別貢獻百分比 45% (小組成績*95%)和 55% (小組成績*105%)
Youtube 說明影片 URL(2~3分鐘)
小組會議記錄(至少2次)
個人心得(每個組員都要)
相關新聞交通大數據新成果,高雄6萬事故大學生傷亡多,交通部要用大數據避災(文/黃郁芸 | 2018-10-25發表)
評分參考:
(0) (15%)上台報告(小組互評)
(1) (15%)上台報告(老師)
(2) (5%)計算硬體(幾台電腦? CPU? RAM? GB, HD:?),計算時間?
(3) (10%)說明資料完整性(完整下載與正確執行)+ GoogleMap(截圖)(他組的資料比對?)
注意: Gantry (ETC 電子匝道) vs. Intersection (交流道)
(計算一個交流道(Intersection)的流量:會對應到四個(ETC 電子匝道)(上,下交流道各兩個) )
請利用 GoogleMap 顯示你所要觀察的 交流道(Intersection)與相對應的電子匝道(Gantry)
計算{Gantry (ETC 電子匝道)}流量,需要以資料最後一個欄位(該旅程所有經過的(ETC 電子匝道)來計算)
國道計費門架座標
(4) (15%)實驗結果(實驗結果說明(圖表標題 資料清晰 需觀察統計結果,解釋可能原因)
<車輛型別比較?是否連續假日?南下或北上?周末?不相關匝道(如 台中有三處交流道?)
圖表(01F0005S_part-r-00000_2018_9_22-28_jdwang2018_10_12.xlsx)
<注意有欄位為0>注意有欄位為0>
(5) (10%)可能的應用(如何加值? Big Data (Value)?)
(6) (5%)小組會議討論紀錄(內容與照片)
(7) (5%)(錄影上傳YouTube+ 3~5 Min)=> 只須給 YouTube URL(請打開分享)
(8) (10%)學習心得(每個組員都要)
(錄影上傳YouTube+ 3~5 Min)+錄影工具:EverCam (亞大有授權)
或 OCam(免費授權:需注意避免安裝廣告軟體)
- (10%)作業2: (Deadline: 2018/11/30)
利用 AWS EC2 在 AWS 架設一個虛擬機器(Window)(Virtual Machine)(選擇 8 core, 記憶體 16GB or 32 GB)
(不用時候, 記得要關掉的關掉)
AWS Educate : EC2 installAWS Educate Program ($50 US dallar )
在該AWS EC2電腦完成
(1)安裝Java JDK (Java 8 JDK, not JRE) 和系統路徑設定 ( 安裝說明:王家恩)
How to Download & Install Java JDK 8 in Windows(From:Guru99)
(2)安裝WindoopWindoop (Single Node)
(3)執行(PresentElection.java),(程式中加入新候選人"你的學號_姓名", e.g "10500001_jdwang")
(4)下載 WordCount_jdwang_2016_10_12.zip
(5)匯入 Java Project Hadoop Java Programming Import, add Jar Library(pdf解說)
匯入外部 jar
1. "\windoop\hadoop\share\hadoop\common\*.jar
2. "\windoop\hadoop\share\hadoop\common\lib\*.jar
3. "\windoop\hadoop\share\hadoop\hdfs\*.jar
4. "\windoop\hadoop\share\hadoop\mapreduce\*.jar
5. "\windoop\hadoop\share\hadoop\yarn\*.jar
修改"WordCount_jdwang.java"
參數:"input output_學號"
環境:
HADOOP_HOME=>${eclipse_home}\..\hadoop
PATH=> %PATH%;${eclipse_home}\..\hadoop\bin
(6)修改 "WordCount_jdwang.java" "Mapper_jdwang.java" "Reducer_jdwang.java" <
將"jdwang" 改成你的學號如:"WordCount_10500001.java" "Mapper_10500001.java" "Reducer_10500001.java"
(注意:需要調整"WordCount_10500001.java"的對應檔案)
(完成後,刪除"WordCount_jdwang.java" "Mapper_jdwang.java" "Reducer_jdwang.java")
並完成 compiler 後可以執行
書面報告(封面、目的:?(為何要做這個觀察?)、方法(畫面舉證)、心得與討論)+ YouTube (URL)(設定:半公開)
(錄影上傳YouTube+ 2~5 Min)+錄影工具:EverCam (亞大有授權)
或 OCam(免費授權:需注意避免安裝廣告軟體)
- (40%)期末專題(Hadoop Cluster) (小組(2~4人/每組))
第一梯次上台報告(2018/12/28)(提早+3%)(請先和助教登記)
第二梯次上台報告(2019/1/4)
書面報告(2019/1/11 Moodle)
分組名單
台灣國道高速公路{路段}車流分析(選擇任兩個閘道作為啟起始與結束)(南下&北上)
選一個你熟悉或想要觀察的{路段}(選擇任兩個閘道)(說明你的動機:為何要選這個{路段}車流分析?) 利用 Google Map 標示出來
- 交通部交通部臺灣區國道高速公路局「交通資料庫」TDCS06
- 原始資料:所有國道(南北雙向)
- 參考範例程式: TDCS_MRP_Statistic_ForDemo_jdwang2018_11_22.zip
計算平台選擇:
(+3%) Windoop (Single Node)
(+4%) AWS EC2 (Windoop (Single Node))+AWS S3
(+4%) Windoop (Cluster)
(+5%) AWS EMR+AWS S3
如何在五分鐘內透過AWS的EMR服務快速開啟一個Hadoop叢集?
Amazon EMR Hadoop Demonstration
100. How to Launch Amazon EMR Cluster with sample data in AWS EMR service
- (計劃書報告) (PPT)題目 動機 目的 方法 執行步驟 分工
最大重複行車時間樣式(2018/9-2018/9)之資訊統計分析
例如: 國道三號 龍井交流道 <=> 霧峰交流道 (共通過7個匝道)
String InputDir = "TDCS_CandidateMR_2018_9_2018_9_Date-Weekday-Vehicle_M1_TF2_CF1_Length1_MRP";
(北上)String StartQantryID = "03F2100N" (霧峰(台3線,太平-台74),中投(連接台63));String EndQantryID = "03F1779N";(龍井,沙鹿)
(南下)String StartQantryID = "03F1779S"(龍井,沙鹿);String EndQantryID = "03F2100S";(霧峰(台3線,太平-台74),中投(連接台63))
int LengthQantryID = 7;
- 路段? 利用 Google Map 標示出來(6 個 gentreis) 5F_N_Table.jpg
- 該路段(最長,最短,平均)行車時間
- 時段? (0~23)(尖峰時段 Rush Hours)
- 星期? (Monday~Sunday)
- 車種? (vehicle types: 31,32,41,42, 5)
- 各種組合?
評分參考:
(0) (15%)上台報告(小組互評)
(1) (15%)上台報告(老師)
(2) (5%)計算平台選擇(Windoop(+3%), AWS EC2(+4%), Windoop (Cluster)(+4%), AWS EMR+AWS S3(+5%) )
(3) (5%)說明資料完整性+ 1個月(+3%) or 3 個月(+4%)or 6 個月(+5%)
國道計費門架座標
(4) (5%)GoogleMap(路線URL分享)
(5) (25%)實驗結果
(結果說明(圖表標題 資料清晰 需觀察統計結果,解釋可能原因)
- 計算平台(硬體規格?計算節點個數?)+所花費時間
- 路段? 利用 Google Map 標示出來(? 個 gentreis)
- 該路段(最長,最短,平均)行車時間
- 時段? (0~23)(尖峰時段 Rush Hours)
- 星期? (Monday~Sunday)
- 車種? (vehicle types: 31,32,41,42, 5)
- 各種組合?
- (互動式圖表)(如:使用 Power BI)
(6) (5%)可能的應用(如何加值? Big Data (Value)?)
(7) (5%)小組會議討論紀錄(內容與照片)
(8) (5%)(錄影上傳YouTube+ 3~5 Min)=> 只須給 YouTube URL(請打開分享)
(9) (10%)學習心得(每個組員都要)
書面報告(封面、完成項目(條列)、方法(畫面舉證)、心得與討論)+ YouTube (URL)(設定:半公開)
(錄影上傳YouTube+ 3~5 Min)+錄影工具:EverCam (亞大有授權)
或 OCam(免費授權:需注意避免安裝廣告軟體)
參考文獻
(IEEE ICASI 2017)PPT
A Novel Approach to Extract Significant Time Intervals of Vehicles from Superhighway Gantry Timestamp Sequences
Jing-Doo Wang, and Ming-Chorng Hwang,
2017 IEEE International Conference on Applied System Innovation (IEEE ICASI 2017) May 13-17, 2017,Hotel emisia, Sapporo, Japan
Reference:(IEEE ICASI 2017)PPT
(First Prize Paper Award)
(Extended version Applied Sciences as a Special Issue "Selected Papers from IEEE ICASI 2017")
Windoop (Windoop Cluster)
(加速speedUp)
參考:環境設定(Windoop 2. 0)(感謝:賴敬勳,王俊平,楊松儒 環境測試)
Master Node IP=> DOS> ipconfig (查出作為 MasterNode (namenode+resource manager)之 IP)
windoop_ClusterIP_10.36.27.170.7z(Modified From:Windoop 林奇暻)