資料探勘 (Data Mining)
Jing-Doo Wang, jdwang@asia.edu.tw, ext: 1847.
Time: (四)3,4,5
Room: I627
調課(畢業班)
6/13, 3,4,5 => 5/30, 9,10,11 (eWant線上課程:大數據資料處理-Hadoop MapReduce程式設計 (單元1介紹Hadoop+Windoop安裝,2Hadoop Java 程式載入修改與執行))
6/20, 3,4,5 => 6/7, 9,10,11 (eWant線上課程:大數據資料處理-Hadoop MapReduce程式設計 (單元3巨量資料處理(1)-交通部臺灣區國道高速公路局「交通資料庫」,4巨量資料處理(1)-交通部臺灣區國道高速公路局「交通資料庫」))
(ewant)亞洲大學 大數據資料處理–Hadoop MapReduce 程式設計與資料視覺化 教師: 王經篤,何承遠
註冊(請使用學校email帳號 學號@live.asia.edu.tw)
Grade
Text Book
Data Mining:
Practical Machine Learning Tools and Techniques (4th Edition), 2017,Morgan Kaufmann.(ISBN-13: 978-0128042915)
Content
Learning Data Mining with Python (Second Edition) 2017,Robert Layton.
Content
Reference Book
Python 程式設計|大數據資料分析 (碁峰)(作者: 蔡明志書號: ACL054700 出版日: 2018/11/01 ISBN: 9789864769575)
林政益 (scott_lin@gotop.com.tw) 電話: 04-2452-7051 分機 11,
大數據分析Excel Power BI全方位應用(第二版) (碁峰)(作者:謝邦昌/鄭宇庭/宋龍華/陳妙華, 出版日: 2018/01/04,書號: AED003031)
林政益 (scott_lin@gotop.com.tw) 電話: 04-2452-7051 分機 11,
Python 程式設計|大數據資料分析
Content
K-Nearesst Neightbor
Training : determining the best value of k that achieves the best performance ?
Naive Bayes Classifier (Probability model)
Training : Find the conditional independent probablity of variable.
Bayesian Decision Theory
Naive Bayes Classifier (From Tom M. Mitchell)
Naive_Bayes_training_example_Tennis.htm
Linear Classifier (Vecor Space Model)
Training : Find the hyperplanes that can separate the instances of one class from the other classes
Rocchi Alogirhtm (Linear Classifier)LinearClassifier_jdwang.xls
Support Vecotr Machine (Vector Space Model)
Training: Find the support vectors that can maximumize the marge region between two classes
From:Learning Data Mining with Python (Second Edition) 2017,Robert Layton.
Agant:https://www.tenlong.com.tw/products/9781787126787 Co., Ltd.
(Contact: service@tenlong.com.tw)
Downloading the example code
Chapter 3. Predicting Sports Winners with Decision Trees
Using "pandas" to load the dataset
$ conda install pandas
The Website http://basketball-reference.com
2015-16 NBA Schedule and Results
NBA_2015_10_Basketball.csv(Share&more, get CSV (for excel))
2014-15 NBA Standings (Expanded Standing, Export linl, get "standings.csv")
On-Line HomeWork
NBA_2015-2016_Basketball.csv
Score (Report (upload to Moodle) + YouTube (Demo what you have done)()>
專題與作業繳交:作業遲交扣分,每日原始分數*0.9(遲交最多一週,逾期不收)
- 書面心得格式
- 課程名稱:?, 專題與作業 名稱,,班級 學號 姓名 日期,
- 完成項目
- YouTube(1~3分鐘)(URL連結,設定分享)
- 執行過程與結果,
- 討論與問題,
- 心得
- 評量標準參考
- 有交書面報告(40%)
- 有交書面報告+心得(60%)
- 有交書面報告+作業過程舉證完整+心得(80%)
- 有交書面報告+作業過程舉證完整+問題討論+心得(90%)
-
HW1 :(20%) Weka Install and practice (2019/3/28)
(5%) Weka Install on your own PC or NB
(5%) Classifier "Decision Tree" + "KNN"with
glass.arff
Demo glass
Compare the performance of Decision Tree and KNN. Which classifier is better? why ?
(Accuracy, Confusion Matrix, Precision&Recall, F-measure)
(10%) Try to find the best classifier in the Weka and tell the reason
-
Middle Project:(30%)(2~4 人一組)
(presentation:2019/4/11)
(Report:2019/4/18, 期中考週不上課, 每組交一份書面報告(上傳Moodle)(心得:每個組員都要)(組員:貢獻度百分比))
台中市智慧交通大數據研究中心 (帳號(account??) 密碼 寄往學校帳號(你的學號@live.asia.edu.tgw) )
(0) (2019/3/28 以前)(分組與路段選擇(GooglMap分享)+小組互評評分表)
(1) 請選擇一個你熟悉的公車路段(動機)
(2) 觀察搭乘人數的交叉分析統計(全票 半票 敬老卡 投幣)
(3) 觀察現象與解釋生成可能原因
為何會有 年,月份, 星期, 24小時 的搭乘人數 vs. (全票,半票,敬老卡,投幣)的差異性?
(4) 你的觀察 有可能提供 政府改善公車政策建議與增加價值
(5)(加分) 利用python程式 下載原始資料(raw data) 做更進一步分析(結合"統計" 相似性 顯著性 )?
-
Final Project:(40%)
(2~4 人一組)
(2019/5/2 以前)(分組+小組互評評分表)
2019/5/16:presentation(1)(+3%),
2018/5/23:presentation(2),
2018/5/27 report:moodle)
以下題目擇一(A)(B)
(A)(Min 70%)開放資料的應用
政府資料開放平台
(0)下載資料?
(1)資料讀取?
(2)資料整理?
(3)資料觀察與分析?
(4)資料預測(clustering)
(5)Python (NumPy? Pandas? Matplotlib? SciPy?)?
(Bonus:(+10%) 說明期中專題結果不同之處 台中市智慧交通大數據研究中心(教學版) (Middle Project Extended)
(B)(Min 70%)血型預測(Blood Type Prediction): 我們可以由觀察一個人的{?} 預測其血型(A, B, AB, O )嗎?
(0) 可能和血型相關的因素(個性,喜歡的[食物(米飯 水果), 顏色, 動物, 音樂], [宗教信仰]
(1) Google設計問卷 Binary (0 or 1), optional (Red,Green,Blue,...): 生日 血型
(2) 收集問卷 (如何大量 全面 收集問卷? 重複? 有效率 FB,Line,)
(3) 資料前處理 (資料下載 Missing Values, Transform to weka format? Python files?)
(4) (Weka) Classification : Decision Tree? Naive Bayse ? kNN? SVM ? NN ?
(5) Clustering (Data Visualization): (Dimension reduction to 2D or 3D via PCA, LDA?)
(6) Experimental Results
(7) Conclusions and Discussion
(Bonus: (+10%) 說明期中專題結果不同之處) 台中市智慧交通大數據研究中心(教學版) (Middle Project Extended)
(C) (已經重新上限 ) (Max 80%) Middle Project Extended 台中市智慧交通大數據研究中心(教學版) (Middle Project Extended)
(0) (50%) Report: 同於Middle project 完成項目
(1) (+10%) 說明期中專題結果不同之處
(2) (+20%) 增加的觀察分析與結果
Taichung_Bus_CSV_jdwang.7z
Data_20190501173942.csv
The types of Cancer(Choose five types at least)
-
AWS Educate Program
AWS Educate
AWS 準備認證
AWS Services
完成 AWS Educate Propgram : Student Account 申請)Apply for an AWS Educate (蘇棻翎同學 提供)