資料探勘 (Data Mining)


Jing-Doo Wang, jdwang@asia.edu.tw, ext: 1847.
Time: (四)3,4,5
Room: I627


調課(畢業班)
6/13, 3,4,5 => 5/30, 9,10,11 (eWant線上課程:大數據資料處理-Hadoop MapReduce程式設計 (單元1介紹Hadoop+Windoop安裝,2Hadoop Java 程式載入修改與執行))
6/20, 3,4,5 => 6/7, 9,10,11 (eWant線上課程:大數據資料處理-Hadoop MapReduce程式設計 (單元3巨量資料處理(1)-交通部臺灣區國道高速公路局「交通資料庫」,4巨量資料處理(1)-交通部臺灣區國道高速公路局「交通資料庫」))
  • (ewant)亞洲大學 大數據資料處理–Hadoop MapReduce 程式設計與資料視覺化 教師: 王經篤,何承遠
  • 註冊(請使用學校email帳號 學號@live.asia.edu.tw)


    Grade



    Text Book

  • Data Mining: Practical Machine Learning Tools and Techniques (4th Edition), 2017,Morgan Kaufmann.(ISBN-13: 978-0128042915) Content
  • Learning Data Mining with Python (Second Edition) 2017,Robert Layton. Content

  • Reference Book

    Python 程式設計|大數據資料分析 (碁峰)(作者: 蔡明志書號: ACL054700 出版日: 2018/11/01 ISBN: 9789864769575)
    林政益 (scott_lin@gotop.com.tw) 電話: 04-2452-7051 分機 11,
    大數據分析Excel Power BI全方位應用(第二版) (碁峰)(作者:謝邦昌/鄭宇庭/宋龍華/陳妙華, 出版日: 2018/01/04,書號: AED003031)
    林政益 (scott_lin@gotop.com.tw) 電話: 04-2452-7051 分機 11,


    Python 程式設計|大數據資料分析


    Content

    K-Nearesst Neightbor
    Training : determining the best value of k that achieves the best performance ?

    Naive Bayes Classifier (Probability model)
    Training : Find the conditional independent probablity of variable.
    Bayesian Decision Theory
    Naive Bayes Classifier (From Tom M. Mitchell)
    Naive_Bayes_training_example_Tennis.htm

    Linear Classifier (Vecor Space Model)
    Training : Find the hyperplanes that can separate the instances of one class from the other classes
    Rocchi Alogirhtm (Linear Classifier)LinearClassifier_jdwang.xls

    Support Vecotr Machine (Vector Space Model)
    Training: Find the support vectors that can maximumize the marge region between two classes

    From:Learning Data Mining with Python (Second Edition) 2017,Robert Layton.
    Agant:https://www.tenlong.com.tw/products/9781787126787 Co., Ltd.
    (Contact: service@tenlong.com.tw)

    Downloading the example code
    Chapter 3. Predicting Sports Winners with Decision Trees
    Using "pandas" to load the dataset
    $ conda install pandas
    The Website http://basketball-reference.com
    2015-16 NBA Schedule and Results
    NBA_2015_10_Basketball.csv(Share&more, get CSV (for excel))
    2014-15 NBA Standings (Expanded Standing, Export linl, get "standings.csv")
    On-Line HomeWork
    NBA_2015-2016_Basketball.csv



    Score (Report (upload to Moodle) + YouTube (Demo what you have done)()>
    專題與作業繳交:作業遲交扣分,每日原始分數*0.9(遲交最多一週,逾期不收)
    1. HW1 :(20%) Weka Install and practice (2019/3/28)
      (5%) Weka Install on your own PC or NB
      (5%) Classifier "Decision Tree" + "KNN"with
      glass.arff
      Demo glass
      Compare the performance of Decision Tree and KNN. Which classifier is better? why ?
      (Accuracy, Confusion Matrix, Precision&Recall, F-measure)
      (10%) Try to find the best classifier in the Weka and tell the reason
    2. Middle Project:(30%)(2~4 人一組)
      (presentation:2019/4/11)
      (Report:2019/4/18, 期中考週不上課, 每組交一份書面報告(上傳Moodle)(心得:每個組員都要)(組員:貢獻度百分比))
    3. 台中市智慧交通大數據研究中心 (帳號(account??) 密碼 寄往學校帳號(你的學號@live.asia.edu.tgw) )
      (0) (2019/3/28 以前)(分組與路段選擇(GooglMap分享)+小組互評評分表)
      (1) 請選擇一個你熟悉的公車路段(動機)
      (2) 觀察搭乘人數的交叉分析統計(全票 半票 敬老卡 投幣)
      (3) 觀察現象與解釋生成可能原因
      為何會有 年,月份, 星期, 24小時 的搭乘人數 vs. (全票,半票,敬老卡,投幣)的差異性?
      (4) 你的觀察 有可能提供 政府改善公車政策建議與增加價值
      (5)(加分) 利用python程式 下載原始資料(raw data) 做更進一步分析(結合"統計" 相似性 顯著性 )?

    4. Final Project:(40%)
      (2~4 人一組)
      (2019/5/2 以前)(分組+小組互評評分表)
      2019/5/16:presentation(1)(+3%),
      2018/5/23:presentation(2),
      2018/5/27 report:moodle)
      以下題目擇一(A)(B)
      (A)(Min 70%)開放資料的應用
      政府資料開放平台
      (0)下載資料?
      (1)資料讀取?
      (2)資料整理?
      (3)資料觀察與分析?
      (4)資料預測(clustering)
      (5)Python (NumPy? Pandas? Matplotlib? SciPy?)?
      (Bonus:(+10%) 說明期中專題結果不同之處 台中市智慧交通大數據研究中心(教學版) (Middle Project Extended)


      (B)(Min 70%)血型預測(Blood Type Prediction): 我們可以由觀察一個人的{?} 預測其血型(A, B, AB, O )嗎?
      (0) 可能和血型相關的因素(個性,喜歡的[食物(米飯 水果), 顏色, 動物, 音樂], [宗教信仰]
      (1) Google設計問卷 Binary (0 or 1), optional (Red,Green,Blue,...): 生日 血型
      (2) 收集問卷 (如何大量 全面 收集問卷? 重複? 有效率 FB,Line,)
      (3) 資料前處理 (資料下載 Missing Values, Transform to weka format? Python files?)
      (4) (Weka) Classification : Decision Tree? Naive Bayse ? kNN? SVM ? NN ?
      (5) Clustering (Data Visualization): (Dimension reduction to 2D or 3D via PCA, LDA?)
      (6) Experimental Results
      (7) Conclusions and Discussion
      (Bonus: (+10%) 說明期中專題結果不同之處) 台中市智慧交通大數據研究中心(教學版) (Middle Project Extended)


      (C) (已經重新上限 ) (Max 80%) Middle Project Extended 台中市智慧交通大數據研究中心(教學版) (Middle Project Extended)
      (0) (50%) Report: 同於Middle project 完成項目
      (1) (+10%) 說明期中專題結果不同之處
      (2) (+20%) 增加的觀察分析與結果
      Taichung_Bus_CSV_jdwang.7z
      Data_20190501173942.csv



    5. The types of Cancer(Choose five types at least)

    6. AWS Educate Program

    7. AWS Educate
      AWS 準備認證
      AWS Services
      完成 AWS Educate Propgram : Student Account 申請)Apply for an AWS Educate (蘇棻翎同學 提供)