請擴充 FileInfoExtraction 並結合以下程式功能
Data Source:PubMed_Parsed
- (60%)(可利用 16_8 (TreeMap))
(資料來源: 2016-01_Parse.txt)
需要去掉 Stop-words
全部改成小寫(toLowerCase() 再統計
計算{標題(第三欄位)}所有的字頻,找出出現次數最多的前50個字與其出現次數
PatternFileToSet_jdwang2018_4_10.zip- (70%) 同(60%),(可利用 16_8 (TreeMap)+16_1 (HashSet))
比較(2016/1,2016/2, 2016/3)各月份{出現次數前50個字與其出現次數}是否有不同?
處理3個月的資料(2016-01_Parse.txt,...,2016-3_Parse.txt)
(注意:需要去掉標點符號,避免計算錯誤。如:"," "." ":" "(" ")" "/"等)
How to sort a TreeMap by value in java
在java中如何對Map的value進行排序?
TreeMapDemo_SortByValue_jdwang2018_4_9.zip 參考:
JAVA 如何去除標點符號(1)
JAVA 如何去除標點符號(2)
- (80%) 同(70%),
(1) 計算{標題(第三欄位)+摘要(第四欄位)}所有的字頻
但是需要利用 Directory 方式,一次讀取多個檔案方式,
ProcessFilesInOneDir_jdwang2018_4_16.zip
處理12個月的資料(2016-01_Parse.txt,...,2016-12_Parse.txt)
(2) 比較各月份{出現次數前50個字與其出現次數}是否有不同?
(3) 2016全年度(12個月){出現次數前50個字與其出現次數}是否有不同?- (90%) 同(80%),
( 逐項說明:自己的創新設計 或 如何改進修改程式 ,變得更加有效率或更友善(user friendly)
繳交Moodle(學號_姓名.zip (.rar)):
- 書面心得格式
- 課程名稱:?, 第?次作業:?,題目:?,班級 學號 姓名 日期,
- 完成項目
- YouTube(1~3分鐘)(URL連結)
- 執行過程與結果,
- 討論與問題,
- 心得
- 評量標準參考
- 有交書面報告(pdf)+(程式碼 project 匯出)(40%)
- 有交書面報告(pdf)+(程式碼 project 匯出)心得(60%)
- 有交書面報告(pdf)+(程式碼 project 匯出)+作業過程舉證完整+心得(80%)
- 有交書面報告(pdf)+(程式碼 project 匯出)+作業過程舉證完整+問題討論+心得(90%)