Python最強入門邁向頂尖高手之路:王者歸來(第二版)全彩版
20201204Python頂尖高手之路第2版讀者資源.zip (範例程式碼)
DM1915_ch24.7z
# import requests
# from bs4 import BeautifulSoup
第二十四章 Selenium 網路爬蟲的王者
-
pip install selenium
[Selenium] 如何使用 Selenium 開啟 Chrome 瀏覽器?
24-1
ch24_1.py
(Optional)Firefox Driver
ch24_2.py
SessionNotCreatedException: session not created:
Current browser version is 90.0.4430.93
ch24_3.py
ch24_4.py
需要先下載 Chrome Driver (瀏覽器驅動程式)(需要配合你的 Chrome 版本)
修改{瀏覽器驅動程式}路徑
dirverPath = 'D:\chromedriver_win32\chromedriver.exe'
browser = webdriver.Chrome(dirverPath)
dirverPath = 'D:\chromedriver_win32\chromedriver.exe'
browser = webdriver.Chrome(dirverPath)
tag = browser.find_element_by_id('main')
ch24_5.py, ch24_6.py
ch24_7.py
url = 'http://aaa.24ht.com.tw'
print(f"\n標籤名稱 = {tag1.tag_name}, 內容是 = {tag1.text}")
print("\n標籤名稱 = "+ tag1.tag_name+", 內容是 = "+tag1.text)
ch24_8.py
url = 'http://www.deepmind.com.tw' (Error j網站不存在
ch24_9.py
url = 'http://www.mcut.edu.tw/?Lang=en'
txtBox.send_keys('王永慶')
ch24_10.py
url = 'http://www.mcut.edu.tw/?Lang=en'
ele = browser.find_element_by_tag_name('body')
time.sleep(3)
ele.send_keys(Keys.PAGE_DOWN) # 網頁捲動到下一頁
ch24_11.py
url = 'http://www.deepmind.com.tw' (Error j網站不存在
#time.sleep(3)
#browser.refresh() # 更新網頁
#time.sleep(3)
#browser.quit() # 關閉網頁
思考題
Pubmed
請修改 ch24_9.py + ch24_10.py
txtBox = browser.find_element_by_id('?????')
txtBox.send_keys('?????')
(+1%) 利用 selenium + webdriver 模擬在PubMed 搜尋關鍵字 ’lung cancer'
(+1%) 自動擷取出 回傳所有文章的 標題(Title)並存檔 "學號_姓名_All_PubMed_LungCancer_Title.txt"