作者: Fred F.M. Wang (FW知識瑣記) 日期: 2020/11/28
pycURL | pycURL 是功能強大的python的url套件,用c語言寫的,速度很快,比urllib和 httplib都快, 使用cURL(libcurl),讀取網路上的文件。 ref: pycurl.io ref: Python的pycurl包用法簡介 ref: 如何使用python執行curl命令 |
urllib | urllib.request 是一個用來從URLs (Uniform Resource Locators)取得資料的 Python模組。它提供一個了非常簡單的介面能接受多種不同的協議, urlopen 函數。也提供了較複雜的介面用於處理一些常見的狀況,例如:基本的 authentication、cookies、proxies等等,這些都可以由handler或opener物件操 作。 ref: 如何使用urllib套件取得網路資源 |
BeautifulSoup | Beautiful Soup是一個Python套裝,功能包括解析HTML、XML文件、修復含有 未閉合標籤等錯誤的文件(此種文件常被稱為tag soup)。這個擴充包為待解 析的頁面建立一棵樹,以便提取其中的資料,這在網路資料採集時非常有用。 ref:[Python爬蟲教學]7個Python使用BeautifulSoup開發網頁爬蟲的實用技巧 ref: Python 使用 Beautiful Soup 抓取與解析網頁資料,開發網路爬蟲教學 ref2: 輕鬆學習 Python:透過解析 HTML 擷取網站資料 |
PyQuery | PyQuery是Python仿照jQuery的嚴格實現。語法與jQuery幾乎完全相同 ref: PyQuery的用法 |
requests | 是一個Python第三方庫,處理URL資源特別方便(處理一般需求) ref: requests |
selenium | 可模擬瀏覽器執行 ref: 以 selenium 套件實踐網站爬蟲 |
Scrapy | Scrapy是一個Python編寫的開源網絡爬蟲框架。它是一個被設計用於爬取網 路數據、提取結構性數據的程序框架。 ref: [爬蟲筆記] Python Scrapy 爬蟲教學:實作PTT資料爬取 ref: Youtube Scrapy 爬蟲教學 |
ref: Python爬蟲新手筆記
ref: Python 網頁爬蟲入門實戰