F.W.知識瑣記: 11月 2020

2020年11月28日

整理Python網路探勘/網路爬蟲程式庫 for 網頁讀取與解析

作者: Fred F.M. Wang (FW知識瑣記) 日期: 2020/11/28

pycURL	pycURL 是功能強大的python的url套件，用c語言寫的，速度很快，比urllib和 httplib都快, 使用cURL(libcurl)，讀取網路上的文件。 ref: pycurl.io ref: Python的pycurl包用法簡介 ref: 如何使用python執行curl命令
urllib	urllib.request 是一個用來從URLs (Uniform Resource Locators)取得資料的 Python模組。它提供一個了非常簡單的介面能接受多種不同的協議， urlopen 函數。也提供了較複雜的介面用於處理一些常見的狀況，例如:基本的 authentication、cookies、proxies等等，這些都可以由handler或opener物件操作。 ref: 如何使用urllib套件取得網路資源
BeautifulSoup	Beautiful Soup是一個Python套裝，功能包括解析HTML、XML文件、修復含有未閉合標籤等錯誤的文件（此種文件常被稱為tag soup）。這個擴充包為待解析的頁面建立一棵樹，以便提取其中的資料，這在網路資料採集時非常有用。 ref:[Python爬蟲教學]7個Python使用BeautifulSoup開發網頁爬蟲的實用技巧 ref: Python 使用 Beautiful Soup 抓取與解析網頁資料，開發網路爬蟲教學 ref2: 輕鬆學習 Python：透過解析 HTML 擷取網站資料 ref3: 以 requests 搭配 beautifulsoup4 或 pyquery 套件實踐網站爬蟲 ref: Youtube 爬蟲基礎教學 (Python Scraping 教程)
PyQuery	PyQuery是Python仿照jQuery的嚴格實現。語法與jQuery幾乎完全相同 ref: PyQuery的用法 ref: Python 使用 pyquery、R 語言使用 rvest ref: 劉純睿(阿吉) - 比美麗的湯更美麗: pyquery - PyConTW2017
requests	是一個Python第三方庫，處理URL資源特別方便(處理一般需求) ref: requests ref: 以 requests 與 lxml 套件實踐網站爬蟲
selenium	可模擬瀏覽器執行 ref: 以 selenium 套件實踐網站爬蟲 ref: 從 Python 與 R 語言使用 Selenium WebDriver 操控瀏覽器 ref: [ Selenium ] 偽造身份進行網路爬蟲
Scrapy	Scrapy是一個Python編寫的開源網絡爬蟲框架。它是一個被設計用於爬取網路數據、提取結構性數據的程序框架。 ref: [爬蟲筆記] Python Scrapy 爬蟲教學：實作PTT資料爬取 ref: Youtube Scrapy 爬蟲教學

ref: Python爬蟲新手筆記

ref: Python 網頁爬蟲入門實戰

訂閱：文章 (Atom)