如果引用或轉貼,麻煩註明出處與本網誌連結,否則視為侵權。

2020年11月28日

整理Python網路探勘/網路爬蟲程式庫 for 網頁讀取與解析

作者: Fred F.M. Wang (FW知識瑣記) 日期: 2020/11/28

 

pycURL

pycURL 是功能強大的python的url套件,用c語言寫的,速度很快,比urllib和

httplib都快, 使用cURL(libcurl),讀取網路上的文件。

ref: pycurl.io 

ref: Python的pycurl包用法簡介

ref: 如何使用python執行curl命令

urllib

urllib.request 是一個用來從URLs (Uniform Resource Locators)取得資料的

Python模組。它提供一個了非常簡單的介面能接受多種不同的協議, urlopen

 函數。也提供了較複雜的介面用於處理一些常見的狀況,例如:基本的

authentication、cookies、proxies等等,這些都可以由handler或opener物件操

作。

ref: 如何使用urllib套件取得網路資源

BeautifulSoup

Beautiful Soup是一個Python套裝,功能包括解析HTML、XML文件、修復含有

未閉合標籤等錯誤的文件(此種文件常被稱為tag soup)。這個擴充包為待解

析的頁面建立一棵樹,以便提取其中的資料,這在網路資料採集時非常有用。 

ref:[Python爬蟲教學]7個Python使用BeautifulSoup開發網頁爬蟲的實用技巧

ref: Python 使用 Beautiful Soup 抓取與解析網頁資料,開發網路爬蟲教學

ref2: 輕鬆學習 Python:透過解析 HTML 擷取網站資料

ref3: 以 requests 搭配 beautifulsoup4 或 pyquery 套件實踐網站爬蟲

ref: Youtube 爬蟲基礎教學 (Python Scraping 教程)

PyQuery

PyQuery是Python仿照jQuery的嚴格實現。語法與jQuery幾乎完全相同

ref: PyQuery的用法

ref: Python 使用 pyquery、R 語言使用 rvest

ref: 劉純睿(阿吉) - 比美麗的湯更美麗: pyquery - PyConTW2017

requests

是一個Python第三方庫,處理URL資源特別方便(處理一般需求)

ref: requests

ref: 以 requests 與 lxml 套件實踐網站爬蟲

selenium

可模擬瀏覽器執行

ref: 以 selenium 套件實踐網站爬蟲

ref: 從 Python 與 R 語言使用 Selenium WebDriver 操控瀏覽器

ref: [ Selenium ] 偽造身份進行網路爬蟲

Scrapy

Scrapy是一個Python編寫的開源網絡爬蟲框架。它是一個被設計用於爬取網

路數據、提取結構性數據的程序框架。

ref: [爬蟲筆記] Python Scrapy 爬蟲教學:實作PTT資料爬取

ref: Youtube Scrapy 爬蟲教學

ref: Python爬蟲新手筆記

ref: Python 網頁爬蟲入門實戰