[Python] 爬蟲筆記3- Selenium

前言

Selenium 是一個瀏覽器自動化測試工具,最初是為了自動化測試開發,在爬蟲流行開始後,也成為其中一種爬蟲工具。它的功能可以控制瀏覽器,模擬人對瀏覽器操作,整個過程是自動化的。
selenium支援Java、JavaScript、Python等多種主流程式語言,本篇主要用Python實作。

安裝Selenium

1
pip install selenium

成功後,顯示Successfully installed selenium.

Read more

[Python] 爬蟲筆記2-requests&BeautifulSoup

前言

繼上篇筆記之後,本篇主要紀錄我常用的爬蟲工具:requestsBeautifulSoup這兩個模組。

所需先備知識-了解網站請求

向網站發請求時,GET與POST是常見的HTTP Method,爬蟲大多採用這兩種方法

安裝requests和bs4

1
2
pip install bs4
pip install requests

引入模組

1
2
import requests
from bs4 import BeautifulSoup
Read more

[Python] 爬蟲筆記1-基本概念

前言

這學期因為專題需要用到網路爬蟲進行實作,所以將學習到的知識做一篇紀錄,之後忘記可以回來複習一下。

什麼是爬蟲?

根據維基百科定義:

也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。
網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所存取的頁面儲存下來,以便搜尋引擎事後生成索引供用戶搜尋。

簡單來說就是對網站進行資料擷取,可以透過它自動蒐集我們所想要的資料,將資料進行分析或是再利用,這樣的技術在資料科學領域算是幾乎需具備的技能。

Read more