閱讀文本大概需要 2 分鐘。
提示
以鄙人在GitHub上的辣雞代碼為例, 其他Scrapy的項目操作類似, 本文同樣適用于不使用云服務(wù)器的情形(排除掉前期準(zhǔn)備部分即可).
前期準(zhǔn)備
(也可以到騰訊云開發(fā)者實驗室體驗)1. 購買云服務(wù)器
選擇一家云服務(wù)廠商, 購買云服務(wù)器, 目前國內(nèi)主流服務(wù)均有提供學(xué)生版
如果第一次購買, 可以戳這個鏈接
https://cloud.tencent.com/redirect.php?redirect=1010&cps_key=e042d9552c4c0be2cd377436ca42ee62
2. 下載Xshell, 使用ssh連接服務(wù)器
Xshell學(xué)生和家用是免費(fèi)的, 下載地址https://www.netsarang.com/download/free_license.html
下載安裝完成后,使用系統(tǒng)分配的公網(wǎng)IP, 系統(tǒng)用戶名和對應(yīng)密碼連接服務(wù)器.
在Github上克隆代碼
git clone https://github.com/FesonX/JobCrawler.git
安裝相關(guān)依賴1. 安裝Python3
項目使用Python3.6, 可以使用以下連接安裝, 將文中的3.5改為3.6即可.
ubuntu14.04安裝python3.5并且將其設(shè)置為python3默認(rèn)啟動
(https://blog.csdn.net/fireflychh/article/details/78195778)
2. 使用virtualenv(也可以使用Anaconda或Pycharm管理)
Virtualenv允許多版本Python同時在電腦上共存, 安裝完P(guān)ython3及pip后 終端鍵入
# 安裝
pip3 install virtualenv
# 創(chuàng)建虛擬環(huán)境
virtualenv spider-env
# 激活虛擬環(huán)境
source spider-env/bin/activate
# 退出
deactivate
3. 安裝庫依賴
因為Scrapy依賴Python.h,在安裝庫依賴前在終端鍵入
sudo apt-get install libpython3.6-dev
然后安裝依賴, 如果失敗, 請逐條嘗試
# 在JobCrawler/JobCrawler目錄下
pip install -r requirements.txt
4. 安裝MongoDB
參照以下連接安裝 MongoDB Community Edition
(https://docs.mongodb.com/manual/administration/install-community/)
運(yùn)行爬蟲
終端cd到項目根目錄, 鍵入
# -o job.csv為可選參數(shù), 加入則輸出到指定文件中
scrapy crawl jobCrawler -o job.csv
擴(kuò)展: 使爬蟲開機(jī)運(yùn)行
使爬蟲在系統(tǒng)開機(jī)時自動運(yùn)行, 對于許多系統(tǒng)來說,最簡單 (如果不是最好的)的方式是使用rc.local文件 具體實現(xiàn)方式就交由你自己用搜索引擎探索啦
歡迎點(diǎn)擊查看原文關(guān)注我的騰訊云社區(qū)賬號
入門小白, 歡迎大家指出錯誤, 技術(shù)交流
QQ:994342122, Email: fesonx@foxmail.com
今日作者: 光光同學(xué)_
不愛看電影的攝影師不是好的程序員
轉(zhuǎn)載請注明來自夕逆IT,本文標(biāo)題:《抖音cps推廣賺錢聯(lián)盟平臺帶貨快速上線定制開發(fā)》

還沒有評論,來說兩句吧...