共计 3135 个字符,预计需要花费 8 分钟才能阅读完成。
1.绕过CF盾
用cloudscraper代替requests
pip3 install cloudscraper
import cloudscraper
scraper = cloudscraper.create_scraper()
response =scraper.get(url)
2.爬取网页动态内容,需要安装selenium
pip3 install selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
url = "xxxx"
chrome_options = Options()
chrome_options.add_argument('--no-sandbox') # 给予root执行权限
chrome_options.add_argument('--headless') # 隐藏浏览器运行
chrome_options.add_argument('--disable-dev-shm-usage') #防止占用大量的内存,从而导致性能问题或崩溃。
chrome_options.add_argument('--user-agent=headers') #模拟不同类型的浏览器或设备
chrome_options.add_argument('--disable-web-security') #禁用浏览器的同源策略
driver = webdriver.Chrome(options=chrome_options)
# driver = webdriver.Chrome()
driver.get(url)
driver.implicitly_wait(5) #隐式等待时间为5秒
page_content = driver.page_source # 获取当前网页的HTML源代码
driver.quit()
3.下载hanime的里番视频,并且以年月的形式保存
输入密码可见
正文完