Linux绕过CF,爬取hanime里番视频

共计 3135 个字符,预计需要花费 8 分钟才能阅读完成。

1.绕过CF盾

用cloudscraper代替requests

pip3 install cloudscraper
import cloudscraper
scraper = cloudscraper.create_scraper()
response =scraper.get(url)

2.爬取网页动态内容,需要安装selenium

pip3 install selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
url = "xxxx"
chrome_options = Options()
chrome_options.add_argument('--no-sandbox')  # 给予root执行权限
chrome_options.add_argument('--headless')  # 隐藏浏览器运行
chrome_options.add_argument('--disable-dev-shm-usage') #防止占用大量的内存,从而导致性能问题或崩溃。
chrome_options.add_argument('--user-agent=headers')  #模拟不同类型的浏览器或设备
chrome_options.add_argument('--disable-web-security') #禁用浏览器的同源策略
driver = webdriver.Chrome(options=chrome_options) 
# driver = webdriver.Chrome()
driver.get(url)
driver.implicitly_wait(5)  #隐式等待时间为5秒
page_content = driver.page_source  # 获取当前网页的HTML源代码
driver.quit()

3.下载hanime的里番视频,并且以年月的形式保存

 

 输入密码可见

正文完
 
评论(没有评论)
验证码