Linux绕过CF，爬取hanime里番视频

共计 3135 个字符，预计需要花费 8 分钟才能阅读完成。

1.绕过CF盾

用cloudscraper代替requests

pip3 install cloudscraper

import cloudscraper
scraper = cloudscraper.create_scraper()
response =scraper.get(url)

2.爬取网页动态内容，需要安装selenium

pip3 install selenium

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
url = "xxxx"
chrome_options = Options()
chrome_options.add_argument('--no-sandbox')  # 给予root执行权限
chrome_options.add_argument('--headless')  # 隐藏浏览器运行
chrome_options.add_argument('--disable-dev-shm-usage') #防止占用大量的内存，从而导致性能问题或崩溃。
chrome_options.add_argument('--user-agent=headers')  #模拟不同类型的浏览器或设备
chrome_options.add_argument('--disable-web-security') #禁用浏览器的同源策略
driver = webdriver.Chrome(options=chrome_options) 
# driver = webdriver.Chrome()
driver.get(url)
driver.implicitly_wait(5)  #隐式等待时间为5秒
page_content = driver.page_source  # 获取当前网页的HTML源代码
driver.quit()