全球主机交流论坛

标题: 爬取油管上up主视频标签页的所有链接 [打印本页]

作者: laogui    时间: 2021-5-1 22:52
标题: 爬取油管上up主视频标签页的所有链接
本帖最后由 laogui 于 2021-5-1 23:19 编辑

获取有图比上up主的所有视频链接
代码地址:https://paste.ubuntu.com/p/Dhfy5ywwZq/
环境:python3,相关依赖自行安装
将代码下载保存为ytb_getuservideo_urls.py文件

用法:
python ytb_getuservideo_urls.py url
url:up主个人页面中"视频"标签对应的链接

具体例子参考代码中顶部注释
爬取的链接保存在ytb_video_urls.txt文件中

代码自用,写得烂,存在bug,仅供参考
代码自用,写得烂,存在bug,仅供参考
代码自用,写得烂,存在bug,仅供参考

下载好的视频链接,如何方便下载?
可参考:https://www.91ai.net/thread-767847-1-1.html

有大佬说到ytb-dl可以下载频道全部视频,利用--sleep-interval SECONDS 和  -max-sleep-interval SECONDS 可以控制每次下载视频间隔
那为什么还要造轮子呢?
小小鸡,15G硬盘,6T流量,经常下载4k、2k资源,一次性下载存储不了全部视频
因此个人做法是:
1、将所有视频链接爬取下来
2、写shell脚本,分批循环下载
作者: laogui    时间: 2021-5-1 22:55
@西贝小鱼儿 这里
作者: chenliqin123    时间: 2021-5-1 22:58
我也在搞,可以参考一下大佬的
作者: 宣传    时间: 2021-5-1 23:00
ytdl本身就支持下载整个频道的全部视频
作者: laogui    时间: 2021-5-1 23:03
本帖最后由 laogui 于 2021-5-1 23:04 编辑
宣传 发表于 2021-5-1 23:00
ytdl本身就支持下载整个频道的全部视频


ytdl应该没办法控制每次下载时间间隔,容易导致IP被拉黑

只有小鸡,15G硬盘,经常下载4k、2k资源
个人做法是:
1、将所有视频链接爬取下来
2、写shell脚本,分批循环下载,同时控制时间间隔
作者: chenliqin123    时间: 2021-5-1 23:05
laogui 发表于 2021-5-1 23:03
ytdl应该没办法控制每次下载时间间隔,容易导致IP被拉黑

只有小鸡,15G硬盘,经常下载4k、2k资源

有--sleep-interval SECONDS 和  -max-sleep-interval SECONDS 可以控制
作者: laogui    时间: 2021-5-1 23:08
chenliqin123 发表于 2021-5-1 23:05
有--sleep-interval SECONDS 和  -max-sleep-interval SECONDS 可以控制

学习了,还真没用过这两参数,多谢指点
我主要是硬盘小,15G硬盘,6T流量,一次性下载不了全部视频,所以分批搞
作者: mlcq    时间: 2021-5-1 23:15
https://pan.laoda.de/s/GQHo 供参考




欢迎光临 全球主机交流论坛 (https://www.91ai.net/) Powered by Discuz! X3.4