科技爱好者周刊(第 284 期):YouTube 有多少个视频?

作者: 阮一峰

日期: 2023年12月29日

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

一位意大利摄影师,苦苦尝试了6年,终于在本月拍到了一张难以置信的照片:大教堂、山峰、月亮处于一条直线,并且地球反射的太阳光,通过长曝光,可以照亮月亮顶部。(via

YouTube 有多少个视频?

YouTube 是世界最大视频网站,全世界的人都在上传视频。

但是,它没有透露过,内部一共有多少个视频。

上周,网上出现了一篇有趣的文章,使用概率方法,估计 YouTube 的视频总数。

这篇文章非常有启发意义,面试可能也会出这一类的题目。下面,我就分享作者是怎么做的。

我们知道,每一个 YouTube 视频都有唯一编号,放在 URL 里面。

比如,某个视频的 URL 是https://www.youtube.com/watch?v=NJHG0yuBabQ&,那么它的视频编号就是NJHG0yuBabQ&

YouTube 也没有透露过,这个编号是怎么产生的。

但是根据观察,可以得知它是一个11位字符串,前十位字符的取值范围是64个值([a-zA-Z0-9_-]),最后的第十一位字符的取值范围只有16个值。

这意味着,所有的编号一共有 2^64 种可能,这是一个超级巨大的数字,足以容纳过去和将来所有可能生成的视频。

显然,不是每一个编号,都有对应的视频,绝大部分是空号,而且空号远远多于实际视频。如果我们假定,YouTube 一共有10亿个视频,那么你大概猜184亿次,才会猜中一个有效的编号(前提是这些编号为均匀分布)。

那么,我们可以反推,通过抽中有效编号的概率,判断出 YouTube 一共有多少个视频

这就好比,某个地区的电话号码是从 843-000-0000 到 843-999-9999,一共有1000万个号码。我们随机拨打100个号码,如果其中10个可以接通(即10%的接通率),我们就可以判断出,大概有100万人拥有843号码,其他900万个都是空号。

那篇文章的作者就使用这种方法,随机构造视频编号,看看命中多少个,然后得到了一个结论:2023年 YouTube 的视频总数估计为 133.25 亿

他们不仅估计了视频总数,还估计了其他很多指标,全部公开在网站 tubestats.org 上面。

根据这些数据,可以得到一些有趣的观察。

  • 2023年 YouTube 共有133亿个视频,2022年是93亿个,年增长率超过40%。
  • 4.5% 的视频一次也没有播放过。
  • 72% 的视频一条评论也没有。
  • 60% 的视频是 Vlog(个人生活)。
  • 9分钟到16分钟的视频最多,占到20%。

如果你对长视频的数据感兴趣,可以去这个网站挖掘。

最后,我看到网友提到,这种判断方法并不新鲜。生物学家早就用它,了解湖泊中鱼的总数。

你在池塘里钓到100条鱼,全部做好了标识,然后放生。过了一个星期,你又去钓了100条鱼,发现其中有30条是上周钓到过的,请问这个池塘一共有多少条鱼?

科技动态

1、自动驾驶灯

奔驰汽车最近获得批准,在车辆上添加绿松石灯光。

这种灯光亮起时,就表示车辆处于自动驾驶状态。即使驾驶座上有司机,他此时也没有控制方向盘。

根据上图,该灯光出现在多个部位,包括车前灯、车后灯和后视镜上。

这个设计可能会成为所有车辆的共同标准。以后,我们通过车灯,就能区分自动驾驶车辆和人类驾驶车辆。但是那样,未来的马路上会不会都是一片青绿色?

2、64核笔记本

国内某厂商居然将服务器的64核 AMD EPYC CPU,放进了笔记本,并配上 RTX4080 显卡和液冷降温。

这可能是史上性能最强的笔记本了,因为用的是服务器配置。目前市场上性能最强的笔记本,不过是16核 CPU,而它是64核。

它的厚度为4.6厘米,其实还可以,但这造型太像板砖了,工业设计未免简陋了。

3、Cybertruck 涉水模式

马斯克在推特上宣布(下图),Cybertruck 将有一个套装,可以变成船,在水里至少开100米。

早先媒体已经确认,Cybertruck 的菜单里面确实有一个"涉水模式"(ward mode)(下图),看来真的可以在水里开。

但是,这个车非常重,很难想象可以浮在水面上,更大可能是溯溪,车轮可以接触到水底。

有的媒体恶搞,猜测马斯克所说的"套装"是一个气垫船的底盘,可以装在 Cybertruck 的下面,还画了想象图。

4、GitHub 贡献墙

有些国外的 HR 招聘人员,会查看求职者的 GitHub 贡献墙。

一篇文章透露,像下图这样的贡献墙,可能会让招聘官留下不好的印象,导致求职被拒。

上图这位程序员,周末两天基本不提交代码,圣诞假期、春假、暑假、秋假也很少提交。

5、绵羊除草

为了保持草坪整洁,除草机是必需的。但是,它的噪音很大,与安宁的环境不太协调。

加州大学戴维斯分校最近引入了绵羊,尝试用绵羊除草,而不是除草机。

最初这只是一个实验,看看绵羊能否替代除草机。但是后来发现,绵羊除了吃草,本身也是一道风景,并具有自然疗法的效果,让人们感到心灵平静。

现在,每天放出羊群到草坪上吃草,已经成了该校的固定做法。许多学生表示,绵羊让他们减轻了压力。

但是,绵羊需要额外的管理。每天早上,运输车将绵羊运入校园,晚上再运回谷仓,这是非常麻烦的,恐怕很难推广开来。

文章

1、为什么手机最后1%的电可以用很久?(中文)

本文介绍手机剩余电量的计算方法。

2、如何在 Windows 删除 Edge(中文)

微软为了遵守欧元区的监管规定,允许该区域的用户卸载 Edge 并移除 Bing。网友找到了变通方法,让非欧元区的用户也能卸载 Edge。(@WFANG12719 投稿)

3、iPhone 允许应用追踪用户(中文)

iPhone 有一个 API,能够获取用户的 WiFi 接入点,从而在用户无感知的情况下对其精确定位,该功能还无法关闭。

4、了解图形系统 X(中文)

Linux 图形环境的底层是 X 图形系统,本文对它进行一个通俗的介绍。(@silaoA 投稿)

5、开源公司的生与死(英文)

一个外国人程序员购买了中国产的 3D 打印机 Bambu Lab A1。他很喜欢这台打印机,感叹中国公司基于其他人的开源软件,做出了更好的产品,威胁到了原始的开源公司的生存。

6、如何用 Node.js 写一个命令行工具(英文)

本文介绍如果用 Node.js 的标准库,不加载任何外部模块,写一个命令行工具。

7、如何拷贝 Windows 不能拷贝的文本(英文)

本文介绍三种方法,在 Windows 拷贝那些无法拷贝的文字,比如窗口面板上的文字(上图)。

8、Firefox 的多账户容器(英文)

Firefox 允许新建容器,在容器里面访问某个网站。这不仅可以保护隐私,还可以同时登录单个网站的多个账户。

工具

1、Score In URL

一个在线编辑和分享乐谱的网站,乐谱保存在 URL 之中。

2、Teamlinker

一个开源的团队协作平台,包含项目、Wiki、日历、会议、聊天和网盘等功能。(@xbdsky 投稿)

3、Rspress

基于 Rspack 的静态站点生成器,内置了 Rust 工具链,性能优秀,上手简单。(@sanyuan0704 投稿)

4、AudioCut

一个 Web 工具,可以自动剪辑音频文件,去除噪音和重复内容,删除选中的单词和句子,适合编辑播客。(@tangpanqing 投稿)

5、Tianji

一个开源工具,网站流量分析 + 业务监控告警 + 服务器监控三合一,三种服务做在了一起。(@moonrailgun 投稿)

7、Memo Card

一个 Web 工具,用来生成文字分享的卡片图。(@ivone-liu 投稿)

8、vocal-separate

一款极简的人声和背景音乐分离工具,将音视频文件分离为单独的人声文件和伴奏文件,完全本地化作业,无需连接外网。(@jianchang512 投稿)

9、DouyinLiveRecorder

一款免费的直播录制工具,支持录制抖音、Tiktok、快手、虎牙、斗鱼、B站、小红书等多平台的直播视频。(@ihmily 投稿)

10、Drawing Prompt

一个文生图的辅助工具,可以自动扩展提示语,将简短的提示(非英语也可以)变成详尽丰富的英语提示,免费且无需登录。还支持生成随机的提示词 tag 组合,并内嵌 Fast SDXL 模型,用于预览效果。(@dongan-beta 投稿)

11、cloudflare-ai-web

通过免费的 Cloudflare Worker,搭建一个你自己的 AI 平台,支持切换多个 AI 模型,试用 Demo。(@Jazee6 投稿)

12、Penumbra

一种配色方案,有明暗两个主题。据说是通过数学计算得到的、最有利于感知的配色方案。

资源

1、计算机科学热门论文(英文)

该网站按照动态排名,列出计算机领域的最新热门论文。

2、黑客新闻电讯

这个网站使用 AI,将"黑客新闻"每天的热点写成一篇篇报道,以后的"内容农场"大概就是这种样子。

3、老式电脑纸模型

该网站提供各种老式电脑的折纸模型下载。

4、Kickass markdown

这个仓库收集各种 GitHub Markdown 技巧,比如显示红底白字(上图)。

5、Hugging Face 课程

著名 AI 平台 Hugging Face 的官方学习频道,目前有三门课程:NLP、深度学习和 AI 音频处理。

图片

1、波浪墙

英国的很多砖墙砌成波浪形。

表面上看,这样既浪费土地,又费工,但是它也有显著的优点。

它采用拱桥的曲面结构,具有更强的抗压力,所以比直墙更牢固,因此它可以修得很薄,比较节省材料。

文摘

1、香农与爱因斯坦

信息论奠基人香农的传记里面,记录了一段他与爱因斯坦的趣事。

博士毕业以后,香农来到普林斯顿高等研究院,爱因斯坦也在那里。

当时,香农只是一个小讲师,而爱因斯坦已经是名满世界的大科学家。

有一次,香农正在研究院给一群数学家上课,教室的后门打开了,爱因斯坦走了进来。

爱因斯坦站着听了几分钟课,然后与后排的一个听课者耳语一番,就离开了教室。

课程结束后,香农匆匆忙忙地赶到教室后排,找到那个与爱因斯坦耳语的人,迫切想要知道这名伟大的科学家对他的讲课内容有哪些评价。

那个人告诉他:"爱因斯坦只是问了洗手间怎么走。"

言论

1、

直到有一天,你意识到了你会死,手头的事情做不完,一切就都发生了改变。从那一天开始,你花费的时间才是真正花出去的时间。

-- 马丁·斯科塞斯,美国著名电影导演,今年80岁

2、

亚历山大大帝建立马其顿帝国后,有一天突然哭了,因为他感到没有更多的世界可以征服了。

-- 古罗马作家普鲁塔克

3、

普通人很难理解天才的思考过程,因为天才一方面很难向他人解释自己的想法,另一方面也不屑于这样做。

-- 乔治·亨利·刘易斯,英国哲学家

4、

专利流氓利用 AI 生成大量想法,然后逐一申请专利,这只是时间问题。

-- Hacker News 读者

5、

作家总是与一张白纸(或一个空白屏幕)进行对抗,通常是白纸获胜。

ChatGPT 的用户总是与一个空白文本框进行对抗,通常是空白文本框获胜。

-- dbreunig.com

往年回顾

真实方位是如何暴露的?(2022 #237)

元宇宙会成功吗(2021 #187)

Slack 被收购,以及企业的技术选型(2020 #137)

新人要为团队写文档(2019 #87)

(完)

留言(73条)

哈哈哈 赛博标记重捕法

100条标记的鱼可以钓到30条,概率是30%,说明湖里的鱼有 100/30% = 300条。突然想到,一篇好的文章不是要告诉读者什么大道理,而是用简单的道理引发读者的思考。

标志重捕法哈哈哈

阮老师,关于“绵羊除草”的新闻,原文的barn不是“谷仓”的意思。很多字典对这个词的解释都是不完整的。barn在养殖业多指畜舍。这里指羊舍。

《牛津高阶第10版》
a large farm building for storing grain or keeping animals in 谷仓;畜棚;仓房

了解X图形系统,感谢阮大收录!

香农传里面的这个小故事,在半拿铁播客也听到,十分喜欢推荐一下

引用ANNAN的发言:

100条标记的鱼可以钓到30条,概率是30%,说明湖里的鱼有 100/30% = 300条。突然想到,一篇好的文章不是要告诉读者什么大道理,而是用简单的道理引发读者的思考。

100/0.3 = 300?
总觉得哪里怪怪的


2023年最后一个工作日,留个名

标记重捕法也要考虑方法偏差, 比如拿蚯蚓去钓鱼, 就只能得到爱吃蚯蚓的鱼的数量, 而得不到食草鱼类的数量

钓鱼这个其实有很大偏差,被吊过一次的鱼很难被吊到第二次,最起码会比没被吊到过的要难。

直到有一天,你意识到了你会死,手头的事情做不完,一切就都发生了改变。从那一天开始,你开始更加焦虑了。
——打工人

按比例算吧100/x=30/100所以x是333啦。

“但是,这个车非常重,很难想象可以浮在水面上,更大可能是溯溪,车轮可以接触到水底。”阮老师不会没听过仰望U8吧。比CyberTruck更重,轮胎不用触底也能水上开,还不用额外装备。比CyberTruck还早量产。

蒙特卡洛方法

引用水云身的发言:

钓鱼这个其实有很大偏差,被吊过一次的鱼很难被吊到第二次,最起码会比没被吊到过的要难。

一般标记重捕法都不是靠钓,而是网捞

卸载Edge,我用的这个:https://github.com/ShadowWhisperer/Remove-MS-Edge,用VSCode的一定要保留WebView

1、封面图太惊艳
2、绵羊除草法 虽然避免了物理污染(噪音),但又引入了化学污染(羊粪味儿)
3、曲面的墙设计 有点像男厕的隔板设计

封面让我想起一位故人

引用水云身的发言:

钓鱼这个其实有很大偏差,被吊过一次的鱼很难被吊到第二次,最起码会比没被吊到过的要难。

有道理,而且计算机生成的随机数很大概率是伪随机,重复出现的概率更高。

2023年最后一个工作日,感谢阮老师一年以来的分享,每周五必看,2024新的一年祝大家顺顺利利、更上一层楼!

为什么编号是 一共有 2^64 种可能?而不是 64^10*16 吗

这个分析视频总数的方法的确很巧妙,方法本身倒是的原理在统计学里面倒是很普通,但是能够把这个转化成常见的统计学思路还是挺有意思的

“科技动态 3、Cybertruck 涉水模式”第2段“涉水模式(ward mode)”的英文应为“wade mode”。

2023年最后一个工作日~

引用杨巨长的发言:

100/0.3 = 300?
总觉得哪里怪怪的


2023年最后一个工作日,留个名

公式:N=M×n/m,所以应该是 100 * (100 / 30) ≈ 333

提前祝大家新年快乐????

很好奇,阮老师的周刊是每天阅读各种文章,然后人工摘录写成周刊的吗?

强如香农也想要知道 知道爱因斯坦在想什么。

引用harrydeng的发言:

为什么编号是 一共有 2^64 种可能?而不是 64^10*16 吗

64^10*16 (2^6)^10 * 2^4 = 2^60 * 2^4 = 2^64
原来结果是一样的


4、

专利流氓利用 AI 生成大量想法,然后逐一申请专利,这只是时间问题。

-- Hacker News 读者

以后专利制度恐怕不是专属天才与研究者的‘利益之油’了

引用harrydeng的发言:

为什么编号是 一共有 2^64 种可能?而不是 64^10*16 吗

有没有一种可能,2^64=64^10*16

提供这么好的内容,每周必看,读起来像一本杂志,非常感谢。

上图这位程序员,周末两天基本不提交代码,圣诞假期、春假、暑假、秋假也很少提交。

这个不一定是负面标签,相反证明这个程序员做事规律,完全不需要靠周末加班来补上进度。如果HR要靠这个评判求职者,那就要警惕这家公司的加班文化了。

怎么每期都有人问 类似 ‘很好奇,阮老师的周刊是每天阅读各种文章,然后人工摘录写成周刊的吗?’ 这种问题,这件事情很重要吗?

直到有一天,你意识到了你会死,手头的事情做不完,一切就都发生了改变。从那一天开始,你花费的时间才是真正花出去的时间。
感觉手头上的事情每天都做不完,想去做点有意义有价值的事情,往往被现实所打压到

手机电量提前显示1%,就是一个加大冗余的设计,我的摩托车油量指针过了红线还可以继续骑几十公里,一样一样的

引用Hopetree的发言:

这个分析视频总数的方法的确很巧妙,方法本身倒是的原理在统计学里面倒是很普通,但是能够把这个转化成常见的统计学思路还是挺有意思的

查理芒格推崇的多远思维模型,使用多个学科的理论去理解一个事物,差不多就是这么个意思。

2023最后一个工作日,㊗️大家2024一切顺利

引用付李珏的发言:

香农传里面的这个小故事,在半拿铁播客也听到,十分喜欢推荐一下

你说的是香农在通信大会上突然出现表演杂耍的段子吗

引用杨巨长的发言:

100/0.3 = 300?
总觉得哪里怪怪的


2023年最后一个工作日,留个名

> 100/0.3 = 300?那确实怪????

引用harrydeng的发言:

为什么编号是 一共有 2^64 种可能?而不是 64^10*16 吗

前面 10 位有 64 个字符可以选择(2^6),最后一位有 16 种字符(2^4),所以所有的排列组合就是 2^(6 * 10 + 4) = 2^64

23年最后一个工作日,感谢阮大周刊陪伴。

引用Leon的发言:

“但是,这个车非常重,很难想象可以浮在水面上,更大可能是溯溪,车轮可以接触到水底。”阮老师不会没听过仰望U8吧。比CyberTruck更重,轮胎不用触底也能水上开,还不用额外装备。比CyberTruck还早量产。

确实, 阮老师可以去了解一下已经上市 仰望U8 原地掉头, 应急浮水, 不怕120码爆胎的黑科技.

引用ANNAN的发言:

100条标记的鱼可以钓到30条,概率是30%,说明湖里的鱼有 100/30% = 300条。突然想到,一篇好的文章不是要告诉读者什么大道理,而是用简单的道理引发读者的思考。

我把这题丢给文心和星火,一个说166.67条,一个说170条

2023年最后一个工作日! 迎接 2024

“直到有一天,你意识到了你会死,手头的事情做不完,一切就都发生了改变。从那一天开始,你花费的时间才是真正花出去的时间。”

这句话我理解的改变是,人总是有极限,你越早清晰地认知到这个极限,通过痛苦的过程完整的接受了不那么完美的自己,找到当下对自己来说真正重要的是什么,并且去做。

感谢周刊的坚持更新和分享~

作者使用五笔输入法……

各位打工人元旦快乐哈,阮老师也元旦快乐!

2024最后一个工作日留个名,祝大家工作稳定,生活愉快

2024要来了,一如既往的爱周刊,爱阮大!

今天这篇最有意思的是言论1,2,3,4

科学有的时候很像神学

----香农

2023 坚持每周都在看,感谢!

一篇文章透露,像下图这样的贡献墙,可能会让招聘官留下不好的印象,导致求职被拒。

这才应该是大部分开发者的贡献墙吧,该工作的时候工作,该休息的时候休息,work life balance。

周末与假期还在开发的人,顶多说明有其他业余时间的项目罢了。

如果这都是不好的贡献墙,那这公司不去也罢。

youtube估计用的是贝叶斯公式,标志重捕也是。

专利流氓利用 AI 生成大量想法,然后逐一申请专利,这只是时间问题。
一切只是时间问题

引用Jax的发言:

2023 坚持每周都在看,感谢!

me too

这个memo card 挺好用的,就是不能调整字体

引用Grace的发言:

有道理,而且计算机生成的随机数很大概率是伪随机,重复出现的概率更高。

只要分布近似于正态分布就可以了,目前的随机函数是可以做到的

算鱼那个,应该是100*70/30=233.3333333

这是我每周最期待的资讯周刊❤️

Youtube的这个估算方法,其实是基于一个假设的。即假设Youtube的id生成方法是完全平均的。

“直到有一天,你意识到了你会死,手头的事情做不完,一切就都发生了改变。从那一天开始,你花费的时间才是真正花出去的时间。”活了很久才领悟到这一点,但是好消息是现在的自己已经是为自己而活了。

冬季易感不幸中招,各位还是多多注意保暖防护。

新年快乐!

香农当时内心也是挺无语哈,问厕所还呆这么久,不急啊

思路真的很重要,YouTube 有多少个视频的答案固然重要
更重要的是思路发现,问题和困难的解决手段~

钓鱼的这个,好像没有考虑一个星期内,新生鱼和死亡鱼

”前十位字符的取值范围是64个值([a-zA-Z0-9_-]),最后的第十一位字符的取值范围只有16个值。这意味着,所有的编号一共有 2^64 种可能“ 这不是一眼就能看出来的啊, 计算步骤是 64^10*16 = 2^60*2^4 = 2^64

大家都这么牛,一眼就看出吗?

墙的部分:凸形的一面确实能更抗压,但是凹的一面则完全不能抗压

Rspack系列感觉已经出现了挺多次了...这个团队营销气氛有点太重了吧

引用kyli的发言:

上图这位程序员,周末两天基本不提交代码,圣诞假期、春假、暑假、秋假也很少提交。

这个不一定是负面标签,相反证明这个程序员做事规律,完全不需要靠周末加班来补上进度。如果HR要靠这个评判求职者,那就要警惕这家公司的加班文化了。

圣诞假期、春假、暑假、秋假很少提交,全是上班时间提交GitHub,拿公司的钱办自己的事,你自己上班时间做开源项目跟公司没有关系

引用二狗的发言:

墙的部分:凸形的一面确实能更抗压,但是凹的一面则完全不能抗压

其实很难定义凸和凹

引用harrydeng的发言:

为什么编号是 一共有 2^64 种可能?而不是 64^10*16 吗

前面 10 组每组有 64 个可能,共 64^10 = (2^6)^10 = 2^60
最后 1 组有 16个可能(2^4)
11 组共 2^60 X 2^4 = 2^64 组可能

如果我们假定,YouTube 一共有10亿个视频,那么你大概猜184亿次,才会猜中一个有效的编号(前提是这些编号为均匀分布)
=====
这个应该是184次吧

引用布莱特的发言:

怎么每期都有人问 类似 ‘很好奇,阮老师的周刊是每天阅读各种文章,然后人工摘录写成周刊的吗?’ 这种问题,这件事情很重要吗?

重要,因为他们觉得他们如果这样也能成为阮老师

我要发表看法

«-必填

«-必填,不公开

«-我信任你,不会填写广告链接