科技爱好者周刊(第 253 期):训练材料用完之日

作者: 阮一峰

日期: 2023年5月 5日

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。周刊另有《谁在招人》服务,发布程序员招聘信息。合作推广请邮件联系[email protected])。

封面图

这不是美术馆,而是杭州临安三口村的杨梅大棚,沿着山坡堆叠在一起。(via

本周话题:训练材料用完之日

现在的新闻报道,天天有 AI 的新闻,里面会提到很多模型。

分辨模型的强弱,有一个关键指标,就是看它有多少个参数。一般来说,参数的数量越多,模型就越强。

GPT-2 有15亿个参数,GPT-3 和 ChatGPT 有1750亿个,GPT-4 没有公布这个指标,据传比上一代大5倍以上。

那么,什么是参数呢?

按照我粗浅的理解,参数相当于模型预测时,所依据的神经网络的节点数量。参数越多,就代表了模型所考虑的各种可能性越多,计算量越大,效果越好。

既然参数越多越好,那么参数会无限增长吗?

答案是不会的,因为参数受到训练材料的制约。必需有足够的训练材料,才能计算出这些参数,如果参数无限增长,训练材料势必也要无限增长。

我看到的一种说法是,训练材料至少应该是参数的10倍。举例来说,一个区分猫照片和狗照片的模型,假定有1,000个参数,那么至少应该用10,000张图片来训练。

ChatGPT 有1750亿个参数,那么训练材料最好不少于17500亿个词元(token)。"词元"就是各种单词和符号,以小说《红楼梦》为例,它有788,451字,就算100万个词元。那么, ChatGPT 的训练材料相当于175万本《红楼梦》。

根据报道,ChatGPT 实际上用了 570 GB 的训练材料,来自维基百科、互联网图书馆、Reddit 论坛、推特等等。

大家想一想,更强大的模型需要更多的训练材料,问题是能找到这么多材料吗,会不会材料有一天不够用?

我告诉大家,真的有学者写过论文,研究这个问题。

过去10年来,AI 训练数据集的增长速度远快于全世界的数据存量的增长速度。如果这种趋势继续下去,耗尽数据存量是不可避免的。

论文给出了三个时间点。

  • 2026年:用完一般的语言数据
  • 2030年~2050年:用完所有的语言数据
  • 2030年~2060年:用完所有的视觉数据

也就是说,根据他们的预测,大概三四年后,新的训练材料就会很难找。最迟三十年后,全世界所有材料都不够 AI 的训练。

上图是作者给的趋势图,虚线是训练材料的增长速度,红线和蓝线是模型增长速度的不同预测。到了2035年以后,这三根线就合在一起了,曲线变得越来越平。

作者认为,到了那时,由于没有足够的训练材料,AI 模型的发展速度可能就会显著放缓。

如果他的预测是正确的,就意味着,跟大家想的不一样,AI 飞速发展不会持续很久。现在也许就是发展最快的阶段,然后就会开始放慢,等到本世纪中叶就会显著放慢,接近停滞,跟量子物理学的现状差不多。

科技动态

1、车轮转向系统

韩国现代汽车发布了一项新技术,允许每个车轮独立转动90度。

演示视频中,这辆概念车可以横着开,也可以原地调头。

虽然实用性很强,但是该技术增加了车辆的复杂性和成本,对于正常行驶是否有影响也未知。现代汽车没透露,是否会将其投入生产。

2、电脑椅的静电

一位国外网友发帖说,他家的显示器经常莫名其妙暗掉几秒钟,然后又好了。

他原以为是显示器问题,后来发现只有移动电脑椅、或者坐下站起时,才会发生这个故障。

他的电脑椅是宜家的 MARKUS,很多网友回帖说,他们的这把电脑椅也有这个问题。

这把椅子的织物材料或者金属座架,容易带有静电,一移动就会导致放电,使得电脑显示器短时间关闭。

解决方法似乎只有换掉这把椅子,但也有动手能力强的网友,为椅子接上地线,让它通地,从而解决了放电问题。

3、无线耳机的助听作用

一项研究发现,无线耳机可以取代助听器,帮助听力受损的人,

苹果的 Airpods 耳机有一个"实时收听"功能,可以放大外界声音,跟助听器的功能很像,实际效果也很好。

助听器的价格非常贵,好的要几万元人民币,普通的也要几千。无线耳机如果真能替代,将造福很多失聪的人。

4、沙坝蓄水池

韩国为了解决山区在旱季断水的问题,新建了该国第一座沙坝蓄水池。

坝体内部有一个砂石的蓄水池,平时用来蓄水,需要时打开管道,让水流向下游。

这样做据说有三个好处:水的蒸发大大减少;水质在通过沙床时得到改善;冬天的水不结冰。

5、智能婚戒

一家捷克公司推出"智能婚戒",这种婚戒可以感知佩戴者的心跳,并且能将心跳曲线显示在戒指上。

有趣的地方是,它显示的不是自己的心跳,而是对方的心跳。

它通过蓝牙与手机通信,只要佩戴者按压戒指,手机就会联络另一只配对的戒指。

对方的心跳频率,就会传到你的手机上,心跳曲线也显示在戒指上。

发明者称,它让你随时感受到爱人的浪漫心跳。它采用玫瑰金材质,报价是3000美元/对。

文章

1、我的开源经历(中文)

作者分享自己的经历,开发一个图片编辑的网页应用。(@nihaojob 投稿)

2、如何自己实现 CodePen(英文)

CodePen 是著名的网页实时编辑预览工具,本文教你怎么实现它的主要功能,非常简单。

3、tcpdump 快速上手(英文)

作者教你怎么使用 tcpdump 这个命令行工具,查看某个网站的 TCP 通信。

4、WebGPU 为什么重要(英文)

操作系统的图形 API,目前是不统一的:Windows 是 DirectX,苹果是 Metal,Linux 是 Vulkan。

WebGPU 是一种跨平台的解决方案,提供了统一的接口。推荐这篇长文。

5、我开发 PCalc 的30年(英文)

作者在1992年为 Macintosh 电脑写了一个计算器 PCalc(上图)。后来,他一直维护这个项目30年,还把它移植到苹果公司的其他设备上,比如 iPhone 和 iWatch(下图)。作者回忆了他这30年。

6、使用 hurl 自动化 HTTP 测试(英文)

本文介绍一种简单的方法,使用 hurl 这个软件,对网站 API 进行自动化测试,看它是否正确响应。

7、编程语言的错误处理机制(英文)

本文讨论不同的语言如何处理报错,比如 Java 会抛出异常,而 Go 将错误赋值给一个变量。

这里还有一篇相同主题的文章,也值得参考。

8、疯狂的 C 语言字符串(英文)

本文是 C 语言的字符串教程,从结尾的\0讲到 Unicode,结论就是在 C 语言里面,正确处理字符串是一件多么麻烦的事情。

工具

1、stagit

这个软件可以将 Git 仓库转为一个静态网站,为每个文件、每次提交生成一个页面。

2、元标签生成器

很多社交媒体对于外部 URL,会显示一个卡片,上面有标题、缩略图和页面简要内容。这些信息来自网页里面的元标签,这个工具可以帮助你生成这些元标签。

3、CJK 字体识别

上传一张东亚文字的图片,这个开源工具可以识别这些文字用了什么字体。(@JeffersonQin 投稿)

4、microblog.pub

一个自托管的开源微博网站,只能一个人使用(即没有多用户),支持 ActivityPub 协议。

5、Textual Markdown Browser

一个终端窗口的 Markdown 文件渲染器,适合用来在终端下阅读 Markdown 文件。

6、HorusPass

这个网站为用户输入的文本,生成一个用于分享的 URL。但是,这个 URL 只能打开一次,第二次访问就会不存在,有点像"阅后即焚"。

7、Progress-up

一个带有上传进度显示的网页多文件上传 JS 库。

8、snappify

一个将代码片段生成截图的工具。

9、RustDesk

一个开源的远程桌面软件,让你远程操作其他电脑的桌面,有各种操作系统的客户端。

10、LosslessCut

一个视频编辑器,最大特点是不进行重新编码,按照原视频的格式进行剪切连接,因此速度极快。

资源

1、面向开发人员的 ChatGPT 提示工程

吴恩达与 OpenAI 合作的免费英文课程,教大家怎么编写 ChatGPT 提示,做出一个自己的聊天机器人。

2、Next.js 和 React 完整指南

Udemy 高分付费课程的中文字幕版。(@lyf61 投稿)

3、图解 QUIC 连接(中文版)

解释 QUIC 协议通信的每个字节的含义,原始英文版的翻译。(@cangSDARM 投稿)

4、Musico

一个自动生成音乐的 AI 模型,它的官网可以收听这个模型生成的音乐。

图片

1、云的表情

一位美国艺术家专门为各种云的照片,添加表情,使得云看上去像一个卡通人物。

他原本只是出于无聊,随手拍了一些云的照片,画上表情以后,发到网上。

后来,他发现很多人喜欢这些作品,就坚持了下来。

他说:"看着云,你会产生无穷无尽的灵感。"

现在,越来越多的读者向他投稿。他还准备出书。

文摘

1、忙碌的七个层次

生活的忙碌可以分成七个层次。

大家可以对照一下,自己属于哪个层次?

第 1 级:一点不忙。

时间很自由,怎么安排都可以,没有一定要去完成的事项,周末想睡多久就多久。

第 2 级:有一些小事。

你记得有一些事要做。这些事情是合理的事项,没有截止期,但是你知道这些事迟早要做。

第 3 级:有一些重要的事。

你有必须要做的事情,需要及时跟踪,不能拖延,你会时刻提醒自己这些事情。

第 4 级:日程排满了。

你的日程排满了,不得不经常问自己"什么事情更重要?",以便决定先做哪些事,后做哪些事。

你没有计划外的时间,不过你还能控制日程。

第 5 级:生活出现混乱。

你的事情在工作时间做不完,你开始加班了。

你经常因为事情来不及,而对别人说"对不起"。那些事情并没有被你放弃,只是你不得不赶时间,有些事情执行变得草率。

第 6 级:任务做不完。

你需要做的事情,超过了你安排日程的能力。即使放弃某些事情,你依然做不完剩下的事情。

你的工作时间大大延长,影响到正常生活。你感到非常疲劳。

第 7 级:日子过不下去。

各种任务塞满了你醒着的每一分钟。吃饭和其他生活必需的事情,都是抽时间来做。你忙起来的时候,甚至饭也没时间吃。

你不写日程安排了,因为根本没有时间做计划,每个小时情况都在发生变化。

你走路也心不在焉,常常觉得要崩溃,日子过不下去了。

言论

1、

我离开谷歌,是为了呼吁 AI 的风险,在谷歌任职不方便谈论这些事情。

-- "深度学习之父"杰弗里·欣顿(Geoffrey Hinton),宣布从谷歌辞职

2、

欧洲的问题是,没有将互联网视为可利用的经济机会,而是看成需要监管的对象。

-- 《欧洲没有准备好成为"第三超级大国"》

3、

大多数人都认为,手下的人比自己聪明,是没有问题的。一般来说,领导人都要聘请比自己聪明的顾问和幕僚。

那么,当你的手下变成了比你聪明的 AI 模型时,人们为什么会感到受威胁呢?

-- Yann LeCun,Meta 首席 AI 科学家

4、

要成为优秀程序员,请编写大量代码;要成为顶级程序员,请阅读大量代码。

--《请编写 CRISP 代码》

历史上的本周

如何走出失望和怀疑(2022 #206)

显卡缺货与异业竞争(2021 #156)

数字游民(2020 #106)

文科生为什么不容易就业?(2019 #56)

鸣谢

周刊得到国内新一代知识管理与协作平台 FlowUs 的帮助,深表感谢。

FlowUS = 文档 + 表格 + 网盘。你可以用它写文档、做主页、管理数据、存储文件等等。

每一期周刊同时发布在 FlowUs 专栏,欢迎大家也去开通自己的专栏和主页。

(完)

留言(35条)

阮老师,《2、元标签生成器》这个链接是404.打不开的

严乐春的问题很好回答啊。「那么,当你的手下变成了比你聪明的 AI 模型时,人们为什么会感到受威胁呢?」 因为手下是人,当产生威胁时可以解雇掉他甚至可以解决掉他,他的工作也可以交给其他人来负责。而手下是AI模型的话,产生依赖后再不用的话无法把工作交接给人类,而且也无法解决掉AI,而且AI也没有家人孩子这些软肋。

'您使用了广告拦截器,导致本站内容无法显示。

请将 www.ruanyifeng.com 加入白名单,解除广告屏蔽后,刷新页面。谢谢。'

我觉得这个设置增加了访问障碍,没有必要。

谢谢您的分享。

"大多数人都认为,手下的人比自己聪明,是没有问题的。一般来说,领导人都要聘请比自己聪明的顾问和幕僚。

那么,当你的手下变成了比你聪明的 AI 模型时,人们为什么会感到受威胁呢?"

因为手下的人会说这个功劳是领导有方,AI会说“对,这是我自己的功劳”

凭什么认为AI是你的手下,对大部分人来说AI可能是你的领导,你的监管,你的法官...

模型参数量和训练数据集大小没有关系。数据集所代表的学习空间与模型参数量才有着强相关关系。

如果task的学习空间较大,则需要较大的学习能力,即更多的模型参数。反之亦然。
以图像识别中区分猫狗为例,task所需学习空间较小,训练一个很小(100K)的网络就可以拟合,如果条件允许,我完全可以使用10亿,100亿张猫狗图片去训练。

可以让AI自己与自己对话...

训练数据集大小与模型参数量没有关系,数据集所代表的学习空间和模型参数量(学习能力)才有关系。阮老师混响概念了。

这周内容有点少

汽车那个可以看一下仰望 U8, 很强.

AI 未来是什么样子很难说,可能还会有理念上的飞跃性突破,可能就这样的模式继续修修补补勉强用。

人学写作只要看一点范文就可以了,而大语言模型需要数以亿计的数据量,但目前也只到这个程度。数据量已经没法指数级增加了,所以想要搞更大规模也就是几倍的规模了,几倍的数据量也许只能带来很小的提升。

之前 OpenAI 的 CEO 说,现有研究策略已经失效,未来的AI进步需要新的思路。巨型 AI 模型时代即将终结,后面如何发展还不知道。

----------------------------------------------------

现在的 AI 感觉就像是人工调试出数亿个对话模式,然后根据匹配概率填上对应内容去套。因为数据量很大,所以什么都能扯一扯,不是那么容易发现机械性的重复。

某种程度上来说,这些模式其实是那些资料上汇集的人的智能,机器主要是统计下使用概率。

人类有史以来存量的对话模式大概也就这么多了,后面还会有新创的对话模式,但增量的对话模式是缓慢增加的,那么大语言模型的能力大概也只能慢慢增加了,如果没有理念性改进,可能很长一段时间就是现在这回答水准了。

至于未来的方向,目前还没看到,还没有看到谁提出新思路。

悲观点说,AI 可能会像早期那样陷入长期停滞,直到计算机技术先出现根本性改变。生物计算机、量子计算机什么什么的,看这些东西能不能搞成。

威胁人类的不是ai,而是控制ai的组织和团体。
他们控制着普通人无法触及的资源和技术,当普通人无法通过劳动换取资源的使用权利,个人武力也无法影响到他们时,也许代表着新物种的分化,不仅是知识量的多少、外貌的不同,甚至是身体结构(大脑神经系统,器官)的不同。
那时,新人类不会对旧人类产生多少同情心,就像人类面对宠物狗,小白鼠一样。如果技术可以达到,人类可以出租他们独一无二的记忆、感觉(这与神经元相关),他们的记忆可以被侵入,复制,修改,分发。人们可以选择活在梦里,创造自己的梦,感受别人的感觉。
我希望每个人都有离开的自由,自己的或者共有的飞船,独自一人或者一个群体,可以自由的离开地球、离开太阳系。

引用ixx的发言:

"大多数人都认为,手下的人比自己聪明,是没有问题的。一般来说,领导人都要聘请比自己聪明的顾问和幕僚。

那么,当你的手下变成了比你聪明的 AI 模型时,人们为什么会感到受威胁呢?"

因为手下的人会说这个功劳是领导有方,AI会说“对,这是我自己的功劳”

想起了之前有财务人员说过:AI不会替老板坐牢,所以AI不会取代我

引用江湖人称向前兄的发言:

阮老师,《2、元标签生成器》这个链接是404.打不开的

https://metatags.io/ 类似的

“作者在1992年为 Macintosh 电脑写了一个计算器 PCalc(上图)。后来,他一直维护这个项目30年,还把它移植到苹果公司的其他设备上,比如 iPhone 和 iWatch(下图)。作者回忆了他这30年。”
没有 iWatch,只有 Apple Watch。

人类,硅基文明的引导程序

模型的参数量和数据集所代表的学习空间有关,而且模型参数量最主要的限制来自模型本身的设计。2012年,AlexNet提出之后,大家发现增加模型深度可以带来更好的效果,但增加到一定程度就会造成神经网络退化问题。2015年,Kaiming提出了ResNet,残差结构的引入使得大家又可以大幅度增加模型深度。但目前CNN的规模已经达到上限了,Transformer架构使得人们又可以继续通过堆参数,堆数据来获得更强的智能。等到未来即使Transformer架构模型的规模也到达上限,人们可能会找到新的架构。总的来说,深度学习依然是一门比较年轻且潜力无限的科学。

阮老师,我写了个移动web组件库,如果能进你的周刊将是我的荣幸,也希望更多人参与。https://github.com/dufu1991/stdf

许久没逛招人帖子,发现如今多了很多毛遂自荐的网友,感慨一下大环境的变化。

引用baiyuan的发言:

'您使用了广告拦截器,导致本站内容无法显示。

请将 www.ruanyifeng.com 加入白名单,解除广告屏蔽后,刷新页面。谢谢。'

我觉得这个设置增加了访问障碍,没有必要。

你加入白名单就好了,别人辛苦整理的内容,自己看点广告怎么了。

我问了GPT4 以下是它的看法

确保未来有足够的数据支撑AI模型训练是一个复杂的挑战。以下是一些建议和看法:

数据共享和开放访问:鼓励跨组织和跨行业的数据共享,以便更多的训练数据可供AI模型使用。同时,支持开放访问的数据集,让研究者和开发者能够更容易地获取到训练所需的数据。

多模态数据和迁移学习:通过利用多模态数据(如文本、图像、音频和视频等),可以让AI模型在更丰富的数据源中学习。此外,迁移学习技术可以让模型从一个任务或领域中学到的知识应用到其他相关任务,从而减少对新训练数据的需求。

生成模型和数据增强:利用生成模型(如GANs)创造逼真的训练数据。同时,数据增强技术可以通过对现有数据进行变换(如图像旋转、翻转等)来增加数据量,从而提高模型的泛化能力。

有效利用现有数据:开发更高效的训练方法,以便在有限的数据下实现更好的模型性能。例如,使用半监督学习、自监督学习和强化学习等技术来减少对大量标注数据的依赖。

模型压缩和参数优化:通过模型压缩技术(如知识蒸馏和网络剪枝)减小模型的规模,降低对参数数量的需求。同时,开发更优化的参数算法,使模型在较少的参数下仍能保持良好的性能。

伦理和法律框架:制定合适的伦理和法律框架,以确保数据的收集、存储和处理过程符合隐私保护和数据安全的要求。

虽然确保未来有足够的数据支撑AI模型训练是一个长期挑战,但通过采取这些措施,我们可以朝着更可持续的AI发展方向努力。

数据集耗尽确实代表AI将减缓进步
但是不要忘了GAN
文中提到的Musi-co.com就利用了GAN

另外参数量只和模型复杂度有关,
参数多就能拟合更复杂的东西.

显而易见的是,情况越复杂,越需要更多样本.
也就是说,AI也许无法涉足知识少而复杂度高的领域

我C,LosslessCut巨好用

“大多数人都认为,手下的人比自己聪明,是没有问题的。一般来说,领导人都要聘请比自己聪明的顾问和幕僚。”

确实,前几年“招聘比自己更优秀的人”这种招聘标准总是有人提及。诚然,企业总是希望能与更优秀的人共事、同行,团队竞争能力更好,企业最怕的是招不到优秀的人才,导致公司的竞争力不上不下、一潭死水。可实际情况是,如果招进来的人比管理者更优秀,管理者又没能放权、可能还遮遮掩掩所谓“不可替代性”,那怎么服众?最后这些优秀人才往往就流失了,剩下的有感于“想做一件事太难”就摆烂了。这其实是一个管理问题,花很多的人力成本、组织资源去录用优秀的人,却不解决他们遇到的实际问题,指望着光引入资源、堆人力就能解决所有问题,这其实懒于管理,也是傲慢。

@ixx:

因为管理者的利益与组织的利益不一致,领导总是优先先考虑自己

哈哈,我的电脑就是后面人一起来就息屏了,几秒又开了.... 还在纳闷咋回是。。。

引用ThinkStu的发言:

可以让AI自己与自己对话...

这存在很大的隐患

当我知道chatgpt也需要那么多材料来训练时,我瞬间失落了。
说好的智能呢,不还是让人喂饱的吗?

ai自己生成文章或图片自己学习,或者不同的ai生成交叉学习,能学出个啥东西来

训练材料用完之日 ----- 不会来!
AI训练后也会创作,而且创作速度比人类快多了。

引用AI的发言:

训练材料用完之日 -----不会来!
AI训练后也会创作,而且创作速度比人类快多了。

不知道材料训练完的日子会不会来
但现有AI技术发展的瓶颈一定回来,甚至有可能是像基本粒子寻找一样,中间有一个巨大的能级荒漠难以逾越
毕竟现在的AI技术基础只是一块巨大樱桃蛋糕上的一枚樱桃

引用江湖人称向前兄的发言:

阮老师,《2、元标签生成器》这个链接是404.打不开的

另外来一个
https://www.seoptimer.com/meta-tag-generator

如果都用AI之后
哪一天AI犯错了怎么溯源
人犯错都难溯源
AI犯错之后甚至复议都难
“AI是不会犯错的”
人们面对的都是AI中间层
却想不到真正被影响到的人的表情

现在的AI不是让他干什么才干什么嘛 不想让他做的事情不给他模型就可以了吧,是不是人们把AI变成人类的假想敌了,目前有AI自主做什么事情的案例嘛

训练的材料是错误的,会如何?

我要发表看法

«-必填

«-必填,不公开

«-我信任你,不会填写广告链接