活在枫叶国

 找回密码
 立即注册
查看: 390|回复: 3

AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料

[复制链接]

2万

主题

4万

帖子

12万

积分

论坛元老

Rank: 13Rank: 13Rank: 13Rank: 13

积分
128818
发表于 2024-4-7 11:47:00 | 显示全部楼层 |阅读模式 来自: LAN
6 O' B" v) a0 a

6 P- P/ A/ L3 J% }

! T/ T& n1 E* G9 \1 |9 \/ U% X4 G3 G  种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款、无视互联网信息的使用规则,只为了让自家的产品更加先进一些6 S. O) d5 |* }! f; ]
  《纽约时报》在本周末刊发的调查报道中,揭露了OpenAI、谷歌、Meta等公司为了获取训练语料所采取的一些“走捷径”措施,同时也展现了整个行业迫在眉睫的困境。
0 l/ Y5 c/ u1 g  美国科技巨头各走“捷径”
" ?- z+ T0 T) ~7 T- o) t  2021年末,正在训练GPT-4的OpenAI遇到了一个棘手的问题,公司已经耗尽了互联网上所有可靠的英文文本资源,而他们需要更多、更大规模的数据来训练更强大的模型。
, H, d. f- z2 N1 |5 s  为了处理这个问题,OpenAI的Whisper语音识别工具诞生了——用来转录谷歌旗下视频平台Youtube的视频音频,生成大量的对话文本。
: T" o# j* T4 m0 y5 z" @  报道称,包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频。随后这些资料被输入到GPT-4系统中,并成为聊天机器人ChatGPT的基础。
& Y* u( m2 y, H7 {7 N  根据谷歌的政策,禁止用户将平台上的视频用于“独立”应用,同时禁止通过任何自动化手段(爬虫等)访问其视频。
2 e1 p% K8 |8 _  有趣的是,在OpenAI偷偷扒Youtube视频时,谷歌也在转录自家流媒体平台的内容训练大模型——同样冒着侵犯版权的风险。正因如此,虽然有谷歌员工知道OpenAI在这么干,也没有出手阻止。因为一旦谷歌对OpenAI提出抗议,也有可能“引火烧身”到自己身上。
, p& t) b$ x8 b) e8 x: b  对于是否采用Youtube视频训练AI的询问,OpenAI方面回应称,他们使用了“多个来源”的数据。谷歌发言人Matt Bryant则表示,公司对OpenAI的行为一无所知,且禁止任何人“未经授权抓取或下载Youtube视频”。不过Bryant也表示,公司只会在有明确法律、技术依据时才会采取行动* `! m3 ^% s# }4 f, v- u4 v
  谷歌自家的条款,则允许平台使用这些视频开发视频平台的新功能,但这样的措辞是否意味着谷歌能用这些资料开发商用AI,也存在不小的疑问。
2 }! M4 S& P; f: ]: G  与此同时,Meta的内部会议纪要显示,工程师和产品经理讨论了购买美国大型出版商Simon & Schuster以获取长文本资料的计划,另外他们还讨论了从互联网上收集受版权保护的内容,并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了”。
1 |) H$ P1 C  O  据悉,有Meta的高管表示,OpenAI似乎正在使用受版权保护的材料,所以公司也可以遵循这个“市场先例”
+ v+ t" a/ l7 {" m" r6 M" \! S  更显性的变化是,谷歌去年修改了服务条款。根据内部资料显示,推动隐私政策变化的动机之一,包括允许谷歌利用公开的谷歌文档、谷歌地图上的餐厅评论,以及更多在线资料开发AI产品。最终谷歌赶在美国国庆节(7月4日)放假前的7月1日发布了修改后的隐私条款,将“使用公开信息训练AI模型”首次纳入其中。$ U8 h& H3 Q" c6 P
  Bryant回应称,公司不会在没有用户“明确许可”的情况下使用他们的谷歌文档来训练AI,这里指的是自愿参与的实验性功能体验计划。
+ T0 a( f8 q# K7 x; \& P- M+ ~  即便如此还是不够
+ r$ h8 U$ c6 Q$ G# B  正因为这些操作,近些年来伴随着人们对AI能力的惊叹,越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭,美国著作权局也正在制定版权法在AI时代的适用指南。2 X" W, F* y$ A/ Q2 ~
  问题在于,即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”,科技公司用来发展下一代AI的数据依然还是不够。
0 _7 n1 M7 T( A) [; Z  2020年初,约翰霍普金斯大学的理论物理学家(现Anthropic首席科学官)Jared Kaplan发布了一篇论文,明确表示训练大语言模型用的数据越多,表现就会越好。自那以后,“规模就是一切”成为了人工智能行业的信条。
- d& q0 }4 l* h& j7 a( O, X  2020年11月发布的GPT-3包含约3000亿个Token的训练数据。2022年,谷歌DeepMind对400个人工智能模型进行测试,其中表现最好的模型(之一),一个名为Chinchilla的模型用了1.4万亿个Token的数据。到2023年,中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token,谷歌PaLM 2的训练数据量则达到3.6万亿个Token。
- e. z) y5 S! l6 o$ Q  研究机构 Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度,这些公司最快会在2026年就耗尽互联网上的高质量数据。' U$ _1 j( B' a9 b% ^3 R  G
  面对这样的问题,奥尔特曼已经提出了一种解决方法:像OpenAI这样的公司,最终会转向使用AI生成的数据(也被称为合成数据)来训练AI。这样开发人员在创建愈发强大的技术同时,也会减少对受版权保护数据的依赖。) P. L2 E6 Z- w- l. ^' K  ^
  目前OpenAI和一系列机构也正在研究使用两个不同的模型,能否共同生成更有用、更可靠的合成数据——一个系统产生数据,另一个系统对信息进行评判。当然,这种技术路径是否可行,目前仍存争议。8 J) A4 n" |3 W  r, N, J
  前 OpenAI 研究员Jeff Clune认为,这些AI系统所需的数据就像是穿越丛林的路径,如果这些公司只是在合成数据上训练,AI可能会在丛林里迷失。
) W  `- a# i5 d' w( j7 D  + R0 b. W$ Y) Y: ~  M: b
(文章来源:财联社)
【郑重声明】活在枫叶国刊载此文不代表同意其说法或描述,仅为提供更多信息,也不构成任何投资或其他建议。转载需经本网同意并注明出处。本网站有部分文章是由网友自由上传,对于此类文章本站仅提供交流平台,不为其版权负责;部分内容经社区和论坛转载,原作者未知,如果您发现本网站上有侵犯您的知识产权的文章,请及时与我们联络,我们会及时删除或更新作者。
回复

使用道具 举报

2万

主题

4万

帖子

12万

积分

论坛元老

Rank: 13Rank: 13Rank: 13Rank: 13

积分
128818
 楼主| 发表于 2024-4-7 12:07:00 | 显示全部楼层 来自: LAN
AI语料 开盘领涨
【郑重声明】活在枫叶国刊载此文不代表同意其说法或描述,仅为提供更多信息,也不构成任何投资或其他建议。转载需经本网同意并注明出处。本网站有部分文章是由网友自由上传,对于此类文章本站仅提供交流平台,不为其版权负责;部分内容经社区和论坛转载,原作者未知,如果您发现本网站上有侵犯您的知识产权的文章,请及时与我们联络,我们会及时删除或更新作者。
回复 支持 反对

使用道具 举报

2万

主题

4万

帖子

12万

积分

论坛元老

Rank: 13Rank: 13Rank: 13Rank: 13

积分
128818
 楼主| 发表于 2024-4-7 12:27:00 | 显示全部楼层 来自: LAN
纽约时报
【郑重声明】活在枫叶国刊载此文不代表同意其说法或描述,仅为提供更多信息,也不构成任何投资或其他建议。转载需经本网同意并注明出处。本网站有部分文章是由网友自由上传,对于此类文章本站仅提供交流平台,不为其版权负责;部分内容经社区和论坛转载,原作者未知,如果您发现本网站上有侵犯您的知识产权的文章,请及时与我们联络,我们会及时删除或更新作者。
回复 支持 反对

使用道具 举报

2万

主题

4万

帖子

12万

积分

论坛元老

Rank: 13Rank: 13Rank: 13Rank: 13

积分
128818
 楼主| 发表于 2024-4-7 12:47:00 | 显示全部楼层 来自: LAN
网络安全:迪普科技、深信服
【郑重声明】活在枫叶国刊载此文不代表同意其说法或描述,仅为提供更多信息,也不构成任何投资或其他建议。转载需经本网同意并注明出处。本网站有部分文章是由网友自由上传,对于此类文章本站仅提供交流平台,不为其版权负责;部分内容经社区和论坛转载,原作者未知,如果您发现本网站上有侵犯您的知识产权的文章,请及时与我们联络,我们会及时删除或更新作者。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|活在枫叶国

GMT-5, 2024-11-1 13:30 , Processed in 0.016588 second(s), 33 queries .

Powered by 活在枫叶国

www.canadaasians.com

快速回复 返回顶部 返回列表