活在枫叶国

 找回密码
 立即注册
查看: 383|回复: 3

AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料

[复制链接]

2万

主题

4万

帖子

12万

积分

论坛元老

Rank: 13Rank: 13Rank: 13Rank: 13

积分
128818
发表于 2024-4-7 11:47:00 | 显示全部楼层 |阅读模式 来自: LAN
8 p% f. W2 N0 O/ R  K  `0 S

  ~. n5 V' H- E+ m# A( m

. i2 ^# W7 A5 b# Y' Y) S. c2 }  种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款、无视互联网信息的使用规则,只为了让自家的产品更加先进一些
5 _/ h0 o' ^. z0 C4 ?  《纽约时报》在本周末刊发的调查报道中,揭露了OpenAI、谷歌、Meta等公司为了获取训练语料所采取的一些“走捷径”措施,同时也展现了整个行业迫在眉睫的困境。
  ?5 i/ b5 E0 X' U; ~0 }$ ~  美国科技巨头各走“捷径”
- ^- H6 [: u7 S0 H  2021年末,正在训练GPT-4的OpenAI遇到了一个棘手的问题,公司已经耗尽了互联网上所有可靠的英文文本资源,而他们需要更多、更大规模的数据来训练更强大的模型。+ y, X" j9 r# ~
  为了处理这个问题,OpenAI的Whisper语音识别工具诞生了——用来转录谷歌旗下视频平台Youtube的视频音频,生成大量的对话文本。
3 k% I( N4 t% h7 ?  报道称,包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频。随后这些资料被输入到GPT-4系统中,并成为聊天机器人ChatGPT的基础。
; y9 r) a  a! h; Q' ?- F# L6 r  根据谷歌的政策,禁止用户将平台上的视频用于“独立”应用,同时禁止通过任何自动化手段(爬虫等)访问其视频。) [( e# {, U' Y8 ~' Y
  有趣的是,在OpenAI偷偷扒Youtube视频时,谷歌也在转录自家流媒体平台的内容训练大模型——同样冒着侵犯版权的风险。正因如此,虽然有谷歌员工知道OpenAI在这么干,也没有出手阻止。因为一旦谷歌对OpenAI提出抗议,也有可能“引火烧身”到自己身上。
1 ]$ w% C: T7 Z9 o; v. ^. @  对于是否采用Youtube视频训练AI的询问,OpenAI方面回应称,他们使用了“多个来源”的数据。谷歌发言人Matt Bryant则表示,公司对OpenAI的行为一无所知,且禁止任何人“未经授权抓取或下载Youtube视频”。不过Bryant也表示,公司只会在有明确法律、技术依据时才会采取行动
- p9 l6 d" O( G# |$ {  谷歌自家的条款,则允许平台使用这些视频开发视频平台的新功能,但这样的措辞是否意味着谷歌能用这些资料开发商用AI,也存在不小的疑问。$ C- T5 C+ x+ G6 S2 q# x
  与此同时,Meta的内部会议纪要显示,工程师和产品经理讨论了购买美国大型出版商Simon & Schuster以获取长文本资料的计划,另外他们还讨论了从互联网上收集受版权保护的内容,并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了”。
) P( l$ H0 V  P  据悉,有Meta的高管表示,OpenAI似乎正在使用受版权保护的材料,所以公司也可以遵循这个“市场先例”
0 F$ l" C4 r- @  更显性的变化是,谷歌去年修改了服务条款。根据内部资料显示,推动隐私政策变化的动机之一,包括允许谷歌利用公开的谷歌文档、谷歌地图上的餐厅评论,以及更多在线资料开发AI产品。最终谷歌赶在美国国庆节(7月4日)放假前的7月1日发布了修改后的隐私条款,将“使用公开信息训练AI模型”首次纳入其中。
( m* s$ q. Z% V9 y  Bryant回应称,公司不会在没有用户“明确许可”的情况下使用他们的谷歌文档来训练AI,这里指的是自愿参与的实验性功能体验计划。
& m, ]  P- `: g  即便如此还是不够9 @( b  }! |; s( h- H
  正因为这些操作,近些年来伴随着人们对AI能力的惊叹,越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭,美国著作权局也正在制定版权法在AI时代的适用指南。( o5 s$ j- U& `7 m
  问题在于,即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”,科技公司用来发展下一代AI的数据依然还是不够。+ U$ z0 F7 c! B# }& o8 _8 G" X
  2020年初,约翰霍普金斯大学的理论物理学家(现Anthropic首席科学官)Jared Kaplan发布了一篇论文,明确表示训练大语言模型用的数据越多,表现就会越好。自那以后,“规模就是一切”成为了人工智能行业的信条。. m  L5 c# b! x$ m2 w# T- Q
  2020年11月发布的GPT-3包含约3000亿个Token的训练数据。2022年,谷歌DeepMind对400个人工智能模型进行测试,其中表现最好的模型(之一),一个名为Chinchilla的模型用了1.4万亿个Token的数据。到2023年,中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token,谷歌PaLM 2的训练数据量则达到3.6万亿个Token。
, _, K8 f' e9 Y' i8 Q0 A8 E  研究机构 Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度,这些公司最快会在2026年就耗尽互联网上的高质量数据。1 O1 F3 D9 h" E! i& l' ^- H6 ?
  面对这样的问题,奥尔特曼已经提出了一种解决方法:像OpenAI这样的公司,最终会转向使用AI生成的数据(也被称为合成数据)来训练AI。这样开发人员在创建愈发强大的技术同时,也会减少对受版权保护数据的依赖。
$ v; |% I, J+ [( A! G" p" }6 s  目前OpenAI和一系列机构也正在研究使用两个不同的模型,能否共同生成更有用、更可靠的合成数据——一个系统产生数据,另一个系统对信息进行评判。当然,这种技术路径是否可行,目前仍存争议。( M6 S9 {; f/ B. B8 X
  前 OpenAI 研究员Jeff Clune认为,这些AI系统所需的数据就像是穿越丛林的路径,如果这些公司只是在合成数据上训练,AI可能会在丛林里迷失。
8 M: Z, d' _; }" o! p, S' A  
' k; s6 l8 L: P, {4 a(文章来源:财联社)
【郑重声明】活在枫叶国刊载此文不代表同意其说法或描述,仅为提供更多信息,也不构成任何投资或其他建议。转载需经本网同意并注明出处。本网站有部分文章是由网友自由上传,对于此类文章本站仅提供交流平台,不为其版权负责;部分内容经社区和论坛转载,原作者未知,如果您发现本网站上有侵犯您的知识产权的文章,请及时与我们联络,我们会及时删除或更新作者。
回复

使用道具 举报

2万

主题

4万

帖子

12万

积分

论坛元老

Rank: 13Rank: 13Rank: 13Rank: 13

积分
128818
 楼主| 发表于 2024-4-7 12:07:00 | 显示全部楼层 来自: LAN
AI语料 开盘领涨
【郑重声明】活在枫叶国刊载此文不代表同意其说法或描述,仅为提供更多信息,也不构成任何投资或其他建议。转载需经本网同意并注明出处。本网站有部分文章是由网友自由上传,对于此类文章本站仅提供交流平台,不为其版权负责;部分内容经社区和论坛转载,原作者未知,如果您发现本网站上有侵犯您的知识产权的文章,请及时与我们联络,我们会及时删除或更新作者。
回复 支持 反对

使用道具 举报

2万

主题

4万

帖子

12万

积分

论坛元老

Rank: 13Rank: 13Rank: 13Rank: 13

积分
128818
 楼主| 发表于 2024-4-7 12:27:00 | 显示全部楼层 来自: LAN
纽约时报
【郑重声明】活在枫叶国刊载此文不代表同意其说法或描述,仅为提供更多信息,也不构成任何投资或其他建议。转载需经本网同意并注明出处。本网站有部分文章是由网友自由上传,对于此类文章本站仅提供交流平台,不为其版权负责;部分内容经社区和论坛转载,原作者未知,如果您发现本网站上有侵犯您的知识产权的文章,请及时与我们联络,我们会及时删除或更新作者。
回复 支持 反对

使用道具 举报

2万

主题

4万

帖子

12万

积分

论坛元老

Rank: 13Rank: 13Rank: 13Rank: 13

积分
128818
 楼主| 发表于 2024-4-7 12:47:00 | 显示全部楼层 来自: LAN
网络安全:迪普科技、深信服
【郑重声明】活在枫叶国刊载此文不代表同意其说法或描述,仅为提供更多信息,也不构成任何投资或其他建议。转载需经本网同意并注明出处。本网站有部分文章是由网友自由上传,对于此类文章本站仅提供交流平台,不为其版权负责;部分内容经社区和论坛转载,原作者未知,如果您发现本网站上有侵犯您的知识产权的文章,请及时与我们联络,我们会及时删除或更新作者。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|活在枫叶国

GMT-5, 2024-11-1 13:26 , Processed in 0.016877 second(s), 34 queries .

Powered by 活在枫叶国

www.canadaasians.com

快速回复 返回顶部 返回列表