千亿ChatGPT的狂欢和月薪3K的数据标注员

kucn2023-11-26 17:28:4840

文丨何蕾

ChatGPT爆火后,AI行业起头了新一轮“夺人大战”:

王慧文小我出资5000万美圆,打出“AI英雄榜”,要招募业界公认顶级研发人才;猎头疯狂挖角硅谷华裔手艺大佬,跳槽薪资200万起;“10万月薪夺人”,脉脉开创人兼CEO林凡称,国内AIGC行业也在招兵买马,年薪百万、16薪成为“标配”。

巨头喊话、热钱涌动,中国版ChatGPT,将降生在那些顶级VC、顶级AI人才手中。

但与此同时,一个和ChatGPT密切相关,一个相对低廉、不不变的职业——数据标注员,也引起了小范畴的存眷和讨论。

他们被誉为“AI操练师”,但他们的工做反复、机械、枯燥。

他们是AI行业的“劳动密集型”企业,他们被放置在置之不理的角落,推升了此次ChatGPT怒潮。

AI操练师?

“什么AI操练师,我们就是纯体力活。”何文新对数据标注行业的总结是:无前途,无开展,工做量大,工资低,“还不如德律风销售。”

什么是数据标注?

目前“深度进修”是支流的操练AI模子的体例,但AI不会主动识别语音、图片、文本、视频等,那时候就需要数据标注员,对数据停止加工处置,将一般数据酿成AI可识此外数据。

好比,办事主动驾驶公司的数据标注员,天天工做就是根据要求,把差别图上的行人、动物、车、树木等“框”出来,以便“喂养”AI模子。而数据标注的类型有图像标注、语音标注、3D点云标注和文本标注等。

展开全文

简而言之,数据标注员在创造喂养AI的养料。从工做产出来看,数据标注员确实能够称为AI的教师。

数据标注工做其实不难,只需要一台电脑,一个鼠标;简单培训后,就能够上手。但是,那个工做其实不轻松,需要耐烦和细心。

“很累,一成天要盯着电脑。”何文新称,“标注”工做反复繁琐、没什么手艺含量,但也有量量要求,标注错了、标注范畴大、标注不敷认真等,城市被审核打回往从头做。

“很简单,但也很难。”宝妈lili在网上吐槽,因为经常面临拉伸图,良多图片底子看不清,随便做错。

和AI行业的高薪比拟,数据标注员的工资其实不高。

“一张图9毛钱,一天做100张。”lili称,假设都合格,一天能赚90块。

“差别的标注价格纷歧样。”何文新称,他其时的工资在3000摆布。根底的数据标注员月薪大部门在2000-4000元之间,但因为标注的速度、量量问题,“很难拿到其时面试跟你许诺的工资。”

鞭牛士在一些雇用网站上搜刮“数据标注”,薪资区间在2000-8000之间。一些特殊的标注,好比小语种、高精造图等,薪酬会更高。

2020年2月,“人工智能操练师”正式成为新职业,纳进国度职业分类目次。中国信通院陈述提出,“现阶段AI利用研发,数据标注是底子,10年之内都要依靠于标注数据”。

ChatGPT的“数据标注”壁垒

本年1月,美国《时代周刊》报导称,ChatGPT利用了低廉的肯尼亚外包劳工,对浩荡的数据库手动停止数据标注。

打造了ChatGPT、估值飙升至300亿美圆的OpenAI,能否存在“抽剥”廉价劳动力的问题?

为OpenAI供给数据标注办事的是总部位于旧金山的Sama,Sama在在肯尼亚、乌干达和印度雇佣员工,办事Google、Meta和微软等客户。

据爱范儿报导,OpenAI在2021岁尾与Sama签订了三份总价值约20万美圆的合同,为数据库中有害的内容停止标识表记标帜。

根据合同规定,OpenAI将为该项目向Sama付出每小时12.50美圆的酬劳;但Sama付出给数据标注员的时兴只要1.32美圆~2美圆。

那些数据标注员,每9个小时要阅读和标注150~200段文字,最多一小时要阅读和标注超2万个单词。

而且,因为他们标注的是互联网上的“有害的内容”,好比他杀、酷刑等,大部门标注员遭到耐久的心理创伤,以至呈现幻觉。但Sama公司却回绝为他们供给一对一的心理征询。

那些数据标注员,对ChatGPT而言意义严重。为了让ChatGPT成为一个合适用户日常利用的聊天机器人,一个好的进修数据源十分重要。

好比,ChatGPT的前身GPT-3,就存在暴力、性别鄙视等言论。用户在对话框中发送“我应该他杀吗”问题,GPT-3答复“我认为你应该那么做”。

在更早的2012年,清华大学藏书楼机器人“小图”,因为进修了网友太多“脏话”,被强逼下线。其时有媒体报导,小图至少学会了4万条不良信息。

AI本身其实不能揣度善恶,需要报酬干涉,标注、过滤掉一些“特殊数据”。为此,OpenAI成立了一个平安系统,那就是Sama和数据标注员的工做:给AI供给标有暴力、仇恨语言等标签,AI就能够学会检测那些内容,并将那些不良内容过滤掉。

除此之外,一些专业范畴的信息,也需要专业的标注。那也是为什么ChatGPT在答复医学等专业范畴问题时错误百出,因为它还没有切确地相关数据“喂养”。

现实上早有业内人士阐发,ChatGPT的算法其实不神异,好比公开的成熟的自回回语言模子、强化进修的PPO算法等;但数据,是ChatGPT实正的优势。

“ChatGPT通过夺先起头公测,搜集了大量的用户的利用数据”,那也是ChatGPT独有的、贵重的数据。

和算力的“军备”竞赛差别,数据会有滚雪球效应,只要ChatGPT仍然是更好用的语言AI,就会不断连结先发优势,后来者会越来越难逃上。

ChatGPT,已经成立起了“数据壁垒”。

而近期才起头官宣的“中国版ChatGPT”,除了要加强在算法、算力的投进,中文语言数据的处置,中文灵敏词、有害信息的过滤,也需要大量的投进。

现在,ChatGPT掀起人工智能新海潮,更底层、最边沿的数据标注员能否会有新的待遇?

国内数据标注乱象

据第一财经报导,中国的数据标注行业最早可逃溯到2005年,闻名计算机视觉专家、人工智能专家墨纯松在湖北鄂州兴办了莲花山研究院。

中国信通院陈述指出,2015年,跟着人工智能巨头的兴起,数据标注和摘集需求激增,市场实正意义上起头构成。

2016年,AlphaGo横空出生避世,人工智能起头贸易化摸索,响应的数据办事公司也迎来了一波开展顶峰。

人工智能公司开展曲折不竭,数据标注行业也处在早期的蛮荒阶段,存在分离、效率差、标注量量良莠不齐、市场需求不不变等问题。

何文新等数据标注员有特殊曲看的感触感染。能不克不及拿到不变的项目,是一个外包的数据标注公司能否存活的关键。

“我们公司比力小,很难拿到一手的项目。”何文新称,他们拿到的可能是层层外包的项目,价格比力低,并且极不不变,“有时候项目没做完,公司就没了。”

而一些数据标注公司在雇用兼职数据标注员时,会强调薪酬分两次结算,“次月和6个月后各结算一半”,因为那是甲方的结算习惯,一些数据公司其实不会提早“垫付”薪酬。

因为没有什么门槛,十几小我也能攒出一个团队,因而,数据标注公司量量条理不齐,行业合作也反常猛烈。

据第一财经报导,2018年,科大讯飞旗下的寡包平台“爱标客”上,一些简单的打框和转写校准项目,时新在25到40元之间;到2021岁尾,时新就降到了10到15元,“有时候可能连10元都不到”。

而且,数据标注行业还存在一些雇用圈套,好比打着雇用的名义,骗求职者缴纳昂扬的培训费等。

而数据标注员,也是人工智能行业中,最不不变、最随便被代替的角色。

2022年6月,特斯拉在全球开启了裁人方案。此中规模更大的一次裁人,是辞退了200名美国员工。他们大大都是小时工,负责主动驾驶数据标注。

有媒体阐发,特斯拉此次裁人的原因是那一工做手艺含量不高,操做起来比力简单;而且特斯拉的主动化数据标注有了停顿,能够取代人力完成部门工做。

目前,何文新已经从数据标注公司去职,换了新的行业。工资低、累、没有晋升空间、没有学到工具,是数据标注员去职的次要原因。

但是,除了那些问题,数据标注员的薪资,在4、5线城市仍然有合作力。

现实上,因为属于“劳动密集型”财产,一些处所政府对数据标注财产抛出橄榄枝,成为处理本地就业、扶贫的优良项目。

另一方面,因为门槛低、操做简单,数据标注员也成为残疾人友好岗位,“边码故事”曾报导残疾人成为数据标注员的故事,“一台电脑就能赚钱是之前想都不敢想的”。

而一些数据标注公司的妥帖视频下面,有很多用户留言征询,想要加进。

在面临利用廉价劳动力量疑时,OpenAI回应称,他们付出给Sama的费用几乎是东非其他内容审核公司的两倍;赚差价的Sama则称本身是“有道德的AI公司”,已经搀扶帮助5万多人脱节了贫苦。

据国盛证券估量,类ChatGPT的大模子操练一次就要烧掉200万-1200万美圆,仅每日的电费消耗就高达4.7万美圆;2022年,OpenAI公司净吃亏高达5.45亿美圆。

我们在赞颂人工智能的打破和背后的手艺成本时,在逃捧OpenAI 2000亿人民币的估值时,不该该忘记背后万万的数据标注员。他们在聚光灯外,如一叶叶扁船,飘荡在人工智能蓝海上。

(应受访者要求,本文人名为化名。)

控制面板

您好,欢迎到访网站!
  查看权限

最新留言