人工在前,智能在后!AI背后竟是一座座“血汗工厂”

技术 发布于:2021-02-10 21:49:16

阿强是一名富土康工厂流水线上的技术员,每天重复着同样的动作,已经20多岁的他,已经在富土康的流水线上奋斗过数百个日夜,日复一日重复的工作让这位年轻人觉得有些腻了。

有一天,阿强在家附近的招工栏上看到了一家人工智能公司的招聘广告,说要招聘“人工智能培育师”,阿强心想:人工智能听着这么高大上,怎么都比现在的工作强。他毅然放弃了现在的工作,如愿地成为了一名人工智能培育师。

让他没想到的是,他的工作内容依旧机械且重复。这时候,阿强终于明白,他不过逃离了传统的“血汗工厂”,投身到了新时代的“血汗工厂”当中去罢了。

阿强问:

人工智能不应该是顶着光环高大上的科技技术么?为何我堂堂一位“人工智能培育师”过得如此之苦?

(以上故事纯属虚构,如有雷同,纯属意外)

人工在前,智能在后

人工智能(英语:artificial intelligence,缩写为AI)亦称智械、机器智能,指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术。该词也指出研究这样的智能系统是否能够实现,以及如何实现。

以上这段文字来自维基百科给该词条的定义,听起来有些拗口,但其实不外乎“人工”与“智能”两个部分,而且一定不是智能人工,而是人工在前,智能在后。如果在说白一些,就是人类教会机器学习,教会它如何像人类一样认知世界并完成安排的工作,训练机器,革自己的命。但实现这美好的光景之前,要完成的是漫长的“教学任务”。

《终结者》就描绘了一个AI差点把人命都革掉的故事

让机器达到我们所谓的人工智能的高度,需要大量的前期准备工作,在AI界里,我们将这项工作称为训练,而这个训练需要大量的数据来完成,而这道工序,则是标准的劳动密集型产业内容,你会看到美称“人工智能培育师”的他们整齐划一地坐在电脑前,为了多给几个图像作归类与识别,进入无穷无尽的加班中来。

教机器学习比教孩子还难

教孩子学习,那是社会上公认的一等一难题,在路上随机采访老母亲们,她们大多会告诉你曾有过因教孩子学习而被逼疯的经历。

要教有血有肉,且天生自带学习能力的小神兽们尚且如此困难,更别说去教会一堆与沙子同源的硅化物如何去思考。

 

回想起我们三岁时是如何认识这个世界的,不就是父母长辈重复一次又一次地往你脑中灌输理念,不厌其烦地告诉你,这是苹果,这是钢笔,这是小狗,这是特斯拉……聪明的孩子对事物的识记有些通过一次感知后就能达到,而大部分内容则需要通过反复感知,使新的信息与人已有的知识结构形成联系。

当形成联系后,下一次这个小孩再看到符合苹果特征的事物,就会记起这是苹果,看到符合小狗特征的小动物,就会想起这是小狗,看到简约(lou)的内饰和不算太严丝密缝做工就能想到是特斯拉的车。

以时下流行的美颜APP为例,你要让手机正确识别所拍摄对象是个人,且准确知道在何处应该进行美化,如何将各种猫耳朵之类的装饰与照片中主角完美地合二为一,这样一个看似简单的功能,整个的流程下来也足够让你抓狂。

在人眼里,人脸的区域划分明确,你能清晰分辨

在机器眼里,人脸其实就是数以百计个点,脸的边缘、眼眶、鼻子、嘴唇……都用标注的点用以区分,具体的操作与Photoshop里的套索工具类似,点位设置越多,精确度越高。

另一方面,虽然每个人都长着一张脸,但有人帅似小李子,也有挫像伏地魔,你要让机器在面对各种脸型、动作之下都能准确识别脸部位置,机器起码需要在人工带领之下进行几万甚至几十万张人脸照片的点位学习。

道理也相当简单,给机器学习样本越多,做出来的模型自然越精确。就像在高考前你做过的习题类型越多,高考自然就更得心应手。

这里就催生了前文提到的“人工智能培育师”或者“数据标注师”的工作种类,他们的工作内容就是帮助机器学习,机器要认脸,你就要在有人脸的照片中将人脸区域标注出来,又或者直接用打点的方式将脸的各个元素“抠出来”,任务的难度不同给到的报酬也有差异。

他们大多采取计件方式计薪,最简单的标注人脸区域,这工种大概市场价在几分钱一张图的样子,一天需要完成数千甚至上万张图才能保证有较为可观的收入。

越来越多像阿强一样的年轻人,投身人工智能行业,成为一名数据标注师,早在2018年,我国数据标注与审核行业市场规模已达到52.55亿元。

在河南和贵州等地,甚至建起了大大小小的“AI村”,让不少年轻人不用再离乡背井,找到一份没有太多学历限制,培训即可上岗的工作。

但这不就和当年建起的一座座血汗工厂十分相像么?

汽车与AI

要实现高级的自动驾驶,标注员的工作那可是少不了。

提到人工智能和汽车,想必不少人第一时间想到的会是自动驾驶,其实自动驾驶确实也是人工智能最经典的使用场景之一,要想完成程度较高的自动驾驶,其实要做的同样也还是那老几样。

自动驾驶

如分类、拉框、区域、描点等等。

以特斯拉那套视觉识别方案为例,不就是让它识别出路上的各种标线、信号灯、标识……这样想来和美颜类APP上要做的事其实没有两样,不过需要标注的信息更加多,要求的准确程度更高罢了。

分类标注也就是俗称的打标签,标注师将采集到的画面里显示的信息进行分类,比如限速标志、各类车道线、出入口标志等等,都需要人为进行数据分类,这样后期才可以对此进行处理。

拉框标注,主要应用于图像和视频领域,对机器来看,每一帧的画面其实都是一个平面,标注员就要将画面内的各个有用信息框起来,这个区域是路牌,这个区域是隧道……

区域标注,准确标注出区域的范围,比如自动驾驶中行车道、路面的范围等等。

描点标注,这是所有标注项目中精度最高的一个,在不同图像上进行大量的描点,有有助于机器进行对比识别。

AI与人工驾驶路还长

人工智能其实并没有大家伙想得那么的难以触及,也不是什么供在神坛上的神秘科技技术。现在人工智能大部分还处于弱人工智能阶段,距离终结者和哆啦A梦诞生还远着呢。

抛开各种政策限制,目前的自动驾驶想要达到更智能,精度更高的L4、L5级,除了技术需要迭代以外,机器还需要相比目前更多的数据用以学习。

以上说了机器学习的本质,是需要给机器输入海量的、不同场景的带标注数据,数据量越大、标注越准确,得到的AI模型准确率也就越高,汽车在遇到各种不一样的情况才有更从容的应对策略。

其实关于人工智能中的人工&智能,还有太多可以分享,电哥下次希望能走进车企里的自动驾驶技术部门,又或者到标注员的工作间里,揭秘一下真正人工智能或者自动驾驶背后的那些血与汗。

(图/文/摄:皆电 罗顺鹏)

+1

罗顺鹏

简介:今后的路, 要靠你自己走下去了, 而我坐宝马。

评论 收藏