海天瑞声董事长贺琳:为大模型“火箭”加燃料
■相关公司
:海天瑞声(SH688787 ,火箭股价89.26元,海天市值53.85亿元)■核心竞争力:具备标准化数据集产品规模化生产能力,瑞声燃料累计完成超过1300个自有知识产权的董事大模训练数据标准化产品的建设,在全球企业中稳居前列;较早地布局并建立了多语种能力。长贺■机构眼中的型加公司
:国内AI训练数据龙头提供商 ,自动驾驶业务打开成长空间■所属概念:数据服务 人工智能 AIGC每经记者 可杨 每经编辑 董兴生11.2公里/秒
,火箭是海天火箭能够成功摆脱地球引力束缚,飞离地球的瑞声燃料速度。而瞬间的董事大模燃料燃烧所提供的推动力,是长贺帮助火箭一次又一次加速直至进入外太空的助力 。在与《每日经济新闻》记者交流时,型加海天瑞声董事长贺琳觉得,火箭作为一切人工智能技术最上游的海天数据,就是瑞声燃料人工智能这艘火箭的“燃料” 。海天瑞声正是一家生成“燃料”的公司。海天瑞声是国内最早投入AI训练数据的专业服务商之一,2023年,不断翻涌的大模型浪潮将这家公司推至资本市场的聚光灯下。而身处潮水之中
,贺琳对未来的思考依旧谨慎。大模型狂热:初印象非常惊艳,但对预期“审慎乐观”2023年初
,贺琳在海天瑞声公司年会上的发言稿,80%由ChatGPT完成。“非常的惊艳
,有点不(敢)相信。”这是贺琳对ChatGPT的初印象
,“当然,也有不尽如人意的地方
,我觉得这才是我们要努力的方向。”ChatGPT的出现,让这家数据公司突然站到了资本市场舞台中央。2023年开年以来,海天瑞声股价一路走高,3月一度涨至191.96元/股,较其2021年8月上市时翻了一番
。而海天瑞声方面,则已多次在投资者互动平台发布提示,称公司与OpenAI没有合作,也尚不能预期大模型业务将带来多少收入。“年初,我们还在仔细观察
、论证这个技术到底对数据有什么样的需求。”贺琳认为,合适的入局时机应该是当这项技术能够真正在行业中落地的时候 ,这意味着其有真正的应用场景 ,而非伪场景。“我们要确定这个需求是真的 ,且有人会为这个需求买单
,这才是一个正常的商业逻辑。”同时
,当行业落地时刻到来 ,数据的需求量也会迎来大规模提升
。“这给公司带来的上升空间,我认为是非常乐观的
,(目前)我们还是抱着乐观审慎的态度去看,去跟踪,去研究这项技术。”“判断一个行业 ,我们会更深刻地去想这个行业到底需要什么样的数据
,只有想清楚这件事 ,我们才会走过去,我们当初对自动驾驶领域的布局就遵循了这个逻辑。”贺琳介绍。布局自动驾驶行业是海天瑞声在2021年定下的战略方向,在贺琳看来,自动驾驶赛道已经符合这个判断逻辑 。从L2到L4,自动驾驶已经有相当多的应用落地,同时,自动驾驶的数据需求量十分巨大。她判断 ,自动驾驶是一个人命关天、对安全要求非常高的技术
,它需要大量数据来打磨
,去覆盖各个不常见的场景来保证安全性,因为任何极端天气或极端场景都可能导致误判
。“怎么避免
?就需要大量的数据去训练 ,让模型接触到更多长尾的场景来提高它的安全性。”今年4月18日 ,海天瑞声正式推出其专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。数据需求增加背后:系统性差距依旧存在贺琳曾就职于中国科学院声学研究所,从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作 。成立于2005年的海天瑞声
,最初诞生于贺琳在这份工作中捕捉到的行业痛点。“我们当时在课题组其实也会遇到(缺少)数据的问题
,解决办法就是工作人员 ,加上研究生、博士生 ,自己来做数据。”尽管彼时实验室的数据量相对较少,但也已经算是一项繁琐的工作
。随着技术的发展,智能语音从实验室走向大规模应用阶段,更多场景的覆盖需求
,意味着数据需求随之大规模增加。与此同时,在与一些就职于大型企业或研究机构的前同事交流时,贺琳发现,大家都在关注数据的问题。“(大家)认为数据是一个非常大的瓶颈 ,阻碍他们技术的落地
。所以我就在想,那是不是可以由我出来做这件事情,帮助大家解决这个困难。”时至今日,贺琳觉得,彼时促使她创业的瓶颈依旧存在。在她看来
,数据的需求是跟着技术的发展而变化的 ,随着技术在各个行业中落地,就会有更多的数据需求爆发。“像现在大模型起来,很多人都认为,数据差距是一个造成系统性差距的非常重要的原因,所以大家认为数据还是很重要的要素
,这个瓶颈依然存在
。”不同的是,贺琳创业之初,国内竞争对手少
,海天瑞声得以在市场快速突围
。而如今,国内已经出现一批新的数据公司,先发优势成为当下数据公司核心竞争力的基础。“其实,这个行业有很多的技术壁垒和‘know-how’,也是需要不断打磨项目,才能去沉淀自己的技术、学会各类‘knowhow’的,这是靠项目积累出来的
,而不是短期能很快积累起来的。”海量数据如何最终成功支撑起庞大参数的大模型运行?需要首选了解一个概念——数据集。贺琳介绍,数据集的产生是一个非常复杂的过程
,其中包括设计阶段、采集阶段、处理阶段以及最后的质检阶段。在设计环节
,需要先去了解数据集是为了解决哪个问题 ,这个问题需要什么样的数据
,需要多大的量
,需要什么样的场景,以及采集的样本
、规模、内容,包括采集的设备、标注的规范等;采集环节则是按照设计的方案,到大千世界采集,有可能是声音,有可能是图像、图片,又或是手写的字、道路的场景。采集完成后则需要进入清洗
、标注环节。最后生产出的数据集需要通过双层的质检流程
,最终才能生产出一个合格的数据集。这其中
,清洗规则的好坏、标注的准确性都会极大地影响数据集的质量,进而影响模型的效果。贺琳举例说,海天瑞声的大模型数据清洗率是5%,即清洗出来正确的数据仅仅占原数据的5%
,这也印证了数据清洗环节的重要性。而标注的流程则主要是解决准确性和一致性问题
,“我们通常说95%、98%或者是99%,不同的准确率对模型训练的结果有非常大的影响”。“数据的清洗和标注流程对于模型的质量至关重要,它们可以提高数据的质量和准确性,帮助模型更好地去学习 ,也为模型的评估奠定了一个很好的基础
。”贺琳表示。贺琳认为 ,高质量的数据包括了数据的丰富度,场景的丰富度
,数据的准确性 、一致性等
,这都是衡量高质量数据的标准。她也认同,高质量数据的提供,需要高质量人工的支持。“有一些高质量的数据,尤其是行业数据,确实需要更高层次的人去处理 。因为我们也了解到
,像OpenAI这样的公司,它背后也有一个很强大的数据处理团队
,他们要把对行业的‘know-how’或者是更高层的一些知识灌输到数据里。”她表示。浪潮的下一步:离开人工,实现智能“有多少智能,就有多少人工。”这句话依旧得到大部分人的认同
。在海天瑞声这家“燃料”制造商,优质“燃料”的诞生
,同样需要最了解“火箭”的人来把控。贺琳介绍
,海天瑞声的管理层除拥有比较好的学术背景外,也都有在外企或大厂等机构的工作 、管理经验。“他们以前是数据的使用者,加入公司以后,他们非常知道数据的使用者需要什么样的数据,这可以让他们更快速地对市场有预判
,也会更好地跟业界交流
。”她同时坦言
,为不同行业提供的数据,需要具备不同行业专业知识的人来处理。“但把规则定下后
,可能通过一些训练,让基础的人员能具备这样的训练能力
。”在贺琳看来 ,“有多少智能就有多少人工”是一个误解。“确实
,这个行业有很多的人力,但人力是在技术的支撑下做这些事,没有技术支撑,可能人力需要现在的10倍都不止。所以,我们这种综合性的数据服务商一直都在追求用更自动
、更智能的方式来完成数据的任务
,不断解放人力。”贺琳希望,能一步步减少人工对人工智能的参与,大模型的浪潮,正在加速实现这个目标
。“让计算机自动处理数据,永远都是我们的追求。”据她介绍,公司也在探讨未来的两大工作方向
,一个是打造一批针对通用领域、垂直领域,且具备单模态和多模态属性的 、供给大模型使用的数据集产品。另外
,海天瑞声也在计划启动数据生产垂直大模型的研发项目 ,希望用大模型技术来支撑数据的生产。“大家都说大模型将给众多垂直行业带来重大积极影响,其实数据处理本身也是一个垂直行业,我们希望用大模型的能力来更自动化地把数据处理这件事情做好。”“人工智能的背后是人工”也是有可能发生改变的。“现在背后依然确实需要很多的人工,但是我们一直在尽量想办法减少人工。包括加入很多算法 ,提高对数据做预标注的准确率,准确率越高,人工参与的程度越低。”但贺琳也坦言,这件事并不容易。“其实,如果真的把这个事都做成了
,人工智能就完成了。因为不需要人的介入,相当于它处理的东西都跟人想的是一样的。”但另一方面,当技术达到一定突破后
,伦理、法规
、安全等问题就会出现 ,如何解决这些问题,也是今后整个人工智能行业面临的难题 。新的变革契机:多模态需求将推高行业门槛每一次的火箭升空
,都需要大量的燃料助推。贺琳认为
,当人工智能技术迎来新的变革时,对数据提供商来说就是一次契机。“我觉得可能也是根据一些需求,比如像苹果手机的siri出来以后,大家就会认为在语音上有一些突破,这些数据的需求就会暴增。”贺琳觉得,在整个人工智能行业,数据就像人类学习知识时使用的教科书,“你的教科书越全面,信息越准确,学习的结果就会越好 ,其实机器也是一样的”。她认为
,数据集本质上就是人类把自己对大千世界 、万事万物的一些认知和判断方法加载到数据上
,然后让机器去学习,使机器得出来的对事物的判断结果更加趋近于人类
。在她看来,这就是数据公司的价值
。而在大模型的热潮之下 ,多模态的能力成为一个关键词。贺琳表示,多模态数据是未来的一个方向
。“多模态的数据里蕴含了更多更丰富的信息
,对机器做判断也会提供更多的信息来源,但多模态的数据(获取)的难度也非常大。”她进一步介绍,首先,多模态数据要求的量很大
,合规取得这些数据的难度就会更大;其次,多模态数据采集的设备也非常昂贵
,对数据公司的财务能力是一种考量。此外,多模态数据对齐的问题、对齐的标准等,都是多模态数据的难点。贺琳认同一点 ,多模态能力会导致数据公司的入门门槛提高。“包括我们可能还要去做一些数据生成技术,用我们的一些单一形态的数据来合成多模态的数据,这都要求公司有更高维度的研发能力
。”目前 ,贺琳依旧认为,数据这个方向是海天瑞声未来的定位,因为这个领域要做的事情太多了 。“随着技术的发展进入千行百业
,每一个行业都需要认真地去了解这个行业的‘knowhow’是什么、如何解决这个行业的一些关键痛点。那么多行业呢
,我们有足够大的空间去拓展。”而深入行业
,则需要公司本身有一定的研发能力
,同时,在进入行业时,需要有行业专家的参与,通过真实的项目打磨,进而逐渐积累 。“这不是个一蹴而就的事情,需要一个长期持续的过程。”她表示。贺琳相信,通用人工智能终将有一天会实现
,但这也需要一个过程,即便技术达到了
,还有伦理的问题
、安全的问题、合规的问题 。这些都解决了之后
,如何解决行业的问题,也有很长的一段路要走。而在这条路上,她认为,数据公司将会扮演越来越重要的角色。在这个过程中
,算法可能会相对趋于稳定,但仍需大量的
、类型迥异的数据对算法进行训练,才能解决行业的问题。翻译搜索复制每日经济新闻
(责任编辑:百科)
推荐文章
-
附加赛出局前途依旧光明,国王的目标不止是季后赛善恶终有报!54岁的尹相杰,已经活成了一个“笑话”
体坛周报全媒体记者戴高乐报道北京时间11月30日,背靠背第二战不敌快艇之后,国王打完了本赛季常规赛的第17场比赛,而他们的成绩居然跟上赛季同时期一模一样,都是10胜7负。考虑到上赛季他们最终落位在西部 ...[详细]
-
多特蒙德VS切尔西:波特迎来大场面,大排档厨子能否做好国宴?迪丽热巴到国外没了修图待遇,看到生图下的腿:再也不羡慕你瘦
多特蒙德和切尔西队的比赛,将在明天凌晨开战。切尔西新帅波特迎来了自己执教生涯的最大场面。这个曾经带领布莱顿队取得出色成绩的主帅,将在欧冠赛场迎来自己的终极大考。由于波特上任之后,切尔西队在英超赛场举步 ...[详细]
-
中国足协又有两名官员被查,合计13人!足坛反腐光阴线最新梳理
原问题:中国足协又有两名官员被查,合计13人!足坛反腐光阴线最新梳理7月22日,湖北省纪委监委新闻,中国足球协会技术部部长谭海、中国足球协会策略妄想部部长戚军涉嫌严正违纪违法,当初正接受中间纪委国家监 ...[详细]
-
一夜三消息:普尔练习拳击,哈登终于发声,字母哥纪念雄鹿夺冠孟子义果然走的女神路线!夏日穿棕色吊带游走小乡村,森系氛围感秒get
普尔练习拳击勇士在追梦和普尔之间做出了决定,球队最终还是选择了追梦格林,送走了乔丹-普尔。当然,你也可以说,勇士是珍惜库里为数不多的巅峰期,希望保罗的到来能够为其分担压力,但对于一支球队而言,一个冉冉 ...[详细]
-
原创 辽篮争冠三喜临门,CBA总冠军先生驰援,赵继伟弗格迎帮手
原标题:辽篮争冠三喜临门,CBA总冠军先生驰援,赵继伟弗格迎帮手 CBA常规赛第二阶段的比赛如火如荼的进行中,本轮比赛中进行了一场非常激烈的对决,卫冕冠军辽宁男篮在主场迎战北控队的挑战,这场比赛 ...[详细]
-
澳超赛事前瞻:卫冕冠军西部联本赛季饱受伤病所扰大S现身汪小菲直播间,具俊晔不管,张兰极力反对!网友:复合了?
卫冕澳超联赛冠军的西部联队将大约六周内没有本-加鲁奇奥,因为这位后卫还没从小腿的伤势中恢复。1月7日在AAMI公园举行的对决中加鲁奇奥在4-0击败墨尔本城的比赛中受伤。加鲁奇奥是西部后防线上最新的缺席 ...[详细]
-
国内首款公开挑战烈火穿行的纯电车,风行雷霆到底有多强?杨丽萍私生活糜乱,上厕所、洗澡全靠男助理,网友:现实版老佛爷
每一块坚如磐石的电池背后,都有一个硬核安全“守门员”。随着电池技术的不断发展进步,诸如电池通过底盘刮碰、水下浸泡等试验已不是坚守“龙门”的最后一关,仅被视为电池安全测试界“保级赛”。因此,问鼎电池安全 ...[详细]
-
克日,据《西方体育日报》报道,深圳队已经挨近开幕边缘。深圳队从去年开始陆续有了欠薪下场,有深足球员泄露当初球队已经15个月不个别发过人为,历史欠薪也没残缺处置。此外从往年1月开始,球队受到FIFA禁令 ...[详细]
-
原创 雄鹿以24分大胜尼克斯,晋级四强,字母哥贡献35+10,庆祝气氛狂欢
原标题:雄鹿以24分大胜尼克斯,晋级四强,字母哥贡献35+10,庆祝气氛狂欢 北京时间12月6日,NBA季中锦标赛1/4决赛,雄鹿主场迎战尼克斯。两队此前在小组赛中交手,雄鹿赢得了胜利。本场比赛 ...[详细]
-
本文转自:新华网7月22日中国女足将开启2023年女足天下杯首战在澳大利亚珀斯对于阵丹麦队 ...[详细]
热点阅读
- 打破魔咒!凯尔特人拒绝横扫,终结热火全胜纪录,逆袭太难了
- 骑士旧将坐标浙江,盖利终于能轻松点了,杨鸣的总冠军悬了强吻、摸胸、掀裙底,这些男星究竟是真敬业,还是借戏揩油?
- 勇士离队第一人已确定,蝴蝶效应已现,勇士王朝或迎巨变
- 广西北海一女子在医院持刀捅车祸伤者,已经被抓获
- 原创 1-0,又赢了!英超冠军爆发,创历史纪录+24场不败,剑指三冠王
- ROG龙骑士2代:绝佳的质感+独特的分离式键盘,你能想到的它都有!穿内衣就算了,输血管我也忍了,那个戴口罩的,真拿观众当傻子呢
- 一个人的三种改变,藏着婚姻的结果挖呀挖黄老师5.20现身,成旅游宣传使,牙龈比牙宽,网友:退钱
- 斯巴达勇士赛上海站开启 2022中国系列赛积分排名揭晓笑果文化出事后,他们终于藏不住了!
- 原创 豪赌!曝山东男篮密谋大交易,用高诗岩换CBA状元
- 品类拓展打开增长空间,东兴证券维持公牛集团“推荐”评级全校“倒数第一”试卷走红,不是青铜是王者,美术老师憋不住笑了
随机内容
- 足坛豪门翻车夜!毛抬厂三兄弟齐输球,连德甲霸主拜仁都1-5惨败c罗被索赔超70亿元!努力半生,一朝归零,巨星也不适合经商
- 泰山队夏窗补强!6将驰援一线队,新外援加盟在即,备战亚冠联赛用中国讨好美国?中国发出最强“逐客令”,普京:早该如此
- 2亿+5000万欧浮动,大巴黎期待尽快放行姆巴佩,皇马:想啥呢?黄晓明杨颖分手:杨颖说:黄晓明只能给她钱,其他的东西给不了!
- 省魔难院激进 夜间值班电话
- 原创 詹姆斯笑了!湖人季中赛夺冠:AD解放,湖人防守形态彻底改变?
- 澳超分析新赛季会在卡塔尔世界杯期间进行吗?小学生因名字“太简洁”走红,连名带姓一共3笔,且没一笔是弯的
- 姆巴佩收到“世纪报价”,拒绝曼联、阿森纳和皇家马德里