训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……...

news/2024/7/7 21:13:54

 作者 |  Lionbridge AI

译者 | 天道酬勤 责编 | 徐威龙

封图| CSDN│下载于视觉中国

出品 |  AI科技大本营(ID:rgznai100)

在机器学习领域,训练数据准备是最重要且最耗时的任务之一。实际上,许多数据科学家声称数据科学的很大一部分是预处理的,并且一些研究表明,训练数据的质量比你使用的算法类型更为重要。

事实上,越来越多的公司进入了人工智能市场,来帮助满足这种对训练数据的需求。

 你如何获取机器学习训练数据?

获取训练数据的主要方法有以下三种:

  • 开源数据集:通过Kaggle、Google数据集搜索或数据集聚合器等网站在线查找。

  • 自己构建数据集:收集/创建数据并在内部进行注释。

  • 外包数据收集和注释服务:训练数据提供商提供的服务。

对于个人项目或学校作业,有时打开的数据集可以为你需要完成的任务提供足够的数据量。但是,在为商业目的构建和训练人工智能解决方案时,开源数据集通常无法用于你的用例,也不能用于商业化获利。

此外,当你拥有数千条数据并且只有少量员工时,内部采购和注释训练数据通常效率不高。这给我们提供了第三个选择:外包训练数据服务

 

机器学习训练数据服务

 

 Lionbridge通过各种机器学习训练数据服务来帮助客户改善其模型。

目前,有一家相关的企业:Lionbridge 就正在做这类型的工作。当我们去了解之后,发现 其中的一些核心服务如下:

  • 数据收集:语音/话语数据,手写数据,聊天机器人训练短语。

  • 图像和视频注释:边界框,多边形,圆形,直线,关键点。

  • 文字注释:情感,实体,实体链接,分类。

  • 音频注释:逐字记录,智能逐字记录,音频分类。

  • 内容评估:广告评估,搜索评估,地理位置数据评估。

从翻译到训练数据

Lionbridge 利用他们的全球数据科学家、计算语言学家、翻译和注释者的专业知识,为各种用例创建机器学习训练数据。

为什么翻译公司适合数据注释?

例如 Lionbridge ,是意识到他们的全球社区是进行数据注释的理想劳动力。      

尤其是对于自然语言处理(NLP),专业的语言学家是实体提取、搜索查询分类和其他基于语言的注释项目的理想注释者。经过全面的测试和培训之后,这些相同的员工可以轻松地执行各种图像注释任务,来实现计算机视觉。

 

翻译质量等于训练数据质量吗?

        

没必要质量相等。但是,翻译中的质量保证过程非常类似于人工智能训练数据的质量检查协议。

例如,本地化项目的质量检查流程之一就是编辑审查。在进行翻译时,通常我们需要一位或多位编辑来审核翻译人员的输出。同样,在我们的许多人工智能项目中,我们有多个贡献者注释同一条数据来检查是否一致。 

很多时候,质量管理意味着对贡献者的管理。为了确保准确性,你的数据必须经过许多流程。

  • 管理输出       


社区需要有许多协议可以确保每个贡献者都尽其所能。例如检查注释者之间的协议,来确保每个注释正确。此过程还可以帮助其验证数据本身是否清晰以及任务是否简单。对于某些项目,最多有五个贡献者对同一数据进行注释。此外,还可以实施自我协议检查,来确保每个贡献者与其工作保持一致。

机器学习训练数据质量保证的一个很好的例子,是他们的话语/语音数据收集过程:

  • 首先,我们有声音工程师确保每个贡献者正确地说出该短语,他们确保贡献者没有遗漏任何单词,并以自然的语调说话(与单调阅读相反)。

  • 接下来,我们将音频文件发送给每种语言的母语者,他们来根据脚本检查声音片段。

  • 最后,他们发送文件以进行音频质量检查,以确保在特定阈值内没有噪音,以及客户要求的其他标准。

这些只是他们已经实施的质量检查措施中的一部分,看起来正在持续完善中。

 

数据质量是主观的

归根结底,数据质量的定义取决于项目。“当谈到训练数据的质量时,没有客观的定义。这取决于用户要尝试做的事情。” Lionbridge日本AI服务总监Cedric Wagrez说。  “质量与用户的最终目标和各种因素有关,例如用户的KPI、精度和量身定制的用例。”

高质量的机器学习训练数据是以可以帮助用户实现目标的方式收集、注释和校准的数据。

在开始管理质量之前,首先必须了解这对用户的意愿是什么。

  • 试验项目

在项目开始之前会提供免费咨询,来解释收集或注释数据的最佳方法。

接下来,运行测试和试验项目以符合客户预期。假设你有10,000条要注释的数据。为确保所有人都在同一页上,他们将获取前100个数据,在系统中设置项目,并让社区为数据添加标签。如果最终结果与你的想象完全一样,那么将继续处理其余数据。如果需要更改,将根据反馈进行重新校准。

重要的是,质量数据不仅仅是关于清晰的图像和紧密的边界框。你必须考虑选择标签数据的人员,提供数据的准则以及收集数据的环境。

 文本、音频、图像和视频的数据收集和注释工具

       

有员工为你的数据添加标签,但是需要一个平台对其进行标签?如今,这类需求也得到了满足,已经有服务商将数据注释平台发布为消费产品。

人工智能行业有望在未来十年内为世界经济增加15万亿美元。随着市场的持续增长,对训练数据的需求也将不断增长。因此,我们可能会看到更多类似的服务公司进入机器学习训练数据行业。

一切都在发展,这个行业将会越来越丰富,越来越值得期待!

原文:

https://hackernoon.com/get-machine-learning-training-data-using-the-lionbridge-method-a-how-to-guide-ay4f32xi

【end】

原力计划

《原力计划【第二季】- 学习力挑战》正式开始!即日起至 3月21日,千万流量支持原创作者!更有专属【勋章】等你来挑战

推荐阅读

  • Google重磅发布开源库TFQ,快速建立量子机器学习模型

  • 用于小型图形挖掘研究的瑞士军刀:空手道俱乐部的图表学习Python库

  • MySQL 狠甩 Oracle 稳居 Top1,私有云最受重用,大数据人才匮乏! | 中国大数据应用年度报告

  • Libra新编程语言 :Move 的所有权模型灵感来源原来是它……

  • 曾经摸鱼的程序员,如今在武汉自愿加班

  • 云原生的漏洞与威胁有哪些?云原生安全性如何?这里有你想知道的一切!

  • 你点的每个“在看”,我都认真当成了AI


http://lihuaxi.xjx100.cn/news/272435.html

相关文章

junit配合catubuter统计单元测试的代码覆盖率

1、视频参考孔浩老师ant视频笔记 对应的build-junit.xml脚步如下所示&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project default"coverage-report"><property name"src.dir" location"src">…

MyBatis动态SQL(认真看看, 以后写SQL就爽多了)

点击上方“方志朋”&#xff0c;选择“设为星标”回复”666“获取新整理的面试文章来源&#xff1a;cnblogs.com/homejim/p/9909657.htmlmybatis最新源码和注释MyBatis 令人喜欢的一大特性就是动态 SQL。在使用 JDBC 的过程中&#xff0c; 根据条件进行 SQL 的拼接是很麻烦且很…

.NET开发人员值得关注的七个开源项目

微软近几年在.NET社区开源项目方面投入了相当多的时间和资源&#xff0c;不禁让原本对峙的开源社区阵营大吃一惊&#xff0c;从微软.NET社区中的反应来看&#xff0c;微软.NET开发阵营对开源工具的依赖正日益增强&#xff0c;本文就为所有.NET开发人员介绍7个应该关注的开源项目…

Python 过程式编程与函数式编程

过程式与函数式是两种截然不同的编程方式和思考方法&#xff0c;下面以求解素数为例做一下对比。 采用过程式编程 def isPrime(n):mid int(pow(n,0.5)1)for i in xrange(2,mid):if n % i 0 : return Falsereturn Trueprimes[] for i in xrange(2,1000):if isPrime(i): prim…

css 商城 两列_如何使用css伪元素实现超实用的图标库(附源码)

今天我们来复盘一下前端中css伪元素的知识以及如何用css伪元素来减轻javascript的压力&#xff0c;做出一些脑洞大开的图形。预备知识伪元素伪元素是一个附加至选择器末的关键词&#xff0c;允许你对被选择元素的特定部分修改样式。伪元素主要有&#xff1a; ::first-letter 第…

Python进阶之递归函数的用法及其示例

作者 | 程序员adny责编 | 徐威龙封图| CSDN│下载于视觉中国出品 | AI科技大本营&#xff08;ID&#xff1a;rgznai100&#xff09;本篇文章主要介绍了Python进阶之递归函数的用法及其示例&#xff0c;现在分享给大家&#xff0c;也给大家做个参考。一起来看看吧。递归是指函数…

ecs修改主机名称

2019独角兽企业重金招聘Python工程师标准>>> https://help.aliyun.com/knowledge_detail/41305.html 转载于:https://my.oschina.net/soho00147/blog/1835247

寒武纪首颗AI训练芯片亮相

视学算法转载自公众号&#xff1a;机器之心1 月 21 日&#xff0c;寒武纪思元 290 智能芯片及加速卡、玄思 1000 智能加速器在官网低调亮相&#xff0c;寒武纪表示该系列产品已实现规模化出货。去年&#xff0c;寒武纪招股书曾简单披露了一款训练芯片的 “彩蛋”&#xff0c;此…