标注系统

  |  

摘要: 市面上常见的标注系统SaaS产品

【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:算法题刷刷
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


1. 从产品角度看标注系统

参考文章: 如何从0到1快速搭建标注系统

绝大部分的标注系统,是一种辅助型的产品。按照一定的标注标准,由人工完成标注对象的标注,为业务系统、模型系统、数据系统等提供支持服务。目前,市面上有不少提供标注服务的公司,但由于标注会涉及数据敏感、标注内容归属、标注质量等问题,不少有一定实力的公司,都会自行定制研发所需的产品,确保标注流程和结果处于可控状态。

标注系统,在公司内部一般是一种辅助性产品,例如对于审核业务来说,标注系统要接受算法工程师自行定义标签体系,并接受算法工程师手动或机器自动推送的数据,然后要呈现给标注人员,接受标注人员的标注,然后接受算法工程师手动会机器自动拉取数据,以及运营团队的数据统计。可以看到标注系统有以下几个关键点

  1. 算法工程师可以自定义标注数据类型
  2. 常见的标注数据类型: 视频、图片、文字、音频
  3. 常见的标注标签类型: 分类标注,检测标注
  4. 可以与在线业务系统,离线模型系统,数据系统对接,交换数据
  5. 标注团队是标注系统的使用方,他们关心的是标准设定、角色配置、效率、质检。
  6. 标注结果的使用方有时是为业务服务,更多的还是模型训练使用。

在进行标注系统的搭建之前,往往已经具备了一些条件:

  1. 有人工标注团队,此前已经通过离线标注支持希求了,但是随着需求越来越多,他们需要通过标注系统提高效率
  2. 业务方的产品和研发团队、算法工程师,此前已经有产品开始用起来了,他们需要通过标注系统提升模型的性能和业务指标

市面上有很多提供标注服务的公司,但是稍微有一定规模的公司都会选择自研,主要不是钱的问题,而是有几个难言之隐。

  • 数据敏感
  • 标注内容的归属
  • 标注质量

如果选择自研,那么以上问题就都解决了,标注流程和结果都更可控,但是标注系统本身也需要一个产品研发团队,与通常的产品团队配置类似。例如我之前工作过的陌陌,标注系统就是自研的。但是对于小厂、刚起步的创业公司,基本不太可能自研,那么就需要找开源的或者付费的产品了。

下面是标注系统通常的功能模块,在找开源或付费产品的时候,在功能上需要关注这些。

原始数据 -> 数据库(未标) -> 标注完成 -> 质检 -> 数据库(已标) -> 标注结果使用方

除此以外,还有一些个性化的要求。比如要求私有化部署,比如要求能支持一些独特的层次化的标签设计,要求能方便地与内部自研的其它系统交换数据等等。


2. 开源标注平台

总览

平台 备注
(1) CVAT(Computer Vision Annotation Tool) 英特尔开发。界面稍复杂。
(2) label-tool 简单,后端为node.js。
(3) Label Studio 视频音频全覆盖。目前有些流程功能不完善。
(4) VoTT (Visual Object Tagging Tool) 微软开发。无法自行托管Web服务。
(5) LabelImg 基于Python与Qt开发的单机版,功能单一。
(6) coco-annotator 支持coco数据格式,基于Web,后端使用Python。
(7) Dataturks 支持API,支持私有化部署

(1) CVAT

网站: https://cvat.org/
代码: https://github.com/openvinotoolkit/cvat

  • CVAT是opencv组织出品的一个在线图像标注系统。
  • 代码采用Python写的,使用docker进行部署。
  • 数据包上传: 以压缩包为主
  • 半自动标注: 有一个 bfaster rcnn 模型可以离线半自动标注, 精度一般
  • 流程管理: 查看所有任务进程
  • 数据导出: 检测和分割的数据集格式

(2) label-tool

代码: https://github.com/slava/label-tool
网站: https://slv.io/label-tool/

功能太简单,不适合有一定规模的组织。

(3) label-studio

代码: https://github.com/heartexlabs/label-studio
网站: https://labelstud.io/

  • 可配置: 使用jsx tags配置,自定义配置标注页面,所以可标注格式很多,样式也可以自定义
  • 协作标注: 由两个或更多人label同一任务,然后比较结果,还支持用户名密码简单的认证。支持按预测的模型预测的probability的大小顺序标注,默认按导入数据的索引顺序标注。
  • 多种数据类型: 定义自己的具有不同的label类型,Images, Audios, Texts, HTMLs, 已有大量模板,直接使用接口
  • 支持导入格式: JSON, CSV, TSV, RAR and ZIP archives,支持API导入数据
  • NPM嵌入: 前端是NPM包, NPM package. 可以将其包含在项目中.
  • 机器学习: 机器学习的集成支持。可视化并比较来自不同模型的预测。pre-labeling 功能很好,可以实现用训练的模型预标注数据,那么结果人工标注前就比较方便,而且还知道模型预测的怎么样
  • 支持docker容器部署
  • API接口很方便(REST API),文档: https://labelstud.io/api
  • 支持图片分类、检测、语义分割;文本分类、文本摘要、HTML Tag 等等

(4) VoTT

代码: https://github.com/microsoft/VoTT/

功能太简单,甚至不能托管web。不适合有一定规模的组织。

(5) LabelImg

代码: https://github.com/tzutalin/labelImg

可视化图像标定工具。客户端软件,不适合有一定规模的组织。

(6) coco-annotator

代码: https://github.com/jsbroks/coco-annotator

基于 web 的图像标注工具,用于检测,关键点。标注类型不多。

(7) Dataturks

代码: https://github.com/DataTurks/DataTurks
网站: https://dataturks.com/

  • 基于Web,跨平台
  • 可在自己的服务器上进行自我托管
  • 基于项目的文件标注,方便管理
  • 流畅的用户界面
  • 使用简单
  • 文件注解
  • 支持多种边框形状
  • 容器一键启动
  • Java做数据存储后端+node.js前端
  • 支持 API,文档: https://docs.dataturks.com/

SaaS产品

Magic Data(Annotator 5.0智能化标注平台)

公司: 北京爱数智慧科技有限公司
网站: https://www.magicdatatech.cn/

  • 国内目前最大的数据标注公司
  • 私有化部署版和SaaS版均有。
  • 支持作业拆分

Labelbox

网站: https://labelbox.com/
代码: https://github.com/Labelbox/labelbox

SaaS服务,功能太简单,不适合有一定规模的组织。

Playment

网站: https://www.playment.io/

收费服务,有一定规模。
文档: https://docs.labelbox.com/docs

scale AI

网站: https://scale.com/

当前最有名的数据标注公司,规模很大。

supervise.ly

网站: https://supervise.ly/

  • 只能标注图片
  • 权限分配更细化
  • 界面功能多

总结

产品 开源 支持web 支持私有 支持API 支持流程管理 同时支持图片与文本
CVAT $\checkmark$ $\checkmark$ $\checkmark$ $\chi$ $\chi$ $\chi$
label-tool $\checkmark$ $\checkmark$ $\checkmark$ $\chi$ $\chi$ $\chi$
Label Studio $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$
VoTT $\checkmark$ $\chi$ $\checkmark$ $\chi$ $\chi$ $\chi$
LabelImg $\checkmark$ $\chi$ $\checkmark$ $\chi$ $\chi$ $\chi$
coco-annotator $\checkmark$ $\checkmark$ $\checkmark$ $\chi$ $\chi$ $\chi$
Dataturks $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$
MagicData $\chi$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$
Labelbox $\chi$ $\checkmark$ $\chi$ $\checkmark$ $\checkmark$ $\checkmark$
Playment $\chi$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$
ScaleAI $\chi$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$
supervise.ly $\chi$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$ $\chi$

Share