ProdigyはドイツのExplosionAI GmbHが開発した機械学習モデルのトレーニングや評価データを作成するためのアノテーションツールです。Prodigyを利用してデータチェックやデータクリーニング、エラー分析が実行でき、統計モデルと組み合わせることでルールベースのシステム開発もできます。
環境基盤としてPythonを利用しているProdigyには豊富なPythonライブラリが提供されています。ライブラリには、さまざまなタスク用ワークフローや独自ワークフロースクリプトを実装するためのコンポーネント、モデルトレーニング、モデルテスト、アノテーション済みデータセット探索、プロジェクト間での結果管理用モジュールなどがあり、コマンドラインで実行できるコマンドもあります。完成したモデルはPythonパッケージとしてエクスポートでき、他のPythonアプリケーションで実行することができます。
Webインタフェースを使って直観的なアノテーションとモデルトレーニングをスピーディに行うことができ、アノテーションとモデルトレーニングを繰り返す機械学習によって作業プロセスが迅速化されていきます。Prodigy はスクリプト可能なアノテーションツールなのでカスタム ルールベースロジックを使ったアノテーションの自動化も可能です。
自動化ツールを利用して内製しても、人手が足りない、単調な作業で担当者が疲弊する、精度にバラつきがあるという課題がある場合アノテーション代行サービスを利用するのが効率的です。こちらでは、コスパ・対応力・セキュリティなど、重視するポイント別に幅広いアノテーション対応領域に対応している代行サービスを紹介しています。
マニュアルインターフェイスを使って、名前、概念、フレーズなどテキストのスパンを手動で強調表示してエンティティにラベル付けすることができます。
マニュアルインターフェイスを使って、ドキュメントから長いフレーズやオーバーラップ、ネストされた表現を抽出してラベル付けすることができます。
文章から意図の検出、情報抽出、セマンティックロールのラベル付け、センチメント分析を行い、テキストへのラベル付けを行います。見出しなどの短いテキストから段落やドキュメント全体などの長いテキストまで分類可能です。
構文、セマンティクス、共参照などのNLP(自然言語処理)関係に注釈を付けデータにラベル付けします。
オブジェクト検出、画像セグメンテーション、画像分類などの画像アノテーションを行います。
オーディオファイルとビデオファイルにラベル付けします。
ランダム化されたA/B テストによって生成されたモデルを評価します。
OpneAIを使用してゼロショット学習(Zero-shot learning:今までの学習データにない未知の物を予測するための機械学習)を行います。
確認することができませんでした。
Prodigyについて話し合う公式フォーラム(https://support.prodi.gy/)があり、質問、バグ報告、カスタムレシピ共有などができます。使用例とインストール手順についてはドキュメント(https://prodi.gy/docs)が提供されています。
390ドル(税不明)永久ライセンス
490ドル(税不明)5シート
※公式サイトで確認できませんでした
ExplosionAI GmbH.はドイツのベルリンに2016年に創業されたAI、機械学習、自然言語処理(NLP )ツールを開発しているソフトウェア企業です。自然言語処理向けの高度なオープンソース ライブラリspaCy、ディープ・ラーニング・ライブラリThincを提供し、効率的な機械学習ができるアノテーションツールProdigyを開発・販売しています。
運営会社名 | ExplosionAI GmbH. |
---|---|
所在地 | Alexanderstr. 7, 10178 Berlin, Germany |
事業内容 | AI、機械学習、自然言語処理、アノテーションツールの提供・開発・販売 |
設立年または創業年 | 2016年 |
問合せ・連絡先 | contact@explosion.ai |
営業時間(問合せ対応時間) | 記載なし |
公式サイトURL | https://explosion.ai/ |
画像・動画・言語・音声などの作業領域が適応している代行サービスなら、
一通りのアノテーションは対応してくれますが、
より効率的に作業をすすめたいのであれば、
状況に応じた重視するポイントを把握しておくとよいでしょう。
例えば、限られたAI開発予算のなかで大量のデータ処理が必要な場合は、コスパを重視して選ぶべきですし、
多種多様な言語や医療などの専門知識が必要なデータを処理する場合は、特殊な案件であっても代行可能な対応力を重視して選ぶべきです。
また、秘匿性の高い自社データを扱う場合は、信頼できる直接契約のアノテーターへ依頼ができるなどのセキュリティを重視する必要があるでしょう。
ここでは、画像・動画・言語・音声など、幅広い作業領域に対応できる代行サービスの中から、3つの重視するポイントに合ったサービスをご紹介します。
コストパフォーマンスを
重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
〇 |
責任者による 品質チェック |
〇 |
クラウドに対応
専門アノテーターによる
対応力を重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
― |
責任者による 品質チェック |
〇 |
リモート/オンプレミスに対応
セキュリティの高さを
重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
〇 |
責任者による 品質チェック |
〇 |
クラウド/オンサイトに対応
※選定条件
2023年10月6日調査時点において、「アノテーション サービス」でGoogle検索の表示上限までにでてきた39社の中で、
画像/動画/テキストといった幅広い領域のアノテーションに対応している企業の中から、以下の条件で3社をピックアップしています。
①FastLabel:公式HPに掲載されている料金が最も安いサービス(企業)(画像アノテーション2円(税不明)~)
②アッペンジャパン:公式HPに幅広い言語や専門分野に対応できるアノテータリソースの記述がある(企業)
③ヒューマンサイエンス:セキュリティに関する対策項目が最も多かったサービス(企業)