「doccano(ドッカーノ)」は機械学習、自然言語処理に必要となる教師データ(アノテーションデータ)を作成するアノテーションツールです。
doccanoを利用することでテキスト分類、系列ラベリング(文中の地名や人名を特定)、系列変換(要約や翻訳)のラベル付きデータも簡単に作成可能。
これまで手間がかかっていたアノテーションデータ作成が容易になることで機械学習や自然言語処理業務の効率化が期待できます。
Excelなどの帳票ツールを利用することでも文中にあるテキスト分類や系列変換はできますが、文字や単語単位でデータを作らなくてはならない系列ラベリングは帳票ツールでは作成できません。
doccanoなら対象とする単語を選んでボタンを押すだけで簡単にラベリングをすることが可能です。
TISではdoccanoをオープンソースソフトウェア(OSS)として公開しているので、誰でも無料で利用できます。
またオープンソースにすることで利用者のフィードバックが随時ソフトウェアに反映されるため利用者は常に新しいバージョンのアノテーションツールdoccanoを利用できるというメリットもあります。
doccanoは英語と日本語に対応し、セットアップも簡単にできます。
自動化ツールを利用して内製しても、人手が足りない、単調な作業で担当者が疲弊する、精度にバラつきがあるという課題がある場合アノテーション代行サービスを利用するのが効率的です。こちらでは、コスパ・対応力・セキュリティなど、重視するポイント別に幅広いアノテーション対応領域に対応している代行サービスを紹介しています。
公式サイトに記載がありませんでした。
doccanoは継続的に開発中状態なので機能に対して要望や問題点等ある場合は要望を記述してGitHub/doccanoのIssues(https://github.com/doccano/doccano/issues)に提出してください。
他のユーザーの質問なども閲覧することができるので、問題の解決につながるかもしれません。
またGitHub/doccanoのREADMEにはFAQもあり、ユーザの作成方法、ユーザをプロジェクトへ追加する方法、パスワードの変更方法などが記載されています。
オープンソースソフトウェア(OSS)なので無料で利用することができます。
公式サイトで確認することができませんでした。
1971年の創業以来、日本のITリーディングカンパニーとして製造、金融、流通、公共、サービス、通信業など様々な業種の経営課題に向き合い成長戦略をサポートするITを提供、現在も自社開発サービスに積極的に取り組み数多くの課題解決に貢献しています。
またTISでは先に公開した機械学習の感情解析データセット作成ツール「chABSA-dataset(チャブサ・データセット)」の経験をもとに「doccano」を開発しました。
「doccano」の利用で機械学習や自然言語処理に必要な教師データの作成は簡単になりますが正確なラベル定義というデータ作成の本質的難しさには改善が必要であり、OSSとして公開しフィードバックを得ることで改善に活かしています。TISはこのような研究開発活動をオープンな姿勢で行っている会社です。
運営会社名 | TIS株式会社 |
---|---|
本社所在地 | 東京都新宿区西新宿8-17-1 |
事業内容 | システム・インテグレーション、コンサルティング、システム開発、クラウドサービス、アウトソーシング |
設立年または創業年 | 1971年 |
問合せ・連絡先 | 0800-600-9810 |
営業時間(問合せ対応時間) | 平日9:00~12:00、13:00~17:00 |
公式サイトURL | https://www.tis.co.jp/ |
画像・動画・言語・音声などの作業領域が適応している代行サービスなら、
一通りのアノテーションは対応してくれますが、
より効率的に作業をすすめたいのであれば、
状況に応じた重視するポイントを把握しておくとよいでしょう。
例えば、限られたAI開発予算のなかで大量のデータ処理が必要な場合は、コスパを重視して選ぶべきですし、
多種多様な言語や医療などの専門知識が必要なデータを処理する場合は、特殊な案件であっても代行可能な対応力を重視して選ぶべきです。
また、秘匿性の高い自社データを扱う場合は、信頼できる直接契約のアノテーターへ依頼ができるなどのセキュリティを重視する必要があるでしょう。
ここでは、画像・動画・言語・音声など、幅広い作業領域に対応できる代行サービスの中から、3つの重視するポイントに合ったサービスをご紹介します。
コストパフォーマンスを
重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
〇 |
責任者による 品質チェック |
〇 |
クラウドに対応
専門アノテーターによる
対応力を重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
― |
責任者による 品質チェック |
〇 |
リモート/オンプレミスに対応
セキュリティの高さを
重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
〇 |
責任者による 品質チェック |
〇 |
クラウド/オンサイトに対応
※選定条件
2023年10月6日調査時点において、「アノテーション サービス」でGoogle検索の表示上限までにでてきた39社の中で、
画像/動画/テキストといった幅広い領域のアノテーションに対応している企業の中から、以下の条件で3社をピックアップしています。
①FastLabel:公式HPに掲載されている料金が最も安いサービス(企業)(画像アノテーション2円(税不明)~)
②アッペンジャパン:公式HPに幅広い言語や専門分野に対応できるアノテータリソースの記述がある(企業)
③ヒューマンサイエンス:セキュリティに関する対策項目が最も多かったサービス(企業)