【ANNO-Navi】 効率的なAI開発のためのアノテーション代行サービスガイド » 社内作業を効率化する アノテーションツール一覧 » brat

brat

アノテーションができるツール「brat」の3つの強み

複数人でテキストアノテーション作業ができる

MITライセンスのオープンソースとして提供されているbratは、自然言語処理用のテキストアノテーションツールです。WindowsやmacOSで利用でき、個人でスタンドアロンとして使うことはもちろん、サーバー上で動かせば複数人でアノテーション作業を行うことができます。構造化されたアノテーション用に設計されているので、コンピュータによる自動アノテーションを行うことも可能です。

直観的に編集できる

見たままのものをアノテーションするという概念に基づいて開発されたツールなので、マウスでテキストをドラッグするかダブルクリックして単語を選択し、その部分に対してラベル付けをするだけ。直観的に編集することができます。また1つのアノテーションをマウスでクリックし接続ラインを関連づけたいアノテーションにドラッグすることで、2つのアノテーション間の関係追加も簡単にできます。

外部リソースとの統合ができる

bratのv1.3 (Crunchy Frog) から正規化がサポートされ、アノテーションを外部データベース内のデータ、Wikipedia、Freebase、Open Biomedical Ontologies などの語彙やオントロジー(情報科学) リソースに関連付けるためのさまざまな機能も搭載されています。サーバーとクライアント両方ともUnicodeをサポートし、100近くの言語テキストのアノテーションが可能です。

自動化ツールを利用して内製しても、人手が足りない、単調な作業で担当者が疲弊する、精度にバラつきがあるという課題がある場合アノテーション代行サービスを利用するのが効率的です。こちらでは、コスパ・対応力・セキュリティなど、重視するポイント別に幅広いアノテーション対応領域に対応している代行サービスを紹介しています。

おすすめのシステム運用支援会社3選

「brat」でできること・おもな機能

テキストアノテーション

選択されたドキュメントのテキストとアノテーションが視覚化されて表示され、テキストの範囲をマウスで選択してアノテーションを追加します。

アノテーション間の関連付けの追加

あるアノテーションから別のアノテーションにマウスをドラッグして関連付けを追加します。

正規化アノテーション

テキストマッチングにSimStringを使って正規化します。

※SimStringは類似文字列を検索するためのシンプルで高速なライブラリで、修正BSDライセンスで提供されています。

複数形式でのエクスポート

作成されたアノテーションデータはテキスト ファイル ( .txt )、アノテーションファイル ( .ann )でエクスポートできます。

「brat」の操作画面

bratの操作画面
引用元:brat公式サイト
(http://brat.nlplab.org/examples.html)

「brat」のサービス紹介動画

※公式サイトで確認できませんでした

サポート体制

bratユーザーグループ(https://groups.google.com/g/brat-users?pli=1)に参加した後、質問メールを投稿したり、過去の質問を検索したりできます(グループ参加リクエストメールアドレス:brat-users+subscribe@googlegroups.com、投稿メールアドレス:brat-users@googlegroups.com)。

また、GitHubのour issue trackerページ(https://github.com/jsbroks/coco-annotator/)で機能リクエストやバグ報告ができます。

価格

bratはMIT Licenseのオープンソースとして提供されています。誰でもフリー利用が可能で、再配布、商用利用もできます。利用時には「著作権の表示」と「MITライセンス全文かMITライセンス全文が記載されているURL」を記載する必要があります。

参照元:tldrlegal( https://www.tldrlegal.com/license/mit-license

サービス導入実績/導入事例

医学系雑誌に掲載された論文からコーパスを作成

PubMed(米国国立医学図書館:NLMの作成するMEDLINEなど、世界の医学系雑誌に掲載された論文の要約や参考文献を調べることができるデータベース)から抽出されたAnatomical Entity Mention (AnEM) コーパスを作成するためにbratが使用され、解剖学的エンティティ 11 クラスに注釈が付けられました。

※コーパスとは雑誌、新聞、書籍などに書かれた内容やコンピュータで検索・分析できるようにしたデータベースのことです。

参照元:プロジェクト ウェブサイト:Nactem anatomy page( https://www.nactem.ac.uk/anatomy/

参照元:【PDF】パブリケーション:Ohta et al., 2012( https://www.nactem.ac.uk/anatomy/docs/ohta2012opendomain.pdf

生物医学論文からコーパスをつくるプロジェクトにbratを利用

生物医学論文から6種類のエンティティ(細胞成分、細胞型、細胞株、遺伝子/タンパク質、解剖学的部分 (組織/臓器)、種)に分類して注釈をつけるCellFinderコーパス プロジェクトのためにbratが使用されました。

参照元:プロジェクト ウェブサイト:CellFinder project resource page( https://www.informatik.hu-berlin.de/de/forschung/gebiete/wbi/resources/cellfinder/

参照元:【PDF】パブリケーション: Neves et al., 2012 ( https://www.informatik.hu-berlin.de/de/forschung/gebiete/wbi/research/publications/2012/lrec2012_corpus.pdf

「brat」を運営する「GitHub, Inc.」とは

ソフトウェア開発者用のプラットフォームGitHub(ギットハブ:2018年よりマイクロソフト傘下)はアメリカのカリフォルニア州サンフランシスコに拠点があるGitHub, Inc.によって運用・保守が行われています。

ソースコードをGitHub上にホスティングすることで、さまざまな開発者とコードレビューをすることができるだけでなく、プロジェクト管理をしながらソフトウェア開発を行うことができます。ソースコードやプロジェクトの管理は管理ツールGitによって行われています。GitHubのアカウントには商用プランとオープンソース用の無料アカウントがあります。

基本情報

運営会社名 GitHub, Inc.
所在地 88 Colin P Kelly Jr Street San Francisco, CA 94107 United States
事業内容 GitHubの運用・管理
設立年または創業年 2008年
問合せ・連絡先 http://brat.nlplab.org/contact.html
営業時間(問合せ対応時間) 記載なし
公式サイトURL https://github.com/

重視するポイントで選ぶ
アノテーション代行サービス3選

重視するポイントで選ぶ
作業領域の広い
アノテーション代行サービス
3選

画像・動画・言語・音声などの作業領域が適応している代行サービスなら、 一通りのアノテーションは対応してくれますが、 より効率的に作業をすすめたいのであれば、 状況に応じた重視するポイントを把握しておくとよいでしょう
例えば、限られたAI開発予算のなかで大量のデータ処理が必要な場合は、コスパを重視して選ぶべきですし、 多種多様な言語や医療などの専門知識が必要なデータを処理する場合は、特殊な案件であっても代行可能な対応力を重視して選ぶべきです。
また、秘匿性の高い自社データを扱う場合は、信頼できる直接契約のアノテーターへ依頼ができるなどのセキュリティを重視する必要があるでしょう。
ここでは、画像・動画・言語・音声など、幅広い作業領域に対応できる代行サービスの中から、3つの重視するポイントに合ったサービスをご紹介します。

コストパフォーマンス
重視するなら

FastLabel
(ファストラベル)

ファストラベル公式サイトキャプチャ
引用元:FastLabel公式HP
(https://fastlabel.ai/annotation)
  • データ単位の従量課金制で画像アノテーションが2円(税不明)から利用可能
  • データ品質99.7%の納品実績(2023年10月時点)を実現する独自の品質チェックAIとのダブルチェック体制
品質の管理
アノテーター
教育の有無
責任者による
品質チェック

クラウドに対応

専門アノテーターによる
対応力を重視するなら

アッペンジャパン

アッペンジャパン株式会社公式サイトキャプチャ
引用元:アッペンジャパン公式HP
(https://appen.co.jp/what-we-do/)
  • 全世界にアノテーターが在籍しており、170か国、235言語に対応
  • 医師資格などの専門性の高い資格を持つアノテーターも在籍
品質の管理
アノテーター
教育の有無
責任者による
品質チェック

リモート/オンプレミスに対応

セキュリティの高さ
重視するなら

ヒューマンサイエンス

ヒューマンサイエンス公式サイトキャプチャ
引用元:ヒューマンサイエンス公式HP
(https://www.science.co.jp/annotation/index.html)
  • セキュリティルームの利用や依頼企業に常駐・オンサイトのみの作業も可能
  • クラウドワーカーではなく直接契約したアノテーターへの作業依頼も可能
品質の管理
アノテーター
教育の有無
責任者による
品質チェック

クラウド/オンサイトに対応

※選定条件
2023年10月6日調査時点において、「アノテーション サービス」でGoogle検索の表示上限までにでてきた39社の中で、 画像/動画/テキストといった幅広い領域のアノテーションに対応している企業の中から、以下の条件で3社をピックアップしています。
①FastLabel:公式HPに掲載されている料金が最も安いサービス(企業)(画像アノテーション2円(税不明)~)
②アッペンジャパン:公式HPに幅広い言語や専門分野に対応できるアノテータリソースの記述がある(企業)
③ヒューマンサイエンス:セキュリティに関する対策項目が最も多かったサービス(企業)

AI分野のアノテーションとは
わかりやすく解説