MITライセンスのオープンソースとして提供されているbratは、自然言語処理用のテキストアノテーションツールです。WindowsやmacOSで利用でき、個人でスタンドアロンとして使うことはもちろん、サーバー上で動かせば複数人でアノテーション作業を行うことができます。構造化されたアノテーション用に設計されているので、コンピュータによる自動アノテーションを行うことも可能です。
見たままのものをアノテーションするという概念に基づいて開発されたツールなので、マウスでテキストをドラッグするかダブルクリックして単語を選択し、その部分に対してラベル付けをするだけ。直観的に編集することができます。また1つのアノテーションをマウスでクリックし接続ラインを関連づけたいアノテーションにドラッグすることで、2つのアノテーション間の関係追加も簡単にできます。
bratのv1.3 (Crunchy Frog) から正規化がサポートされ、アノテーションを外部データベース内のデータ、Wikipedia、Freebase、Open Biomedical Ontologies などの語彙やオントロジー(情報科学) リソースに関連付けるためのさまざまな機能も搭載されています。サーバーとクライアント両方ともUnicodeをサポートし、100近くの言語テキストのアノテーションが可能です。
自動化ツールを利用して内製しても、人手が足りない、単調な作業で担当者が疲弊する、精度にバラつきがあるという課題がある場合アノテーション代行サービスを利用するのが効率的です。こちらでは、コスパ・対応力・セキュリティなど、重視するポイント別に幅広いアノテーション対応領域に対応している代行サービスを紹介しています。
選択されたドキュメントのテキストとアノテーションが視覚化されて表示され、テキストの範囲をマウスで選択してアノテーションを追加します。
あるアノテーションから別のアノテーションにマウスをドラッグして関連付けを追加します。
テキストマッチングにSimStringを使って正規化します。
※SimStringは類似文字列を検索するためのシンプルで高速なライブラリで、修正BSDライセンスで提供されています。
作成されたアノテーションデータはテキスト ファイル ( .txt )、アノテーションファイル ( .ann )でエクスポートできます。
※公式サイトで確認できませんでした
bratユーザーグループ(https://groups.google.com/g/brat-users?pli=1)に参加した後、質問メールを投稿したり、過去の質問を検索したりできます(グループ参加リクエストメールアドレス:brat-users+subscribe@googlegroups.com、投稿メールアドレス:brat-users@googlegroups.com)。
また、GitHubのour issue trackerページ(https://github.com/jsbroks/coco-annotator/)で機能リクエストやバグ報告ができます。
bratはMIT Licenseのオープンソースとして提供されています。誰でもフリー利用が可能で、再配布、商用利用もできます。利用時には「著作権の表示」と「MITライセンス全文かMITライセンス全文が記載されているURL」を記載する必要があります。
参照元:tldrlegal( https://www.tldrlegal.com/license/mit-license)
PubMed(米国国立医学図書館:NLMの作成するMEDLINEなど、世界の医学系雑誌に掲載された論文の要約や参考文献を調べることができるデータベース)から抽出されたAnatomical Entity Mention (AnEM) コーパスを作成するためにbratが使用され、解剖学的エンティティ 11 クラスに注釈が付けられました。
※コーパスとは雑誌、新聞、書籍などに書かれた内容やコンピュータで検索・分析できるようにしたデータベースのことです。
参照元:プロジェクト ウェブサイト:Nactem anatomy page( https://www.nactem.ac.uk/anatomy/)
参照元:【PDF】パブリケーション:Ohta et al., 2012( https://www.nactem.ac.uk/anatomy/docs/ohta2012opendomain.pdf)
生物医学論文から6種類のエンティティ(細胞成分、細胞型、細胞株、遺伝子/タンパク質、解剖学的部分 (組織/臓器)、種)に分類して注釈をつけるCellFinderコーパス プロジェクトのためにbratが使用されました。
参照元:プロジェクト ウェブサイト:CellFinder project resource page( https://www.informatik.hu-berlin.de/de/forschung/gebiete/wbi/resources/cellfinder/)
参照元:【PDF】パブリケーション: Neves et al., 2012 ( https://www.informatik.hu-berlin.de/de/forschung/gebiete/wbi/research/publications/2012/lrec2012_corpus.pdf)
ソフトウェア開発者用のプラットフォームGitHub(ギットハブ:2018年よりマイクロソフト傘下)はアメリカのカリフォルニア州サンフランシスコに拠点があるGitHub, Inc.によって運用・保守が行われています。
ソースコードをGitHub上にホスティングすることで、さまざまな開発者とコードレビューをすることができるだけでなく、プロジェクト管理をしながらソフトウェア開発を行うことができます。ソースコードやプロジェクトの管理は管理ツールGitによって行われています。GitHubのアカウントには商用プランとオープンソース用の無料アカウントがあります。
運営会社名 | GitHub, Inc. |
---|---|
所在地 | 88 Colin P Kelly Jr Street San Francisco, CA 94107 United States |
事業内容 | GitHubの運用・管理 |
設立年または創業年 | 2008年 |
問合せ・連絡先 | http://brat.nlplab.org/contact.html |
営業時間(問合せ対応時間) | 記載なし |
公式サイトURL | https://github.com/ |
画像・動画・言語・音声などの作業領域が適応している代行サービスなら、
一通りのアノテーションは対応してくれますが、
より効率的に作業をすすめたいのであれば、
状況に応じた重視するポイントを把握しておくとよいでしょう。
例えば、限られたAI開発予算のなかで大量のデータ処理が必要な場合は、コスパを重視して選ぶべきですし、
多種多様な言語や医療などの専門知識が必要なデータを処理する場合は、特殊な案件であっても代行可能な対応力を重視して選ぶべきです。
また、秘匿性の高い自社データを扱う場合は、信頼できる直接契約のアノテーターへ依頼ができるなどのセキュリティを重視する必要があるでしょう。
ここでは、画像・動画・言語・音声など、幅広い作業領域に対応できる代行サービスの中から、3つの重視するポイントに合ったサービスをご紹介します。
コストパフォーマンスを
重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
〇 |
責任者による 品質チェック |
〇 |
クラウドに対応
専門アノテーターによる
対応力を重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
― |
責任者による 品質チェック |
〇 |
リモート/オンプレミスに対応
セキュリティの高さを
重視するなら
品質の管理 | |
---|---|
アノテーター 教育の有無 |
〇 |
責任者による 品質チェック |
〇 |
クラウド/オンサイトに対応
※選定条件
2023年10月6日調査時点において、「アノテーション サービス」でGoogle検索の表示上限までにでてきた39社の中で、
画像/動画/テキストといった幅広い領域のアノテーションに対応している企業の中から、以下の条件で3社をピックアップしています。
①FastLabel:公式HPに掲載されている料金が最も安いサービス(企業)(画像アノテーション2円(税不明)~)
②アッペンジャパン:公式HPに幅広い言語や専門分野に対応できるアノテータリソースの記述がある(企業)
③ヒューマンサイエンス:セキュリティに関する対策項目が最も多かったサービス(企業)