すべての業界
株式会社 APTO
日本のスタートアップである APTO は、ソフトバンクグループ、富士通、日本の様々な研究所に加えて、 NAVER Cloud など国内外の著名な AI 開発企業にデータセットを提供しています。組織や業界、職種を深く理解する「ドメイン特化型 AI」が求められる中、専門性と信頼性が高いデータを用意するには労力がかかります。 APTO は、データセットを設計、生成、整備できる「NVIDIA NeMo Data Designer」「Nemotron-Personas-Japan」「NVIDIA NeMo Curator」を使い、作業時間の大幅な削減に成功しました。
AI の学習やチューニングに使うデータセットを AI 開発企業に提供する APTO 。創業者の高品良氏は、 「データ セントリックな AI 開発を支える」というミッションを掲げます。同氏は「AI 開発は、データが問題で頓挫するケースが多くあります。いまや AI 開発工程の約 80 %をデータ収集やアノテーションが占めており、そこを重点的に支援しています」と説明します。
特に求められているのが、専門性が高いデータです。生成 AI ブームによって企業の AI 開発や導入が加速する中、汎用 (はんよう) 的な AI ではなく、国や組織、業界、職種といった特定のドメインを深く理解する AI が重要度を増しています。 APTO は、専門知識を持つクラウド ワーカーがデータを作成するプラットフォーム「harBest」や専門家とのコネクションを生かしてデータを収集できる「harBest Expert」を提供しています。「日本語の請求書や契約書」「現役農家が作った農業専門のインストラクション データ」「出雲弁と標準語のセット」といった専門性が高いデータを 150 社以上の企業に提供しています。
国産 LLM (大規模言語モデル) を開発する LINE ヤフーは「広範なデータ収集チャネルを持つ APTO は、信頼できるパートナーであり、今後のデータ調達においても引き続き頼りたい」と信頼を寄せています。
株式会社 APTO
「数百万点の画像データがほしい」「数十万行のコーディング データはあるか」―― APTO に届くのは、こうした依頼です。高品氏は「提携先のストック フォト サービスから画像を入手し、重複を排除して、ラベルを付け、……という作業の全てを人間が対応するのは簡単ではありません」と話します。データの量と質を確保するため、これまではエンジニアが手作業で対応していました。
大量のデータを効率的に整備する方法として APTO が選んだのが、データセットのキュレーションを加速させるライブラリ「NVIDIA NeMo Curator」です。データの分類、フィルタリング、個人識別情報の削除といった作業を自動化できます。 APTO はフィルタリング機能を活用しており「テキストの正確性の確認」「低品質なサンプルの除外」「ドメイン外のデータの除去」「重複コンテンツの排除」「機密情報のマスキング」などのフィルターを組み合わせることで「品質を犠牲にすることなく、データセット作成の速度を大幅に向上させられました」 (高品 氏)。
国内企業としていち早くNeMo Curator を使った APTO 。これまで長期にわたっていたデータ整備の作業を わずか 3 週間で完了できるようになりました。要件に合わない会話データのうち 3 分の 1 を自動除外できるようになり、 83 人時の削減に成功。また、NeMo Curator を使用することで、膨大なデータの自動除外やフィルタリングを従来のパイプラインと比べて約 1.3 倍も高速化できました。扱うデータ量を考慮すると、この数字は大きなインパクトがあると言えます。こうした効率化により、エンジニアがより高度なレビューや性能評価に集中できるようになったと高品氏は言います。
「NVIDIA NeMo Curator を使うことで合成データの生成を高速化し『極めて厳しい納期内での、高品質で安全性が高いデータセットの開発』を実現できました」
高品 良 氏
代表取締役社長 CEO
APTO は、データの生成にも取り組んでいます。インターネットに公開されていないデータは、作るしかありません。高品 氏は「人間が作れる量には限界があり、高度に専門的なデータは 1 時間に 1 件しか作れないこともあるため、合成データの生成を目指しています」と意気込みます。
合成データの生成プロセスや品質を検証する場として「安全な AI モデル」を支えるデータセットの構築プロジェクトを選びました。生成 AI が「違法行為に加担する」「医療や金融などセンシティブな領域で誤った回答をする」という事態を避けるため、データセットの観点からアプローチできることを探す狙いがあります。
同プロジェクトでは、オープンソースの LLM を使って「日本の高齢者が使う際のリスクを軽減する」という目標を設定。 LLM に疑似攻撃を仕掛けて弱点を探る「レッド チーミング」で必要になる「高齢者のペルソナ」「悪意ある攻撃用プロンプト」を作成するために合成データの生成を試しました。
日本の人口動態や文化を反映した NVIDIA のオープン データセット「Nemotron-Personas-Japan」とデータセットを設計、生成できるフレームワーク「NVIDIA NeMo Data Designer」を使い、 200 件以上のペルソナを生成。 NeMo Data Desginer の Validator 機能でフィルタリングして品質を高めました。このペルソナから高齢者の振る舞いを想定した攻撃用プロンプトを作って実行し、弱点を基に 1,000 件以上の追加学習用データを生成して LLM の安全対策を強化しました。
100 件の攻撃プロンプトを実行して LLM の安全性を評価すると、元の LLM の攻撃成功率は 6% に上った一方で、安全対策を施した LLM は攻撃成功率を 0% に抑えられました。高品氏は「リアリティがある良質なペルソナのおかげで、日本人に見られるニュアンスに富んだ振る舞いをモデル化できました」と評価します。
「合成データ生成は、LLM の安全性向上において極めて有効なアプローチであり、 NVIDIA NeMo Data Designer はそのための強力なツールです」
高品 良 氏
代表取締役社長 CEO
株式会社 APTO
APTO の検証によると、NVIDIA NeMo Data Designer を使うことで、手作業でデータ生成した場合に比べて「ペルソナ」は約 10 倍、「トレーニング データ」は約 2 倍、「評価データ」は約 2 倍のデータ量が得られます
高品氏は「これまでは『データの量』が求められましたが、現在は『データの質』も重視されています」と語ります。 APTO の強みは、データを専門的に扱ってきたエンジニアの存在です。彼らの「手」と、データを効率的に扱える「NVIDIA のソリューション」を組み合わせることで、高品質なデータを迅速に提供できるはずです。
同社はロボティクス領域への展開も見据えており、高品氏は「LLM の安全性に関する実証結果は大きな自信になりました。特定の領域やニーズを満たすデータを用意し、安全性も含めて信頼できるデータセットとしてお客さまに提供します」と結びます。
NVIDIA NeMo Curator でデータセットの設計、生成をする方法とチュートリアルをご確認ください。