クイックスタート
まずは、スクリプトの冒頭でweave.init(project=...) を呼び出すだけです。project 引数 を使用して、team-name/project-name で特定の W&B Team 名に ログ を記録するか、project-name を指定してデフォルトの チーム / Entity に ログ を記録します。
呼び出しメタデータの追跡
Verdict パイプライン の呼び出しから メタデータ を追跡するには、weave.attributes コンテキストマネージャを使用できます。このコンテキストマネージャを使用すると、パイプライン の実行や評価バッチなど、特定の コード ブロックに対してカスタム メタデータ を設定できます。
トレース
AI 評価 パイプライン の トレース を中央データベースに保存することは、開発と プロダクション の両方の段階において極めて重要です。これらの トレース は、貴重な データセット を提供することで、評価 ワークフロー の デバッグ や改善に不可欠な役割を果たします。 Weave は Verdict アプリケーション の トレース を自動的にキャプチャします。Verdict ライブラリを通じて行われる以下のようなすべての呼び出しを追跡し、ログ を記録します。- パイプライン 実行ステップ
- ジャッジユニットによる 評価
- レイヤー変換
- プーリング操作
- カスタムユニットおよび変換
パイプライン トレース の例
以下は、Weave がネストされた パイプライン 操作をどのように トレース するかを示す、より複雑な例です。- メインの Pipeline 実行
- Layer 内の各 JudgeUnit 評価
- MeanPoolUnit 集計ステップ
- 各操作のタイミング情報
設定
weave.init() を呼び出すと、Verdict パイプライン の トレース が自動的に有効になります。この インテグレーション は、Pipeline.__init__ メソッドをパッチして VerdictTracer を挿入し、すべての トレース データを Weave に転送することで動作します。
追加の設定は不要です。Weave は自動的に以下を行います。
- すべての パイプライン 操作をキャプチャ
- 実行タイミングの追跡
- 入力と出力の ログ 記録
- トレース の階層構造の維持
- パイプライン の並列実行の処理
カスタムトレーサーと Weave
アプリケーション でカスタムの Verdict トレーサーを使用している場合でも、Weave のVerdictTracer はそれらと併用できます。
Models と Evaluations
複数の パイプライン コンポーネントを持つ AI システムを整理し評価することは困難な場合があります。weave.Model を使用すると、プロンプト、パイプライン 設定、評価 パラメータ などの実験の詳細をキャプチャして整理でき、異なるイテレーションの比較が容易になります。
次の例では、Verdict パイプライン を WeaveModel でラップする方法を示します。
Evaluations
Evaluations(評価)は、評価 パイプライン 自体のパフォーマンスを測定するのに役立ちます。weave.Evaluation クラスを使用することで、特定のタスクや データセット に対して Verdict パイプライン がどの程度良好に機能するかをキャプチャできます。