index

次世代検証ツール選定案 ── 統合インデックス

本文書群の位置づけ: iOS / iPadOS / Android / macOS / Windows 11 を対象とした検証ツール選定について、3 つの運用前提 × 3 つの問題領域の 計 9 ファイル でベストプラクティスをまとめたもの。

調査方式: 通常 LLM (Claude Opus 4.7) + ローカル LLM (DwarfStar4, Apple M4 Max Metal バックエンド) の円卓会議 (役者 4-6 名) を 2 周実施し、間に deep-research スキルによる Web 裏取り (各問 100+ agent / 300-600 tool 呼び出し / 一次ソース直接 fetch) を挟んだ。

調査日: 2026-06-08


1. 全体構成マトリクス (9 ファイル)

問1 ネイティブアプリ 問2 モバイル Web 問3 デスクトップ Web
01_CI-CD前提版 (連続自動化) 問1.md 問2.md 問3.md
02_回帰テスト版 (手動トリガー) 問1_回帰テスト版.md 問2_回帰テスト版.md 問3_回帰テスト版.md
03_ローカル実機版 (クラウド全廃) 問1_ローカル実機版.md 問2_ローカル実機版.md 問3_ローカル実機版.md

2. 3 つの運用前提の特性比較

観点 01_CI-CD前提版 02_回帰テスト版 03_ローカル実機版
実行頻度 コミット毎 / 日次 月次 / 四半期 月次 / 四半期
自動化深度 最大 (並列度 5-10) 中 (並列度なし) 中 (USB-C 4-6 並列)
クラウド依存 全面依存 Pay-as-you-go 最低限 完全廃止
継続支出 (年額) $2,700-3,900 $408-648 ¥12,800 (Apple Developer のみ)
初期投資 ほぼ不要 ほぼ不要 ¥400,000-900,000
データ流出リスク あり (クラウド送信) あり (縮小) ゼロ
OS バージョン網羅 クラウド 30,000+ デバイス クラウド限定的 自社実機 + Simulator/Emulator
稀少端末アクセス 全網羅 全網羅 不可 (自社所有のみ)
海外リージョン検証 可 (回数限定) 不可
オフライン実行 不可 不可 可 (LAN 切断でも動作)
適合シナリオ プロダクト開発 / 高頻度リリース リリース前回帰 / 月次運用 NDA 案件 / 社内アプリ / 機密データ

3. 問題領域ごとの最終推奨ツール (3 版比較)

問1 ── iOS / iPadOS / Android ネイティブアプリ

要素 01 CI-CD 前提版 02 回帰テスト版 03 ローカル実機版
コアフレームワーク Appium 3.x Appium 3.x Appium 3.x
Self-healing Healenium-Appium 廃止 (手動メンテ) 廃止 (手動メンテ)
視覚 (通常) Applitools Eyes OpenCV + 手動 OpenCV + 手動 (ローカル)
視覚 (Canvas) OpenCV + オンデバイス ML 変更なし 変更なし
視覚 (DRM) Applitools Eyes OpenCV + 手動目視 実機画面 + 手動目視
状態管理 ルールベース state machine 変更なし 変更なし
端末ファーム BrowserStack 月額固定 AWS Device Farm Pay-as-you-go 自社実機 + USB-C
CI GitHub Actions 並列度 5 ローカル実行 ローカル実行

問2 ── iOS / iPadOS / Android モバイル Web

要素 01 CI-CD 前提版 02 回帰テスト版 03 ローカル実機版
自動化基盤 Playwright (単体) Playwright (単体) Playwright (Android) + Appium Safari Driver (iOS) ハイブリッド
視覚 Applitools Eyes PixelMatch PixelMatch + 手動
端末ファーム (本番) BrowserStack Automate Pro $225/月 BrowserStack Live $39/月 自社実機のみ
端末ファーム (予備) LambdaTest $39/月 (多重化) 廃止 廃止
iOS Safari 接続 クラウド (BS Playwright on Real iOS Safari) クラウド Live USB-C + safaridriver + Appium
Android Chrome 接続 クラウド クラウド ADB + Playwright _android
WebDriver BiDi 不採用 (将来) 不採用 不採用

問3 ── macOS / Windows 11 デスクトップ Web

要素 01 CI-CD 前提版 02 回帰テスト版 03 ローカル実機版
自動化基盤 Playwright + Microsoft Playwright Workspaces (主) Playwright + MPT (per-minute) Playwright ローカルのみ + Safari は Selenium WebDriver
Safari 検証 BrowserStack Automate (実機) BrowserStack Live Mac mini + safaridriver
Windows 検証 MPT Windows ホスト MPT Windows 専用 Windows 11 Mini PC
視覚 (主救済) 自社 Visual Diff + BS Screenshot Compare PixelMatch / SSIM PixelMatch / toHaveScreenshot()
DRM <video> + 閾値手動 <video> + 必ず手動 <video> + 実機目視
アクセシビリティ axe-core CI 統合 axe-core 手動 axe-core + VoiceOver/ナレーター
マルチモーダル LLM 完全排除 (Anthropic 公式 caveat) 完全排除 完全排除

4. 全 9 ファイルで一貫する設計原則

4-1. マルチモーダル LLM (Claude computer use / GPT-4V) を本番 CI 救済から完全排除

根拠 (全 3 問の council 2 周目で全員合意済み):

  1. Anthropic 公式 caveat (2024-10-22、2026-06 撤回なし):

  2. Claude Opus 4.6 System Card (2026-02) の自己開示:

これらにより、テストが「成功した」と LLM が報告しても、実際には GUI を回避した hidden API 経由のショートカット、あるいは hallucinated な状態に基づく虚偽の成功報告である可能性を排除できない。

許容用途: 開発中の手動検証アシスト、バグ報告ドラフト、テストコード生成補助。CI / 回帰判定オラクルとしては不採用

4-2. WebDriver BiDi は時期尚早 (将来再検討)

4-3. Healenium 等の self-healing は DOM / a11y locator 層のみ

Canvas / WebGL / DRM 領域の healing はサポートなし。これらの領域は OSS Visual Diff (OpenCV / PixelMatch / SSIM) + 手動目視で補完。

4-4. DRM 領域は手動目視レビューが常態

EME / Widevine / FairPlay / PlayReady で screenshot がブラックフレームになる仕様。<video> プロパティ (currentTime / readyState / buffered) の polling と手動目視の組み合わせが現実解。

4-5. Appium 3.x が 2026 年のネイティブアプリ自動化標準

4-6. Playwright の bundled WebKit ≠ 実機 Safari

実機 Safari 自動化には:

Playwright の bundled WebKit は補助扱い、FairPlay 非対応。


5. 選択フローチャート

Q1. 開発スタイルは?
├─ 高頻度リリース (週次以下) / コミット毎の E2E ゲート必須
│    └→ 01_CI-CD前提版
│
└─ 月次〜四半期リリース / 手動トリガーで十分
     │
     Q2. データ流出リスクは?
     ├─ クラウドにスクリーンショット・データ送信 OK
     │    └→ 02_回帰テスト版 (年額 80% 削減)
     │
     └─ NDA / 社内機密 / DRM 配信元データ → クラウド送信 NG
          └→ 03_ローカル実機版 (継続支出ほぼゼロ)

より具体的な分岐条件

条件 推奨版
プロダクト開発、エンジニア 5 名以上、リリース週次 01
Slack / Discord / GitHub 等の SaaS 開発、CI gate 必須 01
BtoB SaaS、月次〜四半期リリース、SaaS 利用に組織制約なし 02
個人開発、限定リソース、リリース月次以下 02 または 03
出版社 / 配信業 / 教育 (DRM コンテンツを扱う) 03
公益通報・ヘルスケア・金融など機密データ取扱 03
社内業務システム (社員向けアプリ) 03
Voyager 業務 (会社案件) で社外送信に承認手続きが必要 03

6. 投資回収期間 (3 版比較、参考値)

初期投資 年額継続 3 年総額
01_CI-CD前提版 ¥0 $2,700-3,900 ≈ ¥420,000-560,000 ¥1,260,000-1,680,000
02_回帰テスト版 ¥0 $408-648 ≈ ¥63,000-100,000 ¥189,000-300,000
03_ローカル実機版 ¥400,000-900,000 ¥12,800 ¥438,400-938,400

3 年総額で見ると 03 が最も安い ケースが多い (初期投資は端末選定次第)。ただし、運用パターン (リリース頻度・チーム規模) が前提条件として強く効くため、本書 §5 の選択フローを優先する。


7. 円卓会議 transcript の所在

各 council session の transcript (生議事録) は本プロジェクトとは別ディレクトリに保存されている:

~/Documents/Claude/Projects/EPUBアノテーション検証/ds4_roundtable/ds4_out/council/
├── 746973f7-35df-4c4c-9613-79d5f5e2bda8/transcript.md  # 問1 1周目 (35 分)
├── 39924411-b3bc-4ea9-859e-45566008b754/transcript.md  # 問1 2周目 (28 分)
├── 88a2f931-849b-400d-a483-e3053964b85b/transcript.md  # 問2 1周目 (33 分)
├── 69a635eb-9407-4e1b-9631-a4be22a13bbd/transcript.md  # 問2 2周目 (29 分)
├── 774a5f77-39e1-4993-a081-3d1342c0dcf5/transcript.md  # 問3 1周目 (40 分)
└── d40c920b-e464-4f84-915d-d7f6ae9004c2/transcript.md  # 問3 2周目 (30 分)

合計議論時間: 約 3 時間 15 分 (6 セッション、92 step)

deep-research の workflow 出力ファイルは以下:

/private/tmp/claude-502/-Users-shimizu-Documents--WORK---2026-WORK--------------/5b0d2074-9aa7-44aa-8dc8-bfdbbc4c689a/tasks/
├── wizg6bmep.output  # 問1 deep-research (108 agent / 447 tool / 9 分)
├── w1tqc2tjr.output  # 問2 deep-research (107 agent / 315 tool / 7 分)
└── w879wm38f.output  # 問3 deep-research (112 agent / 587 tool / 13 分)

合計 deep-research: 327 agent / 1,349 tool / 約 29 分


8. 元指示書

3 問の元指示は本プロジェクトルートの 次世代検証ツール選定案.md を参照(本サイトには未収録)。


9. ファイル統計

フォルダ ファイル数 合計サイズ
01_CI-CD前提版/ 3 約 56 KB
02_回帰テスト版/ 3 約 43 KB
03_ローカル実機版/ 3 約 61 KB
合計 9 約 160 KB

10. 改訂履歴