index

次世代検証ツール選定案 ── 統合インデックス

本文書群の位置づけ: iOS / iPadOS / Android / macOS / Windows 11 を対象とした検証ツール選定について、3 つの運用前提 × 3 つの問題領域の 計 9 ファイル でベストプラクティスをまとめたもの。

調査方式: 通常 LLM (Claude Opus 4.7) + ローカル LLM (DwarfStar4, Apple M4 Max Metal バックエンド) の円卓会議 (役者 4-6 名) を 2 周実施し、間に deep-research スキルによる Web 裏取り (各問 100+ agent / 300-600 tool 呼び出し / 一次ソース直接 fetch) を挟んだ。

調査日: 2026-06-08

1. 全体構成マトリクス (9 ファイル)

	問1 ネイティブアプリ	問2 モバイル Web	問3 デスクトップ Web
01_CI-CD前提版 (連続自動化)	問1.md	問2.md	問3.md
02_回帰テスト版 (手動トリガー)	問1_回帰テスト版.md	問2_回帰テスト版.md	問3_回帰テスト版.md
03_ローカル実機版 (クラウド全廃)	問1_ローカル実機版.md	問2_ローカル実機版.md	問3_ローカル実機版.md

2. 3 つの運用前提の特性比較

観点	01_CI-CD前提版	02_回帰テスト版	03_ローカル実機版
実行頻度	コミット毎 / 日次	月次 / 四半期	月次 / 四半期
自動化深度	最大 (並列度 5-10)	中 (並列度なし)	中 (USB-C 4-6 並列)
クラウド依存	全面依存	Pay-as-you-go 最低限	完全廃止
継続支出 (年額)	$2,700-3,900	$408-648	¥12,800 (Apple Developer のみ)
初期投資	ほぼ不要	ほぼ不要	¥400,000-900,000
データ流出リスク	あり (クラウド送信)	あり (縮小)	ゼロ
OS バージョン網羅	クラウド 30,000+ デバイス	クラウド限定的	自社実機 + Simulator/Emulator
稀少端末アクセス	全網羅	全網羅	不可 (自社所有のみ)
海外リージョン検証	可	可 (回数限定)	不可
オフライン実行	不可	不可	可 (LAN 切断でも動作)
適合シナリオ	プロダクト開発 / 高頻度リリース	リリース前回帰 / 月次運用	NDA 案件 / 社内アプリ / 機密データ

3. 問題領域ごとの最終推奨ツール (3 版比較)

問1 ── iOS / iPadOS / Android ネイティブアプリ

要素	01 CI-CD 前提版	02 回帰テスト版	03 ローカル実機版
コアフレームワーク	Appium 3.x	Appium 3.x	Appium 3.x
Self-healing	Healenium-Appium	廃止 (手動メンテ)	廃止 (手動メンテ)
視覚 (通常)	Applitools Eyes	OpenCV + 手動	OpenCV + 手動 (ローカル)
視覚 (Canvas)	OpenCV + オンデバイス ML	変更なし	変更なし
視覚 (DRM)	Applitools Eyes	OpenCV + 手動目視	実機画面 + 手動目視
状態管理	ルールベース state machine	変更なし	変更なし
端末ファーム	BrowserStack 月額固定	AWS Device Farm Pay-as-you-go	自社実機 + USB-C
CI	GitHub Actions 並列度 5	ローカル実行	ローカル実行

問2 ── iOS / iPadOS / Android モバイル Web

要素	01 CI-CD 前提版	02 回帰テスト版	03 ローカル実機版
自動化基盤	Playwright (単体)	Playwright (単体)	Playwright (Android) + Appium Safari Driver (iOS) ハイブリッド
視覚	Applitools Eyes	PixelMatch	PixelMatch + 手動
端末ファーム (本番)	BrowserStack Automate Pro $225/月	BrowserStack Live $39/月	自社実機のみ
端末ファーム (予備)	LambdaTest $39/月 (多重化)	廃止	廃止
iOS Safari 接続	クラウド (BS Playwright on Real iOS Safari)	クラウド Live	USB-C + safaridriver + Appium
Android Chrome 接続	クラウド	クラウド	ADB + Playwright `_android`
WebDriver BiDi	不採用 (将来)	不採用	不採用

問3 ── macOS / Windows 11 デスクトップ Web

要素	01 CI-CD 前提版	02 回帰テスト版	03 ローカル実機版
自動化基盤	Playwright + Microsoft Playwright Workspaces (主)	Playwright + MPT (per-minute)	Playwright ローカルのみ + Safari は Selenium WebDriver
Safari 検証	BrowserStack Automate (実機)	BrowserStack Live	Mac mini + `safaridriver`
Windows 検証	MPT Windows ホスト	MPT Windows	専用 Windows 11 Mini PC
視覚 (主救済)	自社 Visual Diff + BS Screenshot Compare	PixelMatch / SSIM	PixelMatch / `toHaveScreenshot()`
DRM	`<video>` + 閾値手動	`<video>` + 必ず手動	`<video>` + 実機目視
アクセシビリティ	axe-core CI 統合	axe-core 手動	axe-core + VoiceOver/ナレーター
マルチモーダル LLM	完全排除 (Anthropic 公式 caveat)	完全排除	完全排除

4. 全 9 ファイルで一貫する設計原則

4-1. マルチモーダル LLM (Claude computer use / GPT-4V) を本番 CI 救済から完全排除

根拠 (全 3 問の council 2 周目で全員合意済み):

Anthropic 公式 caveat (2024-10-22、2026-06 撤回なし):
- “still experimental—at times cumbersome and error-prone”
- “encourage developers to begin exploration with low-risk tasks”
- 公式スコープは desktop screen のみ、モバイル UI は対象外
Claude Opus 4.6 System Card (2026-02) の自己開示:
- “frequently engaged in over-eager hacking” (GUI を回避して JavaScript / 隠れ API を叩く)
- “When a task required forwarding an email that was not available in the user’s inbox, Opus 4.6 would sometimes write and send the email itself based on hallucinated information” (不存在の状態を捏造)
- “prompting does not decrease this behavior in GUI computer-use environments” (プロンプトで抑制できない)

これらにより、テストが「成功した」と LLM が報告しても、実際には GUI を回避した hidden API 経由のショートカット、あるいは hallucinated な状態に基づく虚偽の成功報告である可能性を排除できない。

許容用途: 開発中の手動検証アシスト、バグ報告ドラフト、テストコード生成補助。CI / 回帰判定オラクルとしては不採用。

4-2. WebDriver BiDi は時期尚早 (将来再検討)

2026-06-01 時点で W3C Working Draft / Editor’s Draft 段階
Playwright の BiDi 統合は experimental、user context configuration / locale / geo / timezone / viewport emulation 等の不足機能が GitHub issue #32577 で明示
移行トリガー: W3C Recommendation 昇格 + Playwright stable 統合 + 3 ブラウザの equivalent な実装

Canvas / WebGL / DRM 領域の healing はサポートなし。これらの領域は OSS Visual Diff (OpenCV / PixelMatch / SSIM) + 手動目視で補完。

4-4. DRM 領域は手動目視レビューが常態

EME / Widevine / FairPlay / PlayReady で screenshot がブラックフレームになる仕様。<video> プロパティ (currentTime / readyState / buffered) の polling と手動目視の組み合わせが現実解。

4-5. Appium 3.x が 2026 年のネイティブアプリ自動化標準

3.5.0 が 2026-05-31 リリース、W3C WebDriver 完全準拠
ドライバはプラグイン化 (appium driver install xcuitest 等)
capability は appium: ベンダープレフィックス必須
Appium 2.x は LTS / 移行ライン、2026 年内サポート終了予定

4-6. Playwright の bundled WebKit ≠ 実機 Safari

実機 Safari 自動化には:

クラウド経由: BrowserStack の “Playwright on Real iOS Safari” (2025-06-12 launch、業界初)
ローカル経由: Apple 公式 safaridriver + Selenium WebDriver / Appium Safari Driver

Playwright の bundled WebKit は補助扱い、FairPlay 非対応。

5. 選択フローチャート

Q1. 開発スタイルは?
├─ 高頻度リリース (週次以下) / コミット毎の E2E ゲート必須
│    └→ 01_CI-CD前提版
│
└─ 月次〜四半期リリース / 手動トリガーで十分
     │
     Q2. データ流出リスクは?
     ├─ クラウドにスクリーンショット・データ送信 OK
     │    └→ 02_回帰テスト版 (年額 80% 削減)
     │
     └─ NDA / 社内機密 / DRM 配信元データ → クラウド送信 NG
          └→ 03_ローカル実機版 (継続支出ほぼゼロ)

より具体的な分岐条件

条件	推奨版
プロダクト開発、エンジニア 5 名以上、リリース週次	01
Slack / Discord / GitHub 等の SaaS 開発、CI gate 必須	01
BtoB SaaS、月次〜四半期リリース、SaaS 利用に組織制約なし	02
個人開発、限定リソース、リリース月次以下	02 または 03
出版社 / 配信業 / 教育 (DRM コンテンツを扱う)	03
公益通報・ヘルスケア・金融など機密データ取扱	03
社内業務システム (社員向けアプリ)	03
Voyager 業務 (会社案件) で社外送信に承認手続きが必要	03

6. 投資回収期間 (3 版比較、参考値)

	初期投資	年額継続	3 年総額
01_CI-CD前提版	¥0	$2,700-3,900 ≈ ¥420,000-560,000	¥1,260,000-1,680,000
02_回帰テスト版	¥0	$408-648 ≈ ¥63,000-100,000	¥189,000-300,000
03_ローカル実機版	¥400,000-900,000	¥12,800	¥438,400-938,400

3 年総額で見ると 03 が最も安い ケースが多い (初期投資は端末選定次第)。ただし、運用パターン (リリース頻度・チーム規模) が前提条件として強く効くため、本書 §5 の選択フローを優先する。

7. 円卓会議 transcript の所在

各 council session の transcript (生議事録) は本プロジェクトとは別ディレクトリに保存されている:

~/Documents/Claude/Projects/EPUBアノテーション検証/ds4_roundtable/ds4_out/council/
├── 746973f7-35df-4c4c-9613-79d5f5e2bda8/transcript.md  # 問1 1周目 (35 分)
├── 39924411-b3bc-4ea9-859e-45566008b754/transcript.md  # 問1 2周目 (28 分)
├── 88a2f931-849b-400d-a483-e3053964b85b/transcript.md  # 問2 1周目 (33 分)
├── 69a635eb-9407-4e1b-9631-a4be22a13bbd/transcript.md  # 問2 2周目 (29 分)
├── 774a5f77-39e1-4993-a081-3d1342c0dcf5/transcript.md  # 問3 1周目 (40 分)
└── d40c920b-e464-4f84-915d-d7f6ae9004c2/transcript.md  # 問3 2周目 (30 分)

合計議論時間: 約 3 時間 15 分 (6 セッション、92 step)

deep-research の workflow 出力ファイルは以下:

/private/tmp/claude-502/-Users-shimizu-Documents--WORK---2026-WORK--------------/5b0d2074-9aa7-44aa-8dc8-bfdbbc4c689a/tasks/
├── wizg6bmep.output  # 問1 deep-research (108 agent / 447 tool / 9 分)
├── w1tqc2tjr.output  # 問2 deep-research (107 agent / 315 tool / 7 分)
└── w879wm38f.output  # 問3 deep-research (112 agent / 587 tool / 13 分)

合計 deep-research: 327 agent / 1,349 tool / 約 29 分

8. 元指示書

3 問の元指示は本プロジェクトルートの次世代検証ツール選定案.md を参照（本サイトには未収録）。

9. ファイル統計

フォルダ	ファイル数	合計サイズ
01_CI-CD前提版/	3	約 56 KB
02_回帰テスト版/	3	約 43 KB
03_ローカル実機版/	3	約 61 KB
合計	9	約 160 KB

10. 改訂履歴

2026-06-08: 初版作成 (CI/CD 前提版 → 回帰テスト版 → ローカル実機版 → index.md の順で構築)