Architecture

Overview¶

diffsan is a single-process (monolithic) CLI with clear internal module boundaries. It is designed for:

strong debuggability (artifacts always written),
robust agent handling (Cursor retry/repair path and Codex structured-output path),
easy extension later (additional skip rules, agents, GitHub support).

The monolith is structured as a pipeline of modules with contracts defined in 02-contracts-and-schemas.md.

ConfigLoader: merge defaults + repo config + env + CLI args
DiffProvider: obtain MR diff (CI path is primary)
Preprocessor: ignore/prioritize/truncate + secret scan/redact
Fingerprinting: sha256(raw diff), deterministic finding IDs (optional)
PriorDigestResolver: fetch prior bot summary notes + inline discussions and extract digest
SkipEngine: decide whether to skip (MVP: auto-merge)
PromptBuilder: build agent prompt and inject diff + digest + flags (schema/rules are agent-dependent)
AgentRunner (Cursor/Codex): run selected agent CLI; cursor uses retry/repair, codex uses structured single-attempt execution
Parser/Validator: parse agent output to strict JSON and validate with Pydantic
Formatter: render summary markdown + collapsible metadata and truncation
GitLabPoster: post summary note and inline discussions with retries
Artifacts/Events: write prompt/output/review + structured events JSONL

load_config() -> AppConfig
get_diff() -> DiffBundle + write diff.raw.patch
prepare_diff() -> PreparedDiff + write diff.prepared.patch, truncation.json, redaction.json
compute_fingerprint(raw_diff) -> Fingerprint
get_prior_digest() -> PriorDigest | None + write prior_digest.json
decide_skip() -> SkipDecision
- if skip: write run.json ok=true with skip reason; exit 0
build_agent_request() -> AgentRequest + write prompt.txt
run_agent() -> AgentRawResponse + ReviewOutput
- cursor: retry/repair loop (run_agent_with_retries())
- codex: single-attempt structured run (run_codex_once())
- write agent.raw.txt (and optionally per-attempt outputs)
validate_review() -> ReviewOutput + write review.json
build_post_plan() -> PostPlan + write post_plan.json
post_to_gitlab() -> PostResults + write post_results.json
Write run.json and events.jsonl throughout

Standalone mode is minimal:

Artifacts must be written even on failure (prompt/raw output/review when available).
Secret redaction occurs before prompting.
Agent output must be validated as strict JSON before posting.
Cursor path requires repair retries; Codex path uses single-attempt structured output.
Avoid spam: verbosity configurable; inject compact prior digest; avoid repeating prior findings.
Tool exits non-zero on failures (pipeline can be configured allow-failure).