Caveman và Ponytail - Hai "nhân sự" bạn nên tuyển vào team khi Vibe Code

Nếu dùng Claude Code, Codex hay Cursor mỗi ngày, chắc bạn từng gặp cảnh này: chỉ nhờ sửa một lỗi nhỏ mà AI lại viết cả đoạn văn giải thích trước khi bắt tay vào làm, hoặc chỉ cần một ô chọn ngày mà nó lôi thêm cả thư viện, wrapper, rồi bàn luận về xử lý múi giờ. Hai dự án đang gây chú ý trên GitHub gần đây — Caveman và Ponytail — sinh ra để trị đúng hai tật này. Không phải model mới, không phải framework AI Agent, chúng chỉ là bộ quy tắc nạp vào AI mà bạn đang dùng.

Caveman: dạy AI bớt nói

Caveman và Ponytail - Hai "nhân sự" bạn nên tuyển vào team khi Vibe Code - 1 — Caveman

Caveman là một skill/plugin cài vào Claude Code, Codex và hơn 30 công cụ AI Agent khác, với mục tiêu duy nhất: ép AI trả lời ngắn gọn, bỏ phần rào trước đón sau, chỉ giữ lại thông tin kỹ thuật cần thiết. Thay vì “Lý do component React của bạn bị re-render nhiều lần có thể là vì…”, Caveman sẽ trả lời thẳng: “Ref đối tượng mới mỗi lần render. Bọc trong useMemo.”

Theo benchmark mà nhóm phát triển công bố, mức giảm token đầu ra trung bình khoảng 65% trên 10 tác vụ thử nghiệm, dao động từ 22% đến 87% tùy loại việc. Ví dụ nổi bật nhất — giải thích lỗi re-render trong React — giảm từ 69 xuống còn 19 token, tương đương khoảng 72%. Điều quan trọng cần hiểu: Caveman không làm AI suy luận ít đi hay “nghĩ” kém hơn. Token dùng để suy luận (reasoning) vẫn giữ nguyên, Caveman chỉ nén phần AI nói ra. Nói cách khác: não vẫn to, chỉ có miệng nhỏ lại.

Mẹo nhỏ: Caveman có 4 mức độ “cà lăm” khác nhau — lite, full, ultra và cả wenyan (kiểu Hán văn cổ, còn ngắn hơn nữa). Gõ /caveman để bật, nói “normal mode” để tắt.

Cách cài Caveman

Cần máy đã cài Node từ bản 18 trở lên. Mở terminal, chạy đúng một dòng:

# macOS / Linux / WSL / Git Bash
curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash

# Windows (PowerShell 5.1 trở lên)
irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex

Script tự dò máy bạn đang có công cụ AI Agent nào (Claude Code, Codex, Cursor…) rồi cài vào từng cái, mất khoảng 30 giây. Cái nào máy không có thì bỏ qua, không báo lỗi. Chạy lại nhiều lần cũng không sao.

Cách dùng Caveman

Gõ /caveman trong Claude Code hoặc Codex để bật, nói “normal mode” để tắt.
Chọn mức độ ngắn gọn bằng /caveman lite, /caveman full (mặc định), /caveman ultra, hoặc /caveman wenyan nếu muốn ngắn tới mức khó tin.
Vài lệnh phụ hay dùng: /caveman-commit (viết commit message ngắn gọn), /caveman-review (review PR theo kiểu một dòng một lỗi), /caveman-stats (xem đã tiết kiệm bao nhiêu token, quy ra cả tiền).

Lưu ý: Caveman chỉ nén phần AI trả lời, không ảnh hưởng đến phần AI suy nghĩ. Đừng lo AI làm việc ẩu hơn khi bật tính năng này.

Repo này: github.com/JuliusBrussee/caveman

Ponytail: dạy AI bớt viết code thừa

Caveman và Ponytail - Hai "nhân sự" bạn nên tuyển vào team khi Vibe Code - 2 — Ponytail

Nếu Caveman xử lý phần “lời nói” thì Ponytail nhắm vào phần “hành động” — cụ thể là tật over-engineering, tức là chỉ một yêu cầu rất đơn giản nhưng AI lại tạo ra hàng loạt abstraction, cài thêm thư viện không cần thiết cho một bài toán vốn chỉ cần vài dòng code. Ví dụ kinh điển được nhắc trong tài liệu dự án: bạn chỉ cần chọn ngày, AI thay vì dùng ngay thẻ <input type="date"> có sẵn của trình duyệt lại đi cài flatpickr, viết thêm component bọc ngoài, thêm cả stylesheet riêng.

Triết lý của Ponytail là một “bậc thang” ưu tiên trước khi viết bất kỳ dòng code nào: có thực sự cần tồn tại không → đã có sẵn trong codebase chưa → thư viện chuẩn của ngôn ngữ có làm được không → tính năng gốc của nền tảng có sẵn không → rồi mới đến viết mới. Quan trọng là Ponytail không cắt bớt phần kiểm tra bảo mật, xử lý lỗi hay khả năng truy cập — chỉ cắt phần code thừa không cần thiết.

Về con số, đo trên một phiên Claude Code thực tế chỉnh sửa một repo FastAPI + React thật (không phải benchmark một câu một câu trả lời), Ponytail giảm khoảng 54% số dòng code so với baseline không dùng skill, có trường hợp lên tới 94% (ví dụ ô chọn ngày, chọn màu — nơi AI vốn hay “xây dựng thừa”). Đi kèm là giảm khoảng 20% chi phí, giảm 27% thời gian hoàn thành, và vẫn giữ nguyên mức độ an toàn 100% so với baseline.

Lưu ý: nhóm phát triển cũng minh bạch rằng con số cũ (80–94%) từng công bố là đo trên một lần sinh code đơn lẻ, không phải trên một phiên agent làm việc thật — nên số liệu agentic (54% trung bình) mới là số đáng tin hơn để tham khảo.

Cách cài Ponytail

Với Claude Code, gõ hai lệnh này trong chat (phải gửi hai lần riêng, gộp chung không chạy được):

/plugin marketplace add DietrichGebert/ponytail

/plugin install ponytail@ponytail

Với bản desktop app của Claude Code chưa có lệnh /plugin, phải cài qua giao diện: vào Customize → bấm dấu + ở mục personal plugins → Create plugin and add marketplace → Add from repository → dán link repo vào.

Với Codex thì gõ:

codex plugin marketplace add DietrichGebert/ponytail
codex

Sau đó mở /plugins, chọn marketplace Ponytail, cài vào, rồi mở /hooks để xác nhận tin tưởng hai hook mà nó cần, cuối cùng mở lại phiên chat mới.

Cursor, Windsurf, Cline, GitHub Copilot thì không có cơ chế cài plugin, chỉ cần copy file rule tương ứng từ repo (.cursor/rules/, .windsurf/rules/…) vào đúng thư mục — chi tiết nằm trong README của repo.

Cách dùng Ponytail

Ponytail tự động bật ngay sau khi cài, không cần gõ lệnh kích hoạt như Caveman.
Gõ /ponytail để xem đang ở mức nào, hoặc /ponytail lite, /ponytail full (mặc định), /ponytail ultra để đổi mức độ “lười”.
/ponytail-review: soi lại đoạn code vừa sửa xem có bị over-engineering không, trả về danh sách nên xóa.
/ponytail-audit: soi nguyên repo, không chỉ phần vừa sửa.
/ponytail-debt: gom lại những chỗ Ponytail “nhịn” chưa sửa để không quên về sau.

Lưu ý: Ponytail không cắt phần kiểm tra bảo mật, xử lý lỗi hay khả năng truy cập — chỉ cắt code thừa. Nếu code thật sự cần phức tạp (ví dụ xử lý race condition), nó vẫn viết đủ, không golf code cho ngắn bằng mọi giá.

Repo này: github.com/DietrichGebert/ponytail

Dùng chung được không?

Hoàn toàn được, vì hai dự án giải quyết hai vấn đề khác nhau: Caveman tối ưu cách AI giao tiếp, Ponytail tối ưu cách AI viết code. Không có xung đột nào khiến bạn phải chọn một trong hai — thực tế nhiều người đang dùng song song trong cùng một workflow.

Nhưng cũng đừng kỳ vọng cứ cài vào là mọi thứ tự nhiên tốt lên. Những con số benchmark ở trên đều đo trên codebase và tiêu chí riêng của tác giả, dự án của bạn có thể ra kết quả khác hẳn. Và không phải lúc nào ít lời hay ít code cũng là tốt — khi cần review kiến trúc, phân tích bảo mật hay onboarding người mới, AI giải thích chi tiết lại là điều nên có. Tương tự, hệ thống lớn nhiều khi chấp nhận thêm abstraction để đổi lấy khả năng mở rộng và bảo trì lâu dài.

Nếu bạn hay thấy AI “nói nhiều làm ít” hoặc “viết code như dựng lâu đài”, thử một trong hai cái này xem — chỉ mất khoảng 30 giây để cài.