
Claude Code tính tiền theo token mỗi lần gọi API — nhưng nếu bạn có Apple Silicon Mac, bạn không cần trả một đồng nào nữa. Và cái trick nằm ở một proxy mà Claude Code không hề biết.
Bạn không cần trả tiền API mỗi lần dùng Claude Code nữa — nếu bạn có Apple Silicon Mac.
Claude Code mặc định gọi Anthropic API và tính tiền theo token. Ollama có thể chạy local, nhưng trên Apple Silicon nó dùng GGUF — không tận dụng được MLX, tức là bỏ phí toàn bộ sức mạnh của M1/M2/M3/M4 chip.
Giải pháp: LM Studio + LiteLLM làm cầu nối.
Claude Code nói chuyện bằng Anthropic API format. LM Studio expose OpenAI-compatible API. Hai thứ này không tương thích trực tiếp.
LiteLLM ngồi giữa, làm phiên dịch — và Claude Code không biết gì về sự tồn tại của nó.
/, nên cần alias sạch như qwen3-coder thay vì path đầy đủ.claude-haiku-4-5-20251001. Nếu không map alias này vào model local, sẽ báo lỗi ngay từ đầu.Sau khi setup xong, Claude Code hoạt động y hệt bản cloud: đọc/sửa multi-file codebase, chạy test, refactor, debug build — nhưng toàn bộ chạy trên máy bạn, không gửi một token nào ra ngoài.
Chạy trên M4 Pro 64GB — mượt. Với máy RAM thấp hơn, nên thử model nhỏ hơn trước.
Print