Các Khái Niệm Chính
Bảng thuật ngữ cho các khái niệm trong handbook và công việc hàng ngày
Thuật ngữ mình gặp trong handbook và công việc hàng ngày. Ctrl+F để tìm nhanh.
Kiến Thức Nền Tảng
API (Application Programming Interface)
Cách để các chương trình nói chuyện với nhau. Khi app cần dữ liệu từ DataForSEO thì gọi API của họ.
Backend
Phần server-side -- xử lý dữ liệu, logic, nói chuyện với database. Mình dùng NextJS API routes hoặc FastAPI.
Frontend
Phần giao diện -- cái mà user nhìn thấy và bấm vào. Mình build bằng NextJS + Tailwind + Shadcn.
Full-stack
Làm cả frontend lẫn backend. Team mình phần lớn làm full-stack.
Repository (Repo)
Thư mục dự án mà Git theo dõi. Chứa code, lịch sử thay đổi, và cấu hình.
Environment Variables
Giá trị cấu hình lưu ngoài code (API keys chẳng hạn). Dev với production set khác nhau.
Deployment
Đưa app lên internet cho người dùng xài. Mình deploy lên Railway.
CI/CD (Continuous Integration/Continuous Deployment)
Push code lên là tự động test rồi deploy. Mình dùng GitHub Actions.
Web Technologies
SSR (Server-Side Rendering)
Server render HTML xong rồi mới gửi cho browser. NextJS làm mặc định.
SSG (Static Site Generation)
Build sẵn HTML lúc build time. Nhanh nhưng không dynamic lắm.
CSR (Client-Side Rendering)
Browser tự build trang bằng JavaScript. Interactive hơn nhưng lần đầu load chậm.
REST API
Một pattern thiết kế API dùng HTTP methods (GET, POST, PUT, DELETE).
Webhook
URL nhận thông báo tự động từ dịch vụ bên ngoài. Kiểu "có gì mới thì báo tao".
CORS (Cross-Origin Resource Sharing)
Cơ chế bảo mật quy định website nào được gọi API của mình.
AI & Machine Learning
LLM (Large Language Model)
Mô hình AI train trên lượng text khổng lồ. Claude và GPT là LLMs.
Prompt
Chỉ dẫn gửi cho LLM. Prompt tốt thì kết quả tốt, đơn giản vậy thôi.
Token
Đơn vị text nhỏ (khoảng 4 ký tự). LLMs xử lý và tính tiền theo token.
Context Window
Số token tối đa LLM xử lý được một lúc. Claude khoảng 200K tokens.
Embedding
Text chuyển thành dãy số (vector) để máy hiểu được. Dùng cho similarity search và clustering.
Vector
Dãy số đại diện cho ý nghĩa của text. Embeddings chính là vectors.
Dimensionality
Số lượng con số trong một vector. OpenAI embeddings có 1536 dimensions.
Cosine Similarity
Đo hai vector giống nhau cỡ nào. Dùng để tìm content liên quan.
RAG (Retrieval Augmented Generation)
Nhét context liên quan vào prompt trước khi LLM trả lời. Giảm hallucination đáng kể.
Chunking
Chặt tài liệu dài thành mảnh nhỏ để xử lý. Chặt kiểu nào ảnh hưởng lớn tới chất lượng RAG.
Hallucination
LLM bịa thông tin mà trả lời tự tin như thật. Cần RAG và prompt engineering để hạn chế.
Fine-tuning
Train thêm một model có sẵn trên custom data. Mình hiếm khi làm.
Agent
AI biết hành động chứ không chỉ generate text. Dùng tools, ra quyết định, rồi tự thực thi.
Tool Calling (Function Calling)
LLM tự quyết định gọi tool (search, database, v.v.) trong quá trình trả lời.
MCP (Model Context Protocol)
Chuẩn giao tiếp giữa LLMs và external tools/data sources. Anthropic phát triển.
Machine Learning Chuyên Sâu
HDBSCAN
Thuật toán clustering mình dùng cho keyword grouping. Điểm mạnh là xử lý noise tốt và không cần chỉ định trước số cluster.
Clustering
Máy tự nhóm các items giống nhau lại.
Outlier
Dữ liệu không thuộc cluster nào. Trong keyword clustering thì đây là mấy từ khoá "lạc loài".
Dimensionality Reduction
Nén vector nhiều chiều xuống ít chiều hơn. Mình giảm 1536D xuống ~50D rồi mới clustering.
UMAP
Thuật toán giảm chiều giữ được cấu trúc cục bộ tốt. Mình dùng trước HDBSCAN.
PCA (Principal Component Analysis)
Giảm chiều kiểu truyền thống. Nhanh hơn UMAP nhưng kết quả kém hơn cho clustering.
Pipeline
Chuỗi các bước xử lý. ML pipelines của mình: preprocess → embed → reduce → cluster → label.
Batch Processing
Xử lý nhiều items một lúc thay vì từng cái. Với API calls thì batch luôn nhanh và rẻ hơn.
Kiến Trúc Agent
Streaming
Gửi response từng phần khi nào có thì gửi, không đợi xong hết mới gửi. User thấy text chạy ra dần dần.
SSE (Server-Sent Events)
Stream dữ liệu một chiều từ server tới browser. Đơn giản hơn WebSocket, đủ dùng cho phần lớn use case của mình.
WebSocket
Giao tiếp hai chiều real-time giữa browser và server. Cần khi cả hai bên đều gửi dữ liệu.
Memory (Agent)
Cho agent nhớ những gì đã nói trước đó. Không có memory thì mỗi lần chat là bắt đầu lại từ đầu.
Orchestration
Điều phối nhiều AI components/agents để hoàn thành task. Giống nhạc trưởng chỉ huy dàn nhạc.
Chain
Chuỗi LLM calls mà output của cái này là input của cái tiếp.
Multi-Agent
Nhiều agents chuyên biệt cùng làm việc trên một task.
Database & Data
PostgreSQL
Database quan hệ mình dùng qua Supabase. Lưu structured data.
Schema
Cấu trúc database: tables, columns, relationships.
Query
Yêu cầu dữ liệu từ database. Viết bằng SQL.
Index
Giúp database tìm data nhanh hơn. Kiểu như mục lục trong sách vậy.
Row-Level Security (RLS)
Database tự kiểm soát user nào được xem row nào. Supabase dùng cái này làm authorization chính.
Migration
Thay đổi schema có version. Giống git cho database structure vậy.
CRUD
Create, Read, Update, Delete. Các thao tác database cơ bản.
Denormalization
Cố tình lưu trùng data để đọc nhanh hơn. Đánh đổi: đọc nhanh nhưng update phải sửa nhiều chỗ.
Authentication & Security
Authentication (AuthN)
Xác minh BẠN LÀ BẠN. "Có đúng là user@example.com không?"
Authorization (AuthZ)
Xác định ĐƯỢC LÀM GÌ. "User này có quyền xoá project không?"
Session
Server ghi nhận là user đã đăng nhập rồi. Hết session thì phải login lại.
JWT (JSON Web Token)
Token mã hoá chứa thông tin user. Thay thế cho session -- server không cần lưu trạng thái.
OAuth
Giao thức cho tính năng "Đăng nhập bằng Google/GitHub".
OWASP
Tổ chức chuyên về bảo mật web. OWASP Top 10 là danh sách lỗ hổng phổ biến nhất cần biết.
SQL Injection
Tấn công chèn SQL độc hại qua input người dùng.
XSS (Cross-Site Scripting)
Tấn công chạy scripts độc hại trên browser của người dùng.
CSRF (Cross-Site Request Forgery)
Tấn công lừa người dùng gửi requests không mong muốn.
Rate Limiting
Giới hạn số request user được gửi trong một khoảng thời gian. Chống spam và abuse.
SEO Domain
SERP (Search Engine Results Page)
Trang kết quả Google sau khi tìm kiếm. Cái mà SEOer nhìn cả ngày =))
AI Overview
Câu trả lời do AI tạo ra ở đầu một số kết quả tìm kiếm Google.
Keyword
Từ khoá mà người dùng gõ vào Google.
Keyword Clustering
Nhóm các từ khoá liên quan theo search intent hoặc chủ đề.
Search Intent
Mục đích người dùng khi tìm kiếm: informational, transactional, navigational.
Backlink
Link từ website khác trỏ về website mình. Quan trọng cho SEO.
Domain Authority
Chỉ số dự đoán khả năng xếp hạng của website. Cao hơn = tốt hơn.
Hạ Tầng
PaaS (Platform as a Service)
Hosting lo hết phần server, mình chỉ cần push code. Railway là PaaS.
CDN (Content Delivery Network)
Mạng server toàn cầu cache static files gần user. Cloudflare cung cấp.
DNS (Domain Name System)
Dịch tên miền (example.com) thành địa chỉ IP.
SSL/TLS
Mã hoá kết nối HTTPS. Railway và Cloudflare lo phần này, mình không cần tự cấu hình.
Container
App được đóng gói kèm toàn bộ dependencies vào một "hộp". Docker tạo container.
Serverless
Chạy code mà không cần quản lý server. Có request thì chạy, không thì tắt. Tự scale.
Quản Lý Dự Án
PRD (Product Requirements Document)
Tài liệu mô tả cần build cái gì và tại sao.
MVP (Minimum Viable Product)
Phiên bản đơn giản nhất mà vẫn mang lại giá trị. Ship cái này trước rồi iterate sau.
Sprint
Chu kỳ phát triển cố định. Mình thường chạy sprint 1-2 tuần.
Standup
Họp ngắn hàng ngày: đang làm gì, bị kẹt chỗ nào.
Pair Programming
Hai người cùng code. Một người gõ, một người review.
Code Review
Review code của người khác trước khi merge.
Technical Debt
Code tạm để ship nhanh mà biết trước sẽ phải sửa lại. Vay nợ kỹ thuật, trước sau gì cũng phải trả.
Scope Creep
Yêu cầu cứ phình ra dần vượt kế hoạch ban đầu. "Thêm cái này nữa thôi" -- nghe quen không?
Tra Nhanh Theo Chủ Đề
Khi Nói Về AI Agents
RAG, MCP, Streaming, SSE, Memory, Orchestration, Tool Calling, Context Window
Khi Nói Về ML
Embedding, Clustering, HDBSCAN, UMAP, Dimensionality, Pipeline, Batch Processing
Khi Nói Về Security
Authentication, Authorization, Session, OWASP, SQL Injection, XSS, Rate Limiting
Khi Nói Về Kiến Trúc
API, Backend, Frontend, SSR, REST, Webhook, Environment Variables
Khi Nói Về Deployment
CI/CD, Railway, Cloudflare, DNS, Container, PaaS
Thiếu thuật ngữ nào thì hỏi team hoặc tự thêm vào đây.