Các Khái Niệm Chính

Bảng thuật ngữ cho các khái niệm trong handbook và công việc hàng ngày

Thuật ngữ mình gặp trong handbook và công việc hàng ngày. Ctrl+F để tìm nhanh.

Kiến Thức Nền Tảng

API (Application Programming Interface)

Cách để các chương trình nói chuyện với nhau. Khi app cần dữ liệu từ DataForSEO thì gọi API của họ.

Backend

Phần server-side -- xử lý dữ liệu, logic, nói chuyện với database. Mình dùng NextJS API routes hoặc FastAPI.

Frontend

Phần giao diện -- cái mà user nhìn thấy và bấm vào. Mình build bằng NextJS + Tailwind + Shadcn.

Full-stack

Làm cả frontend lẫn backend. Team mình phần lớn làm full-stack.

Repository (Repo)

Thư mục dự án mà Git theo dõi. Chứa code, lịch sử thay đổi, và cấu hình.

Environment Variables

Giá trị cấu hình lưu ngoài code (API keys chẳng hạn). Dev với production set khác nhau.

Deployment

Đưa app lên internet cho người dùng xài. Mình deploy lên Railway.

CI/CD (Continuous Integration/Continuous Deployment)

Push code lên là tự động test rồi deploy. Mình dùng GitHub Actions.

Web Technologies

SSR (Server-Side Rendering)

Server render HTML xong rồi mới gửi cho browser. NextJS làm mặc định.

SSG (Static Site Generation)

Build sẵn HTML lúc build time. Nhanh nhưng không dynamic lắm.

CSR (Client-Side Rendering)

Browser tự build trang bằng JavaScript. Interactive hơn nhưng lần đầu load chậm.

REST API

Một pattern thiết kế API dùng HTTP methods (GET, POST, PUT, DELETE).

Webhook

URL nhận thông báo tự động từ dịch vụ bên ngoài. Kiểu "có gì mới thì báo tao".

Cơ chế bảo mật quy định website nào được gọi API của mình.

AI & Machine Learning

LLM (Large Language Model)

Mô hình AI train trên lượng text khổng lồ. Claude và GPT là LLMs.

Prompt

Chỉ dẫn gửi cho LLM. Prompt tốt thì kết quả tốt, đơn giản vậy thôi.

Token

Đơn vị text nhỏ (khoảng 4 ký tự). LLMs xử lý và tính tiền theo token.

Context Window

Số token tối đa LLM xử lý được một lúc. Claude khoảng 200K tokens.

Embedding

Text chuyển thành dãy số (vector) để máy hiểu được. Dùng cho similarity search và clustering.

Vector

Dãy số đại diện cho ý nghĩa của text. Embeddings chính là vectors.

Dimensionality

Số lượng con số trong một vector. OpenAI embeddings có 1536 dimensions.

Cosine Similarity

Đo hai vector giống nhau cỡ nào. Dùng để tìm content liên quan.

RAG (Retrieval Augmented Generation)

Nhét context liên quan vào prompt trước khi LLM trả lời. Giảm hallucination đáng kể.

Chunking

Chặt tài liệu dài thành mảnh nhỏ để xử lý. Chặt kiểu nào ảnh hưởng lớn tới chất lượng RAG.

Hallucination

LLM bịa thông tin mà trả lời tự tin như thật. Cần RAG và prompt engineering để hạn chế.

Fine-tuning

Train thêm một model có sẵn trên custom data. Mình hiếm khi làm.

Agent

AI biết hành động chứ không chỉ generate text. Dùng tools, ra quyết định, rồi tự thực thi.

Tool Calling (Function Calling)

LLM tự quyết định gọi tool (search, database, v.v.) trong quá trình trả lời.

MCP (Model Context Protocol)

Chuẩn giao tiếp giữa LLMs và external tools/data sources. Anthropic phát triển.

Machine Learning Chuyên Sâu

HDBSCAN

Thuật toán clustering mình dùng cho keyword grouping. Điểm mạnh là xử lý noise tốt và không cần chỉ định trước số cluster.

Clustering

Máy tự nhóm các items giống nhau lại.

Outlier

Dữ liệu không thuộc cluster nào. Trong keyword clustering thì đây là mấy từ khoá "lạc loài".

Dimensionality Reduction

Nén vector nhiều chiều xuống ít chiều hơn. Mình giảm 1536D xuống ~50D rồi mới clustering.

UMAP

Thuật toán giảm chiều giữ được cấu trúc cục bộ tốt. Mình dùng trước HDBSCAN.

PCA (Principal Component Analysis)

Giảm chiều kiểu truyền thống. Nhanh hơn UMAP nhưng kết quả kém hơn cho clustering.

Pipeline

Chuỗi các bước xử lý. ML pipelines của mình: preprocess → embed → reduce → cluster → label.

Batch Processing

Xử lý nhiều items một lúc thay vì từng cái. Với API calls thì batch luôn nhanh và rẻ hơn.

Kiến Trúc Agent

Streaming

Gửi response từng phần khi nào có thì gửi, không đợi xong hết mới gửi. User thấy text chạy ra dần dần.

SSE (Server-Sent Events)

Stream dữ liệu một chiều từ server tới browser. Đơn giản hơn WebSocket, đủ dùng cho phần lớn use case của mình.

WebSocket

Giao tiếp hai chiều real-time giữa browser và server. Cần khi cả hai bên đều gửi dữ liệu.

Memory (Agent)

Cho agent nhớ những gì đã nói trước đó. Không có memory thì mỗi lần chat là bắt đầu lại từ đầu.

Orchestration

Điều phối nhiều AI components/agents để hoàn thành task. Giống nhạc trưởng chỉ huy dàn nhạc.

Chain

Chuỗi LLM calls mà output của cái này là input của cái tiếp.

Multi-Agent

Nhiều agents chuyên biệt cùng làm việc trên một task.

Database & Data

PostgreSQL

Database quan hệ mình dùng qua Supabase. Lưu structured data.

Schema

Cấu trúc database: tables, columns, relationships.

Query

Yêu cầu dữ liệu từ database. Viết bằng SQL.

Index

Giúp database tìm data nhanh hơn. Kiểu như mục lục trong sách vậy.

Row-Level Security (RLS)

Database tự kiểm soát user nào được xem row nào. Supabase dùng cái này làm authorization chính.

Migration

Thay đổi schema có version. Giống git cho database structure vậy.

CRUD

Create, Read, Update, Delete. Các thao tác database cơ bản.

Denormalization

Cố tình lưu trùng data để đọc nhanh hơn. Đánh đổi: đọc nhanh nhưng update phải sửa nhiều chỗ.

Authentication & Security

Authentication (AuthN)

Xác minh BẠN LÀ BẠN. "Có đúng là user@example.com không?"

Authorization (AuthZ)

Xác định ĐƯỢC LÀM GÌ. "User này có quyền xoá project không?"

Session

Server ghi nhận là user đã đăng nhập rồi. Hết session thì phải login lại.

JWT (JSON Web Token)

Token mã hoá chứa thông tin user. Thay thế cho session -- server không cần lưu trạng thái.

OAuth

Giao thức cho tính năng "Đăng nhập bằng Google/GitHub".

OWASP

Tổ chức chuyên về bảo mật web. OWASP Top 10 là danh sách lỗ hổng phổ biến nhất cần biết.

SQL Injection

Tấn công chèn SQL độc hại qua input người dùng.

XSS (Cross-Site Scripting)

Tấn công chạy scripts độc hại trên browser của người dùng.

CSRF (Cross-Site Request Forgery)

Tấn công lừa người dùng gửi requests không mong muốn.

Rate Limiting

Giới hạn số request user được gửi trong một khoảng thời gian. Chống spam và abuse.

SEO Domain

SERP (Search Engine Results Page)

Trang kết quả Google sau khi tìm kiếm. Cái mà SEOer nhìn cả ngày =))

AI Overview

Câu trả lời do AI tạo ra ở đầu một số kết quả tìm kiếm Google.

Keyword

Từ khoá mà người dùng gõ vào Google.

Keyword Clustering

Nhóm các từ khoá liên quan theo search intent hoặc chủ đề.

Search Intent

Mục đích người dùng khi tìm kiếm: informational, transactional, navigational.

Backlink

Link từ website khác trỏ về website mình. Quan trọng cho SEO.

Domain Authority

Chỉ số dự đoán khả năng xếp hạng của website. Cao hơn = tốt hơn.

Hạ Tầng

PaaS (Platform as a Service)

Hosting lo hết phần server, mình chỉ cần push code. Railway là PaaS.

CDN (Content Delivery Network)

Mạng server toàn cầu cache static files gần user. Cloudflare cung cấp.

DNS (Domain Name System)

Dịch tên miền (example.com) thành địa chỉ IP.

SSL/TLS

Mã hoá kết nối HTTPS. Railway và Cloudflare lo phần này, mình không cần tự cấu hình.

Container

App được đóng gói kèm toàn bộ dependencies vào một "hộp". Docker tạo container.

Serverless

Chạy code mà không cần quản lý server. Có request thì chạy, không thì tắt. Tự scale.

Quản Lý Dự Án

PRD (Product Requirements Document)

Tài liệu mô tả cần build cái gì và tại sao.

MVP (Minimum Viable Product)

Phiên bản đơn giản nhất mà vẫn mang lại giá trị. Ship cái này trước rồi iterate sau.

Sprint

Chu kỳ phát triển cố định. Mình thường chạy sprint 1-2 tuần.

Standup

Họp ngắn hàng ngày: đang làm gì, bị kẹt chỗ nào.

Pair Programming

Hai người cùng code. Một người gõ, một người review.

Code Review

Review code của người khác trước khi merge.

Technical Debt

Code tạm để ship nhanh mà biết trước sẽ phải sửa lại. Vay nợ kỹ thuật, trước sau gì cũng phải trả.

Scope Creep

Yêu cầu cứ phình ra dần vượt kế hoạch ban đầu. "Thêm cái này nữa thôi" -- nghe quen không?

Tra Nhanh Theo Chủ Đề

Khi Nói Về AI Agents

RAG, MCP, Streaming, SSE, Memory, Orchestration, Tool Calling, Context Window

Khi Nói Về ML

Embedding, Clustering, HDBSCAN, UMAP, Dimensionality, Pipeline, Batch Processing

Khi Nói Về Security

Authentication, Authorization, Session, OWASP, SQL Injection, XSS, Rate Limiting

Khi Nói Về Kiến Trúc

API, Backend, Frontend, SSR, REST, Webhook, Environment Variables

Khi Nói Về Deployment

CI/CD, Railway, Cloudflare, DNS, Container, PaaS

Thiếu thuật ngữ nào thì hỏi team hoặc tự thêm vào đây.

Kiến Thức Nền Tảng#

API (Application Programming Interface)#

Backend#

Frontend#

Full-stack#

Repository (Repo)#

Environment Variables#

Deployment#

CI/CD (Continuous Integration/Continuous Deployment)#

Web Technologies#

SSR (Server-Side Rendering)#

SSG (Static Site Generation)#

CSR (Client-Side Rendering)#

REST API#

Webhook#

CORS (Cross-Origin Resource Sharing)#

AI & Machine Learning#

LLM (Large Language Model)#

Prompt#

Token#

Context Window#

Embedding#

Vector#

Dimensionality#

Cosine Similarity#

RAG (Retrieval Augmented Generation)#

Chunking#

Hallucination#

Fine-tuning#

Agent#

Tool Calling (Function Calling)#

MCP (Model Context Protocol)#

Machine Learning Chuyên Sâu#

HDBSCAN#

Clustering#

Outlier#

Dimensionality Reduction#

UMAP#

PCA (Principal Component Analysis)#

Pipeline#

Batch Processing#

Kiến Trúc Agent#

Streaming#

SSE (Server-Sent Events)#

WebSocket#

Memory (Agent)#

Orchestration#

Chain#

Multi-Agent#

Database & Data#

PostgreSQL#

Schema#

Query#

Index#

Row-Level Security (RLS)#

Migration#

CRUD#

Denormalization#

Authentication & Security#

Authentication (AuthN)#

Authorization (AuthZ)#

Session#

JWT (JSON Web Token)#

OAuth#

OWASP#

SQL Injection#

XSS (Cross-Site Scripting)#

CSRF (Cross-Site Request Forgery)#

Rate Limiting#

SEO Domain#

SERP (Search Engine Results Page)#

AI Overview#

Keyword#

Keyword Clustering#

Search Intent#

Backlink#

Domain Authority#

Hạ Tầng#

PaaS (Platform as a Service)#