Skip to content

Quy tắc tìm kiếm (tìm kiếm văn bản, tìm kiếm tổng hợp)

Tổng quan

Quy tắc tìm kiếm bao gồm các phương pháp hybrid search kết hợp semantic search (vector) và keyword search để tối ưu hóa độ chính xác và coverage trong việc tìm kiếm thông tin pháp luật.

🔍 Các phương pháp retrieval

  • Vector similarity: Tìm kiếm dựa trên embeddings
  • Dense retrieval: Sử dụng neural networks
  • Context understanding: Hiểu ý nghĩa câu hỏi
  • Text matching: BM25, TF-IDF
  • Exact matching: Từ khóa chính xác
  • Fuzzy matching: Xử lý lỗi chính tả
  • Combine methods: Vector + keyword
  • Re-ranking: Sắp xếp lại kết quả
  • Fusion: Kết hợp điểm số

📊 Retrieval Pipeline

Parallel Execution

  • Query processing: Xử lý query cho cả hai phương pháp
  • Concurrent search: Tìm kiếm đồng thời trên vector DB và text search
  • Result merging: Kết hợp và sắp xếp kết quả

Score Fusion

  • Linear combination: Weighted sum của scores
  • Reciprocal rank fusion: RRF algorithm
  • Learning to rank: ML-based re-ranking

📊 RRF Algorithm

Reciprocal Rank Fusion - Phương pháp đơn giản hiệu quả

score = Σ 1/(k + rank_i)
  • k: Constant (thường 60)
  • rank_i: Rank từ method i
  • Normalization: Tự động cân bằng

⚖️ Weight Tuning

Dynamic Weights

  • Query type detection: Keyword vs semantic queries
  • User feedback: Adaptive weighting
  • A/B testing: Optimize cho performance

Domain Adaptation

  • Legal documents: Higher weight cho keyword search
  • General QA: Higher weight cho semantic search
  • Mixed content: Balanced weights

🚀 Implementation

Elasticsearch + Vector DB

  • Elasticsearch: BM25 scoring
  • Pinecone/Weaviate: Vector similarity
  • Fusion layer: Custom scoring function

LangChain Integration

  • MultiQueryRetriever: Multiple retrieval strategies
  • EnsembleRetriever: Combine retrievers
  • Custom fusion: Domain-specific logic

📈 Metrics

Effectiveness

  • Precision@K: Tỷ lệ relevant trong top K
  • Recall@K: Tỷ lệ relevant được tìm thấy
  • MRR: Mean reciprocal rank

Efficiency

  • Latency: Thời gian response
  • Throughput: Queries per second
  • Resource usage: CPU, memory

🚀 Optimization

Query Expansion

  • Synonyms: Mở rộng từ đồng nghĩa
  • Related terms: Từ liên quan
  • Context: Thêm ngữ cảnh

Result Diversification

  • Coverage: Đa dạng nguồn
  • Balance: Cân bằng relevance và diversity
  • Freshness: Ưu tiên nội dung mới

🛠️ Thuật toán tìm kiếm văn bản

Luồng thuật toán

Các trình xử lý tìm kiếm

Rule Search Handler

  • Chiến lược: Trích xuất pattern + truy vấn Elasticsearch
  • Tính năng: Tìm kiếm theo lô, tăng cường từ điển, khớp văn bản đã chuẩn hóa
  • Hiệu suất: Truy vấn đồng thời cho nhiều biến thể

Entity Search Handler

  • Chiến lược: LLM trích xuất thực thể + fuzzy matching
  • Tính năng: Thay thế từ điển, fuzzy matching với form docs/cơ quan hợp lệ
  • Hiệu suất: Cache LLM calls, xử lý theo lô

Structured Search Handler

  • Chiến lược: Khớp chính xác thực thể
  • Tính năng: Must-match tất cả thực thể, lookup ID database
  • Trường hợp sử dụng: Truy vấn chính xác với thực thể đã biết

📈 Benefits

Improved Recall

  • Broader coverage: Catch both exact matches và semantic matches
  • Reduced misses: Compensate weaknesses của individual methods
  • Robustness: Work well across different query types

Better Precision

  • Quality filtering: Remove low-quality results
  • Diversity: Avoid redundant results
  • Relevance: Higher relevant results in top ranks

Quy tắc tìm kiếm đảm bảo retrieval hiệu quả và chính xác cho hệ thống QA pháp luật.