Spaces:

dmytrotm
/

rag

Sleeping

dmytrotm commited on 3 days ago

Commit

ffb4f8d

1 Parent(s): a046a96

Fix README, update config (Top-K=10, Alpha=0.3), fix requirements, and add data files

Files changed (6) hide show

.gitignore CHANGED Viewed

@@ -1,4 +1,8 @@
 .DS_Store
 __pycache__
 .env
-.venv

 .DS_Store
 __pycache__
 .env
+.venv
+*debug*
+*test*
+*verify*
+*example*

app.py CHANGED Viewed

@@ -99,7 +99,7 @@ with gr.Blocks(title="Асистент із Законодавства") as demo
             with gr.Accordion("🛠️ Розширені параметри", open=False):
                 use_reranker = gr.Checkbox(label="Використовувати Reranker", value=True)
-                top_k = gr.Slider(label="Кількість джерел", minimum=1, maximum=10, step=1, value=5)
                 temperature = gr.Slider(label="Температура генерації", minimum=0.0, maximum=1.0, step=0.1, value=0.5)
         # --- Main Content Area ---

             with gr.Accordion("🛠️ Розширені параметри", open=False):
                 use_reranker = gr.Checkbox(label="Використовувати Reranker", value=True)
+                top_k = gr.Slider(label="Кількість джерел", minimum=1, maximum=20, step=1, value=config.DEFAULT_TOP_K_RERANK)
                 temperature = gr.Slider(label="Температура генерації", minimum=0.0, maximum=1.0, step=0.1, value=0.5)
         # --- Main Content Area ---

config.py CHANGED Viewed

@@ -20,13 +20,13 @@ LLM_MODEL_NAME = "groq/llama-3.3-70b-versatile"
 # Search Parameters
 # Search Parameters
-DEFAULT_TOP_K_RETRIEVAL = 60 # Increased to improved recall
-DEFAULT_TOP_K_RERANK = 5  # Reduce context window noise, show only best matches
 DEFAULT_TEMPERATURE = 0.5 # Balanced temperature for helpful but accurate answers
 # Retriever Tuning
 MIN_CHUNK_LENGTH = 50  # Filter out stub chunks like "Стаття 207."
-HYBRID_ALPHA = 0.7     # Semantic weight (higher = more semantic focus)
 MIN_BM25_SCORE = 0.05   # Lower threshold to let good semantic hits through
 # System Prompts

 # Search Parameters
 # Search Parameters
+DEFAULT_TOP_K_RETRIEVAL = 100 # Increased to improved recall
+DEFAULT_TOP_K_RERANK = 10  # Reduce context window noise, show only best matches
 DEFAULT_TEMPERATURE = 0.5 # Balanced temperature for helpful but accurate answers
 # Retriever Tuning
 MIN_CHUNK_LENGTH = 50  # Filter out stub chunks like "Стаття 207."
+HYBRID_ALPHA = 0.3     # Semantic weight (higher = more semantic focus)
 MIN_BM25_SCORE = 0.05   # Lower threshold to let good semantic hits through
 # System Prompts

data/embeddings.pt ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5733ed92c92f88d694cec4f5b6b6ce0515c3236410f17833614b13fb883db6c
+size 32942251

data/parsed_chunks.json ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd5fdcc621fd1a352f3e172dd01d976b3076c9efdacd35da05875afaa0c6f6d6
+size 27563582

requirements.txt CHANGED Viewed

@@ -4,7 +4,7 @@ python-dotenv
 sentence-transformers
 rank_bm25
 torch
-numpy
 pymorphy3
 pymorphy3-dicts-uk
 beautifulsoup4

 sentence-transformers
 rank_bm25
 torch
+numpy<2
 pymorphy3
 pymorphy3-dicts-uk
 beautifulsoup4