vector DB

Browse files

Files changed (10) hide show

StudybotAPI/backend/data/History_1.pdf +0 -3
StudybotAPI/backend/ingestion/embeddings.py +5 -10
StudybotAPI/backend/ingestion/streamer.py +1 -0
StudybotAPI/backend/retriever/ops.py +1 -0
StudybotAPI/backend/utils/chain_loader.py +2 -1
StudybotAPI/requirements.txt +3 -2
data/History_1.pdf +0 -0
frontend/layouts/mainlayout.py +2 -2
frontend/pages/file_streaming.py +41 -0
frontend/🏡_Home.py +1 -1

StudybotAPI/backend/data/History_1.pdf DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:025a1c0395072fd9108f649e92bccc443c852b9e4b28943f465b61ccaecdcc75
-size 814721

StudybotAPI/backend/ingestion/embeddings.py CHANGED Viewed

@@ -1,4 +1,5 @@
-from langchain.vectorstores import Qdrant
 from langchain.embeddings import HuggingFaceBgeEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
@@ -32,17 +33,11 @@ class Embeddings:
         texts = self.split_docs(docs)
-        vector_store = Qdrant.from_documents(
-            texts,
-            embeddings,
-            # path=self.cfg.VECTOR_DB,
-            location=":memory:",
-            # host="localhost",
-            # prefer_grpc=True,
-            collection_name=self.cfg.VECTOR_DB,
         )
-        print(f"Vector store created at {self.cfg.VECTOR_DB}")
         return vector_store

+# from langchain.vectorstores import Qdrant
+from langchain.vectorstores import DocArrayInMemorySearch
 from langchain.embeddings import HuggingFaceBgeEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
         texts = self.split_docs(docs)
+        vector_store = DocArrayInMemorySearch.from_documents(
+            texts, embeddings
         )
+        print(f"Vector store created.")
         return vector_store

StudybotAPI/backend/ingestion/streamer.py ADDED Viewed

	@@ -0,0 +1 @@


1	+

StudybotAPI/backend/retriever/ops.py CHANGED Viewed

@@ -22,4 +22,5 @@ def ops_inference(response_result: FrontendResponseModel, question: str):
     except Exception as e:
         response_result["status"] = "error"
         response_result["message"].append(str(e))
         raise ModelDeploymentException(response_result)

     except Exception as e:
         response_result["status"] = "error"
         response_result["message"].append(str(e))
+        print(response_result)
         raise ModelDeploymentException(response_result)

StudybotAPI/backend/utils/chain_loader.py CHANGED Viewed

@@ -44,7 +44,8 @@ async def llm_chain_loader(DATA_PATH: str):
     qa_chain = ConversationalRetrievalChain.from_llm(
         llm=llm,
         chain_type="stuff",
-        retriever=db.as_retriever(search_type="similarity", search_kwargs={"k": 2}),
         # return_source_documents=True,
         # chain_type_kwargs={"prompt": prompt},
         condense_question_prompt=prompt,

     qa_chain = ConversationalRetrievalChain.from_llm(
         llm=llm,
         chain_type="stuff",
+        retriever=db.as_retriever(
+            search_type="mmr", search_kwargs={"k": 2, "fetch_k": 4}),
         # return_source_documents=True,
         # chain_type_kwargs={"prompt": prompt},
         condense_question_prompt=prompt,

StudybotAPI/requirements.txt CHANGED Viewed

@@ -5,7 +5,7 @@ langchain==0.0.346
 pydantic==1.10.2
 pypdf
 python-box
-qdrant-client
 torch
 transformers
 sentence_transformers
@@ -13,4 +13,5 @@ clarifai
 Pillow
 tiktoken
 python-multipart
-urllib3==1.25.11

 pydantic==1.10.2
 pypdf
 python-box
+# qdrant-client
 torch
 transformers
 sentence_transformers
 Pillow
 tiktoken
 python-multipart
+# urllib3==1.25.11
+docarray

data/History_1.pdf ADDED Viewed

Binary file (815 kB). View file

frontend/layouts/mainlayout.py CHANGED Viewed

@@ -9,7 +9,7 @@ from components import authors, user_greetings, add_logo
 def mainlayout(func: Callable):
     def wrapper():
-        with open("frontend/layouts/st_page_layouts.json", "r", encoding="utf-8") as f:
             st_page_layouts = json.load(f)
         st.set_page_config(
@@ -19,7 +19,7 @@ def mainlayout(func: Callable):
                 else "home"
             ]
         )
-        add_logo("frontend/images/studybotlogo.svg", svg=True)
         st.markdown("# Studybot 📚")
         user_greetings()
         authors()

 def mainlayout(func: Callable):
     def wrapper():
+        with open("layouts/st_page_layouts.json", "r", encoding="utf-8") as f:
             st_page_layouts = json.load(f)
         st.set_page_config(
                 else "home"
             ]
         )
+        add_logo("images/studybotlogo.svg", svg=True)
         st.markdown("# Studybot 📚")
         user_greetings()
         authors()

frontend/pages/file_streaming.py ADDED Viewed

	@@ -0,0 +1,41 @@

+import os
+import streamlit as st
+from langchain.callbacks.base import BaseCallbackHandler
+class StreamHandler(BaseCallbackHandler):
+    def __init__(
+        self, container: st.delta_generator.DeltaGenerator, initial_text: str = ""
+    ):
+        self.container = container
+        self.text = initial_text
+        self.run_id_ignore_token = None
+    def on_llm_start(self, serialized: dict, prompts: list, **kwargs):
+        # Workaround to prevent showing the rephrased question as output
+        if prompts[0].startswith("Human"):
+            self.run_id_ignore_token = kwargs.get("run_id")
+    def on_llm_new_token(self, token: str, **kwargs) -> None:
+        if self.run_id_ignore_token == kwargs.get("run_id", False):
+            return
+        self.text += token
+        self.container.markdown(self.text)
+class PrintRetrievalHandler(BaseCallbackHandler):
+    def __init__(self, container):
+        self.status = container.status("**Context Retrieval**")
+    def on_retriever_start(self, serialized: dict, query: str, **kwargs):
+        self.status.write(f"**Question:** {query}")
+        self.status.update(label=f"**Context Retrieval:** {query}")
+    def on_retriever_end(self, documents, **kwargs):
+        for idx, doc in enumerate(documents):
+            source = os.path.basename(doc.metadata["source"])
+            self.status.write(f"**Document {idx} from {source}**")
+            self.status.markdown(doc.page_content)
+        self.status.update(state="complete")

frontend/🏡_Home.py CHANGED Viewed

@@ -63,7 +63,7 @@ def home():
         "<h2 style='text-align: center; color: black;'>Studybot Architecture</h1>",
         unsafe_allow_html=True,
     )
-    st.image("frontend/images/architecture.png")
 home()

         "<h2 style='text-align: center; color: black;'>Studybot Architecture</h1>",
         unsafe_allow_html=True,
     )
+    st.image("images/architecture.png")
 home()