quivr/backend/parsers/common.py

import time

from langchain.schema import Document
from models.brains import Brain
from models.files import File
from models.settings import CommonsDep
from utils.vectors import Neurons


async def process_file(
    commons: CommonsDep,
    file: File,
    loader_class,
    enable_summarization,
    brain_id,
    user_openai_api_key,
):
    dateshort = time.strftime("%Y%m%d")

    file.compute_documents(loader_class)

    for doc in file.documents:  # pyright: ignore reportPrivateUsage=none
        metadata = {
            "file_sha1": file.file_sha1,
            "file_size": file.file_size,
            "file_name": file.file_name,
            "chunk_size": file.chunk_size,
            "chunk_overlap": file.chunk_overlap,
            "date": dateshort,
            "summarization": "true" if enable_summarization else "false",
        }
        doc_with_metadata = Document(page_content=doc.page_content, metadata=metadata)

        neurons = Neurons(commons=commons)
        created_vector = neurons.create_vector(doc_with_metadata, user_openai_api_key)
        # add_usage(stats_db, "embedding", "audio", metadata={"file_name": file_meta_name,"file_type": ".txt", "chunk_size": chunk_size, "chunk_overlap": chunk_overlap})

        created_vector_id = created_vector[0]  # pyright: ignore reportPrivateUsage=none

        brain = Brain(id=brain_id)
        brain.create_brain_vector(created_vector_id, file.file_sha1)

    return
feat(api): new api init 2023-05-18 02:22:13 +03:00			`import time`
Feat/single brain (#215) * feat(llm): update * feat(singlebrain): added new table with user-id * feat(user): get user from email * feat(user_id): added search * ✨ add user_id to most endpoints * docs(readme): new script --------- Co-authored-by: gozineb <zinebe@theodo.fr> 2023-05-31 14:51:23 +03:00
			`from langchain.schema import Document`
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00			`from models.brains import Brain`
			`from models.files import File`
feat(settings): refactored 2023-06-19 23:46:25 +03:00			`from models.settings import CommonsDep`
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00			`from utils.vectors import Neurons`
feat(api): new api init 2023-05-18 02:22:13 +03:00
add summarization backend 2023-05-22 09:39:55 +03:00
Feat: chat name edit (#343) * feat(chat): add name update * chore(linting): add flake8 * feat: add chat name edit 2023-06-20 10:54:23 +03:00			`async def process_file(`
			`commons: CommonsDep,`
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00			`file: File,`
Feat: chat name edit (#343) * feat(chat): add name update * chore(linting): add flake8 * feat: add chat name edit 2023-06-20 10:54:23 +03:00			`loader_class,`
			`enable_summarization,`
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00			`brain_id,`
Feat: chat name edit (#343) * feat(chat): add name update * chore(linting): add flake8 * feat: add chat name edit 2023-06-20 10:54:23 +03:00			`user_openai_api_key,`
			`):`
feat(api): new api init 2023-05-18 02:22:13 +03:00			`dateshort = time.strftime("%Y%m%d")`
add summarization backend 2023-05-22 09:39:55 +03:00
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00			`file.compute_documents(loader_class)`
add summarization backend 2023-05-22 09:39:55 +03:00
Feat/static analysis (#582) * feat: add static analysis * chore: update Makefile add static analysis script * chore: add vscode extensions recommandations 2023-07-10 15:27:49 +03:00			`for doc in file.documents: # pyright: ignore reportPrivateUsage=none`
add summarization backend 2023-05-22 09:39:55 +03:00			`metadata = {`
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00			`"file_sha1": file.file_sha1,`
			`"file_size": file.file_size,`
			`"file_name": file.file_name,`
			`"chunk_size": file.chunk_size,`
			`"chunk_overlap": file.chunk_overlap,`
add summarization backend 2023-05-22 09:39:55 +03:00			`"date": dateshort,`
Feat: chat name edit (#343) * feat(chat): add name update * chore(linting): add flake8 * feat: add chat name edit 2023-06-20 10:54:23 +03:00			`"summarization": "true" if enable_summarization else "false",`
add summarization backend 2023-05-22 09:39:55 +03:00			`}`
Feat/static analysis (#582) * feat: add static analysis * chore: update Makefile add static analysis script * chore: add vscode extensions recommandations 2023-07-10 15:27:49 +03:00			`doc_with_metadata = Document(page_content=doc.page_content, metadata=metadata)`

feat(neurons): added class 2023-06-19 22:15:35 +03:00			`neurons = Neurons(commons=commons)`
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00			`created_vector = neurons.create_vector(doc_with_metadata, user_openai_api_key)`
Feat: chat name edit (#343) * feat(chat): add name update * chore(linting): add flake8 * feat: add chat name edit 2023-06-20 10:54:23 +03:00			`# add_usage(stats_db, "embedding", "audio", metadata={"file_name": file_meta_name,"file_type": ".txt", "chunk_size": chunk_size, "chunk_overlap": chunk_overlap})`
Back/refacto files (#240) * feat(docker): added docker for prod * feat(refacto): moved to modules 2023-06-04 00:12:42 +03:00
Feat/static analysis (#582) * feat: add static analysis * chore: update Makefile add static analysis script * chore: add vscode extensions recommandations 2023-07-10 15:27:49 +03:00			`created_vector_id = created_vector[0] # pyright: ignore reportPrivateUsage=none`
add summarization backend 2023-05-22 09:39:55 +03:00
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00			`brain = Brain(id=brain_id)`
Fix/file upload explore (#412) 2023-06-29 19:26:03 +03:00			`brain.create_brain_vector(created_vector_id, file.file_sha1)`
feat(github): now github loader (#264) 2023-06-06 01:38:15 +03:00
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00			`return`