quivr/backend/parsers/github.py

import os
import time

from langchain.document_loaders import GitLoader
from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from models.brains import Brain
from models.files import File
from models.settings import CommonsDep
from utils.file import compute_sha1_from_content
from utils.vectors import Neurons


async def process_github(
    commons: CommonsDep,  # pyright: ignore reportPrivateUsage=none
    repo,
    enable_summarization,
    brain_id,
    user_openai_api_key,
):
    random_dir_name = os.urandom(16).hex()
    dateshort = time.strftime("%Y%m%d")
    loader = GitLoader(
        clone_url=repo,
        repo_path="/tmp/" + random_dir_name,
    )
    documents = loader.load()
    os.system("rm -rf /tmp/" + random_dir_name)

    chunk_size = 500
    chunk_overlap = 0
    text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
        chunk_size=chunk_size, chunk_overlap=chunk_overlap
    )

    documents = text_splitter.split_documents(documents)
    print(documents[:1])

    for doc in documents:
        if doc.metadata["file_type"] in [
            ".pyc",
            ".png",
            ".svg",
            ".env",
            ".lock",
            ".gitignore",
            ".gitmodules",
            ".gitattributes",
            ".gitkeep",
            ".git",
            ".json",
        ]:
            continue
        metadata = {
            "file_sha1": compute_sha1_from_content(doc.page_content.encode("utf-8")),
            "file_size": len(doc.page_content) * 8,
            "file_name": doc.metadata["file_name"],
            "chunk_size": chunk_size,
            "chunk_overlap": chunk_overlap,
            "date": dateshort,
            "summarization": "true" if enable_summarization else "false",
        }
        doc_with_metadata = Document(page_content=doc.page_content, metadata=metadata)

        file = File(
            file_sha1=compute_sha1_from_content(doc.page_content.encode("utf-8"))
        )

        file_exists = file.file_already_exists()

        if not file_exists:
            print(f"Creating entry for file {file.file_sha1} in vectors...")
            neurons = Neurons(commons=commons)
            created_vector = neurons.create_vector(
                doc_with_metadata, user_openai_api_key
            )
            print("Created vector sids ", created_vector)
            print("Created vector for ", doc.metadata["file_name"])

        file_exists_in_brain = file.file_already_exists_in_brain(brain_id)

        if not file_exists_in_brain:
            file.add_file_to_brain(brain_id)  # pyright: ignore reportPrivateUsage=none
            brain = Brain(id=brain_id)
            file.link_file_to_brain(brain)
    return {
        "message": f"✅ Github with {len(documents)} files has been uploaded.",
        "type": "success",
    }
feat(github): now github loader (#264) 2023-06-06 01:38:15 +03:00			`import os`
			`import time`

			`from langchain.document_loaders import GitLoader`
			`from langchain.schema import Document`
			`from langchain.text_splitter import RecursiveCharacterTextSplitter`
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00			`from models.brains import Brain`
			`from models.files import File`
feat(settings): refactored 2023-06-19 23:46:25 +03:00			`from models.settings import CommonsDep`
Feat/multiple brains backend (#340) * 🗃️ add new tables for multiple brains * 🗑️ remove date input from fetch_user_id_from_credentials * ✨ new /brain endpoints * ♻️ refactor backend utils by splitting it into files * 💡 comments for next actions to update /upload 2023-06-17 00:36:53 +03:00			`from utils.file import compute_sha1_from_content`
feat(neurons): added class 2023-06-19 22:15:35 +03:00			`from utils.vectors import Neurons`
feat(github): now github loader (#264) 2023-06-06 01:38:15 +03:00

Feat/static analysis (#582) * feat: add static analysis * chore: update Makefile add static analysis script * chore: add vscode extensions recommandations 2023-07-10 15:27:49 +03:00			`async def process_github(`
			`commons: CommonsDep, # pyright: ignore reportPrivateUsage=none`
			`repo,`
			`enable_summarization,`
			`brain_id,`
			`user_openai_api_key,`
			`):`
feat(github): now github loader (#264) 2023-06-06 01:38:15 +03:00			`random_dir_name = os.urandom(16).hex()`
			`dateshort = time.strftime("%Y%m%d")`
			`loader = GitLoader(`
Fix/file upload explore (#412) 2023-06-29 19:26:03 +03:00			`clone_url=repo,`
			`repo_path="/tmp/" + random_dir_name,`
feat(github): now github loader (#264) 2023-06-06 01:38:15 +03:00			`)`
			`documents = loader.load()`
			`os.system("rm -rf /tmp/" + random_dir_name)`

fix(llm): changed to stuff 2023-06-19 18:53:07 +03:00			`chunk_size = 500`
feat(github): now github loader (#264) 2023-06-06 01:38:15 +03:00			`chunk_overlap = 0`
			`text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(`
Feat/static analysis (#582) * feat: add static analysis * chore: update Makefile add static analysis script * chore: add vscode extensions recommandations 2023-07-10 15:27:49 +03:00			`chunk_size=chunk_size, chunk_overlap=chunk_overlap`
			`)`

feat(github): now github loader (#264) 2023-06-06 01:38:15 +03:00			`documents = text_splitter.split_documents(documents)`
			`print(documents[:1])`

			`for doc in documents:`
Feat/static analysis (#582) * feat: add static analysis * chore: update Makefile add static analysis script * chore: add vscode extensions recommandations 2023-07-10 15:27:49 +03:00			`if doc.metadata["file_type"] in [`
			`".pyc",`
			`".png",`
			`".svg",`
			`".env",`
			`".lock",`
			`".gitignore",`
			`".gitmodules",`
			`".gitattributes",`
			`".gitkeep",`
			`".git",`
			`".json",`
			`]:`
feat(github): now github loader (#264) 2023-06-06 01:38:15 +03:00			`continue`
			`metadata = {`
			`"file_sha1": compute_sha1_from_content(doc.page_content.encode("utf-8")),`
Feat/static analysis (#582) * feat: add static analysis * chore: update Makefile add static analysis script * chore: add vscode extensions recommandations 2023-07-10 15:27:49 +03:00			`"file_size": len(doc.page_content) * 8,`
feat(github): now github loader (#264) 2023-06-06 01:38:15 +03:00			`"file_name": doc.metadata["file_name"],`
			`"chunk_size": chunk_size,`
			`"chunk_overlap": chunk_overlap,`
			`"date": dateshort,`
Feat/static analysis (#582) * feat: add static analysis * chore: update Makefile add static analysis script * chore: add vscode extensions recommandations 2023-07-10 15:27:49 +03:00			`"summarization": "true" if enable_summarization else "false",`
feat(github): now github loader (#264) 2023-06-06 01:38:15 +03:00			`}`
Feat/static analysis (#582) * feat: add static analysis * chore: update Makefile add static analysis script * chore: add vscode extensions recommandations 2023-07-10 15:27:49 +03:00			`doc_with_metadata = Document(page_content=doc.page_content, metadata=metadata)`

			`file = File(`
			`file_sha1=compute_sha1_from_content(doc.page_content.encode("utf-8"))`
			`)`

Fix/file upload explore (#412) 2023-06-29 19:26:03 +03:00			`file_exists = file.file_already_exists()`

			`if not file_exists:`
			`print(f"Creating entry for file {file.file_sha1} in vectors...")`
Feat/static analysis (#582) * feat: add static analysis * chore: update Makefile add static analysis script * chore: add vscode extensions recommandations 2023-07-10 15:27:49 +03:00			`neurons = Neurons(commons=commons)`
			`created_vector = neurons.create_vector(`
			`doc_with_metadata, user_openai_api_key`
			`)`
Fix/file upload explore (#412) 2023-06-29 19:26:03 +03:00			`print("Created vector sids ", created_vector)`
			`print("Created vector for ", doc.metadata["file_name"])`
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00
Fix/file upload explore (#412) 2023-06-29 19:26:03 +03:00			`file_exists_in_brain = file.file_already_exists_in_brain(brain_id)`
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00
Fix/file upload explore (#412) 2023-06-29 19:26:03 +03:00			`if not file_exists_in_brain:`
Feat/static analysis (#582) * feat: add static analysis * chore: update Makefile add static analysis script * chore: add vscode extensions recommandations 2023-07-10 15:27:49 +03:00			`file.add_file_to_brain(brain_id) # pyright: ignore reportPrivateUsage=none`
Feat/multiple brains files (#361) 2023-06-28 20:39:27 +03:00			`brain = Brain(id=brain_id)`
Fix/file upload explore (#412) 2023-06-29 19:26:03 +03:00			`file.link_file_to_brain(brain)`
Feat/static analysis (#582) * feat: add static analysis * chore: update Makefile add static analysis script * chore: add vscode extensions recommandations 2023-07-10 15:27:49 +03:00			`return {`
			`"message": f"✅ Github with {len(documents)} files has been uploaded.",`
			`"type": "success",`
			`}`