started work on the loader

2024-04-18 13:46:49 -07:00 · 2024-04-18 13:46:49 -07:00 · 24c5e4401b
commit 24c5e4401b
parent de9838badc
2 changed files with 120 additions and 0 deletions
--- a/hw1/app.py
+++ b/hw1/app.py
@ -0,0 +1,51 @@
 import os
 import sys
 import time
 import math
 import numpy
 from dotenv import load_dotenv
 from bs4 import BeautifulSoup
 from nltk.tokenize import WordPunctTokenizer, RegexpTokenizer
 from sklearn.metrics.pairwise import cosine_similarity
 from langchain import hub
 from langchain.chains import LLMChain
 from langchain.memory import ConversationBufferMemory
 from langchain.prompts import (
    MessagesPlaceholder,
    HumanMessagePromptTemplate,
    ChatPromptTemplate,
    PromptTemplate,
 )
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_core.messages import HumanMessage, SystemMessage
 from langchain_core.output_parsers import StrOutputParser
 from langchain_core.runnables import RunnablePassthrough
 from langchain_google_genai import (
    GoogleGenerativeAI,
    GoogleGenerativeAIEmbeddings,
    ChatGoogleGenerativeAI,
    HarmCategory,
    HarmBlockThreshold,
 )
 from langchain_community.document_loaders import AsyncHtmlLoader, RecursiveUrlLoader
 from langchain_community.document_transformers import BeautifulSoupTransformer
 from langchain_community.vectorstores import Chroma
 from langchain_openai import ChatOpenAI
 from langchain_openai import OpenAI
 from langchain_core.messages import HumanMessage
 load_dotenv()
 llm = OpenAI()
 chat_model = ChatOpenAI(model="gpt-4")
 text = "What is a good question to put here?"
 messages = [HumanMessage(content=text)]
 llm.invoke(text)
 # >> Feetful of Fun
 chat_model.invoke(messages)
 # >> AIMessage(content="Socks O'Color")
--- a/hw1/loader.py
+++ b/hw1/loader.py
@ -0,0 +1,69 @@
 from langchain_community.document_loaders import AsyncHtmlLoader, DirectoryLoader, TextLoader, PyPDFDirectoryLoader, Docx2txtLoader, UnstructuredMarkdownLoader, WikipediaLoader, ArxivLoader, CSVLoader
 from langchain_community.vectorstores import Chroma
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_openai import ChatOpenAI, OpenAIEmbeddings
 from langchain_community.document_loaders import WebBaseLoader
 import bs4
 """
 Loader attempting to load documents for the game Kerbal Space program two, both from wikipedia, as well as details from 
 the games own fan-run wiki, using GPT4
 Code adapted from 
 1) https://github.com/langchain-ai/rag-from-scratch/blob/main/rag_from_scratch_1_to_4.ipynb
 2) https://codelabs.cs.pdx.edu/labs/G2.3_LangChainRAG
 """
 # vectorstore = Chroma(
 #     embedding_function=GoogleGenerativeAIEmbeddings(model="models/embedding-001", task_type="retrieval_query"),
 #     persist_directory="./rag_data/.chromadb"
 # )
 # Load Documents
 loader = WebBaseLoader(
    web_paths=("https://lilianweng.github.io/posts/2023-06-23-agent/",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("post-content", "post-title", "post-header")
        )
    ),
 )
 docs = loader.load()
 # Split
 text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
 splits = text_splitter.split_documents(docs)
 # Embed
 vectorstore = Chroma.from_documents(documents=splits, 
                                    embedding=OpenAIEmbeddings())
 def load_docs(docs):
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=10000, chunk_overlap=10)
    splits = text_splitter.split_documents(docs)
    vectorstore.add_documents(documents=splits)
 def load_wikipedia(query):
    load_docs(WikipediaLoader(query=query, load_max_docs=1).load())
 def load_urls(urls):
    load_docs(AsyncHtmlLoader(urls).load())
 wiki_query = "Kerbel Space Program"
 print(f"Loading Wikipedia pages on: {wiki_query}")
 load_wikipedia(wiki_query)
 urls = ["https://wiki.kerbalspaceprogram.com/wiki/Kerbin", "https://wiki.kerbalspaceprogram.com/wiki/Eve"]
 print(f"Loading: {urls}")
 load_urls(urls)
 print("RAG database initialized with the following sources.")
 retriever = vectorstore.as_retriever()
 document_data_sources = set()
 for doc_metadata in retriever.vectorstore.get()['metadatas']:
    document_data_sources.add(doc_metadata['source']) 
 for doc in document_data_sources:
    print(f"  {doc}")