run-llama · jerryjliu · Nov 28, 2023 · Oct 7, 2023 · Oct 7, 2023 · Oct 7, 2023
diff --git a/llama_hub/earnings_call_transcript/README.md b/llama_hub/earnings_call_transcript/README.md
@@ -0,0 +1,85 @@
+# EARNING CALL TRANSCRIPTS LOADER
+
+This loader fetches the earning call transcripts of US based companies from the website [discountingcashflows.com](https://discountingcashflows.com/). It is not available for commercial purposes
+
+Install the required dependencies
+
+```
+pip install -r requirements.txt
+```
+
+The Earning call transcripts takes in three arguments
+
+* Year
+* Ticker symbol
+* Quarter name from the list ["Q1","Q2","Q3","Q4"]
+
+## Usage
+
+```python
+from llama_index import download_loader
+
+IMDBReviewsloader = download_loader('EarningsCallTranscript')
+
+loader = EarningsCallTranscript(2023,'AAPL','Q3')
+docs = loader.load_data()
+```
+
+The metadata of the transcripts are the following
+
+* ticker
+* quarter
+* date_time
+* speakers_list
+
+## Examples
+
+#### Llama Index
+```python
+from llama_index import download_loader
+from llama_index import VectorStoreIndex, download_loader
+
+EarningsCallTranscript = download_loader('EarningsCallTranscript')
+
+loader = EarningsCallTranscript(2023,'AAPL','Q3')
+docs = loader.load_data()
+
+index = VectorStoreIndex.from_documents(documents)
+query_engine = index.as_query_engine()
+
+response = query_engine.query(
+    "What was discussed about Generative AI?",
+)
+print(response)
+
+```
+
+#### Langchain
+
+```python
+from llama_index import download_loader
+from langchain.agents import Tool
+from langchain.agents import initialize_agent
+from langchain.chat_models import ChatOpenAI
+from langchain.llms import OpenAI
+
+EarningsCallTranscript = download_loader('EarningsCallTranscript')
+
+loader = EarningsCallTranscript(2023,'AAPL','Q3')
+docs = loader.load_data()
+
+tools = [
+    Tool(
+        name="LlamaIndex",
+        func=lambda q: str(index.as_query_engine().query(q)),
+        description="useful for questions about investor transcripts calls for a company. The input to this tool should be a complete english sentence.",
+        return_direct=True,
+    ),
+]
+llm = ChatOpenAI(temperature=0)
+agent = initialize_agent(
+    tools, llm, agent="conversational-react-description"
+)
+agent.run("What was discussed about Generative AI?")
+```
+
diff --git a/llama_hub/earnings_call_transcript/__init__.py b/llama_hub/earnings_call_transcript/__init__.py
@@ -0,0 +1,14 @@
+from llama_hub.earnings_call_transcript.base import EarningsCallTranscript
+
+from llama_hub.earnings_call_transcript.utils import (
+    get_earnings_transcript,
+    extract_speakers,
+    correct_date,
+)
+
+__all__ = [
+    "EarningsCallTranscript",
+    "get_earnings_transcript",
+    "extract_speakers",
+    "correct_date",
+]
diff --git a/llama_hub/earnings_call_transcript/base.py b/llama_hub/earnings_call_transcript/base.py
@@ -0,0 +1,46 @@
+from llama_index.readers.base import BaseReader
+from llama_index.readers.schema.base import Document
+from datetime import datetime
+from typing import List
+
+try:
+    from llama_hub.earnings_call_transcript.utils import get_earnings_transcript
+except ImportError:
+    from utils import get_earnings_transcript
+
+
+class EarningsCallTranscript(BaseReader):
+    def __init__(self, year: int, ticker: str, quarter: str):
+        """Get the earning call transcripts for a given company, in a given year and quarter
+
+        Args:
+            year (int): Year of the transcript
+            ticker (str): ticker symbol of the stock
+            quarter (str): quarter
+        """
+        curr_year = datetime.now().year
+        assert year <= curr_year, "The year should be less than current year"
+
+        assert quarter in [
+            "Q1",
+            "Q2",
+            "Q3",
+            "Q4",
+        ], 'The quarter should from the list ["Q1","Q2","Q3","Q4"]'
+        self.year = year
+        self.ticker = ticker
+        self.quarter = quarter
+
+    def load_data(self) -> List[Document]:
+        resp_dict, speakers_list = get_earnings_transcript(
+            self.quarter, self.ticker, self.year
+        )
+        return Document(
+            text=resp_dict["content"],
+            extra_info={
+                "ticker": resp_dict["symbol"],
+                "quarter": "Q" + str(resp_dict["quarter"]),
+                "date_time": resp_dict["date"],
+                "speakers_list": speakers_list,
+            },
+        )
diff --git a/llama_hub/earnings_call_transcript/requirements.txt b/llama_hub/earnings_call_transcript/requirements.txt
@@ -0,0 +1,3 @@
+#API-calling
+tenacity
+requests
diff --git a/llama_hub/earnings_call_transcript/utils.py b/llama_hub/earnings_call_transcript/utils.py
@@ -0,0 +1,58 @@
+from tenacity import retry, stop_after_attempt, wait_random_exponential
+import requests
+import json
+from datetime import datetime
+import re
+from typing import List
+
+
+def correct_date(yr, dt):
+    """Some transcripts have incorrect date, correcting it
+
+    Args:
+        yr (int): actual
+        dt (datetime): given date
+
+    Returns:
+        datetime: corrected date
+    """
+    dt = datetime.strptime(dt, "%Y-%m-%d %H:%M:%S")
+    if dt.year != yr:
+        dt = dt.replace(year=yr)
+    return dt.strftime("%Y-%m-%d %H:%M:%S")
+
+
+def extract_speakers(cont: str) -> List[str]:
+    """Extract the list of speakers
+
+    Args:
+        cont (str): transcript content
+
+    Returns:
+        List[str]: list of speakers
+    """
+    pattern = re.compile(r"\n(.*?):")
+    matches = pattern.findall(cont)
+
+    return list(set(matches))
+
+
+@retry(wait=wait_random_exponential(min=1, max=5), stop=stop_after_attempt(2))
+def get_earnings_transcript(quarter: str, ticker: str, year: int):
+    """Get the earnings transcripts
+
+    Args:
+        quarter (str)
+        ticker (str)
+        year (int)
+    """
+    response = requests.get(
+        f"https://discountingcashflows.com/api/transcript/{ticker}/{quarter}/{year}/",
+        auth=("user", "pass"),
+    )
+
+    resp_text = json.loads(response.text)
+    speakers_list = extract_speakers(resp_text[0]["content"])
+    corrected_date = correct_date(resp_text[0]["year"], resp_text[0]["date"])
+    resp_text[0]["date"] = corrected_date
+    return resp_text[0], speakers_list
diff --git a/llama_hub/imdb_review/base.py b/llama_hub/imdb_review/base.py
@@ -15,6 +15,7 @@ def __init__(
         generate_csv: bool = False,
         multithreading: bool = False,
         max_workers: int = 0,
+        reviews_folder: str = "movie_reviews",
     ):
         """Get the IMDB reviews of a movie
 
@@ -35,6 +36,7 @@ def __init__(
         self.generate_csv = generate_csv
         self.multithreading = multithreading
         self.max_workers = max_workers
+        self.reviews_folder = reviews_folder
 
     def load_data(self) -> List[Document]:
         """scrapes the data from the IMDB website movie reviews
@@ -57,6 +59,7 @@ def load_data(self) -> List[Document]:
             self.generate_csv,
             self.multithreading,
             self.max_workers,
+            self.reviews_folder,
         )
 
         all_docs = []

diff --git a/llama_hub/imdb_review/scraper.py b/llama_hub/imdb_review/scraper.py
@@ -122,6 +122,7 @@ def main_scraper(
     generate_csv: bool = False,
     multithreading: bool = False,
     max_workers: int = 0,
+    reviews_folder: str = "movie_reviews",
 ):
     """The main helper function to scrape data
 
@@ -225,7 +226,7 @@ def main_scraper(
 
     print(f"Number of reviews scraped: {len(reviews_date)}")
     if generate_csv:
-        os.makedirs("movie_reviews", exist_ok=True)
+        os.makedirs(reviews_folder, exist_ok=True)
         df = pd.DataFrame(
             columns=[
                 "review_date",
@@ -246,7 +247,7 @@ def main_scraper(
         df["review_helpful"] = reviews_found_helpful
         df["review_total_votes"] = reviews_total_votes
         df["reviews_if_spoiler"] = reviews_if_spoiler
-        df.to_csv(f"movie_reviews/{movie_name}.csv", index=False)
+        df.to_csv(f"{reviews_folder}/{movie_name}.csv", index=False)
 
     return (
         reviews_date,

diff --git a/llama_hub/library.json b/llama_hub/library.json
@@ -1086,5 +1086,14 @@
       "web",
       "web reader"
     ]
+  },
+  "EarningsCallTranscript":{
+    "id":"earnings_call_transcript",
+    "author": "Athe-kunal",
+    "keywords": [
+      "Finance",
+      "Investor",
+      "Earning calls"
+    ]
   }
-}
+}