好的,我將深入研究 2024-2025 年的開源 Deep Research 應用,重點分析它們的技術架構,包括使用的 API、檢索方式、RAG 技術等。此外,我也會搜尋是否有您遺漏的相關開源專案,確保研究完整。
最終,我會提供詳細的分析報告,並以表格方式比較各專案的核心技術。
稍後我會回報研究結果!
技術架構總覽
現今的開源「Deep Research」應用通常結合**大型語言模型 (LLM)與檢索擴增生成 (RAG)技術,透過代理 (Agent)**執行網路搜尋、內容解析與報告生成等多階段流程
github.comblog.langchain.dev。以下是其共同的技術要點:
-
使用的 API 與模型:大多採用OpenAI GPT-3.5/GPT-4等LLM (或替代如Anthropic Claude、Google Gemini、Meta Llama等模型)提供文字生成功能
blog.langchain.devgithub.com。為取得即時資料,普遍整合搜尋API(如SerpAPI、Bing Search、Google CSE、Tavily、Exa等)與網頁爬取工具github.comwww.reddit.com。部分專案還利用自有內容解析API(如Tavily Extract、Jina Reader)以擷取網頁全文blog.tavily.comwww.rdworldonline.com。許多開源實作允許切換不同LLM或搜尋服務,例如支援You.com、Brave、DuckDuckGo等github.com或本地模型伺服(如Ollama)github.com。
-
內部運作方式:代理式架構是核心。部分系統採單一自主代理反覆迭代(例如透過while-loop讓LLM不斷搜尋與閱讀直到滿足任務)
www.rdworldonline.com。另一些則採用多代理協作,每個代理擅長特定子任務:如有的負責產生研究計畫、其他負責搜尋資料、撰寫內容、審核結果等,協作完成長篇報告docs.gptr.devdocs.gptr.dev。例如Stanford的Co-STORM引入「LLM專家」與「主持人」兩類代理輪流對話,模擬出深度問答流程github.com;LangChain的LangGraph框架則允許定義多個角色代理(如主編、研究員、撰稿人、審稿人等)分工合作docs.gptr.devdocs.gptr.dev。採用工作流程編排工具(如LangChain LangGraph或LlamaIndex Workflow)可明確定義階段與代理互動,打造可控的多步驟流水線blog.tavily.comblog.langchain.dev。
-
檢索方式:所有專案皆包含資料檢索模組,通常先由LLM根據任務產生搜尋查詢,再調用搜尋API獲取結果
blog.langchain.devgithub.com。取得結果後再以HTTP請求或爬蟲抓取網頁全文。部分項目支援向量資料庫檢索:例如STORM提供VectorRM讓使用者索引本地文件並透過向量搜尋引入相關內容github.com。Tavily公司研究員則結合語義搜尋與關鍵字搜尋以找出精確資訊blog.tavily.com。某些開源復現(如Jina的node-DeepResearch)甚至使用多種搜尋引擎(Brave、DuckDuckGo)以增加覆蓋面www.rdworldonline.com。為降低漏查,很多代理實作多輪檢索:LLM分析初步結果後產生新問題再次搜索,以漸進挖掘深度資訊blog.langchain.devgithub.com。
-
RAG 技術:這些系統典型運用檢索增強生成,在生成內容時引入檢索到的外部知識。常見方法包括:將搜尋結果摘要餵給LLM以產生最終報告
blog.langchain.dev;構建逐段摘要流程,對每個來源先行總結再彙整blog.langchain.dev;或建立知識圖譜/樹狀大綱,由LLM組織資料點後再生成文章github.com。許多報告生成時還注重引用來源,LLM會在句末標註出處,以提升可信度blog.langchain.dev。另外,為控制LLM趨向事實,系統往往內建檢查與反饋迴圈:如代理充當審稿人檢驗內容完整性,不足則發起新一輪檢索補充www.llamaindex.aiwww.llamaindex.ai。透過這類RAG迴圈,使生成結果既翔實又有據可循。
總之,2024-2025年的開源Deep Research專案在技術上都圍繞LLM+檢索。它們透過多代理協作或迭代Agent,串聯起即時網路搜尋、知識整合與報告書寫,極大地擴展了LLM的實用價值
www.rdworldonline.comwww.reddit.com。以下將針對各具代表性的專案逐一深入分析其具體架構、使用API及關鍵技術實現。
專案分析
STORM 系統 (Stanford OVAL Laboratory)
STORM是史丹佛大學OVAL實驗室開源的LLM知識整合系統,能針對輸入主題進行網路研究並自動撰寫維基百科風格的長文報告,包含引註來源
github.comgithub.com。其技術架構分為明確的模組化階段:
-
雙階段流程:STORM將長文生成拆解為兩大步驟:首先預寫階段進行網路資料蒐集並產生文章大綱,其次寫作階段根據大綱與蒐集的參考資料撰寫帶引註的全文
github.com。經驗證,直接讓LLM寫長文效果不佳,分階段有助於深入和組織內容github.com。STORM內部再細分為4個模組:知識整理(廣泛收集主題資訊)、大綱生成(將知識組織成分層結構)、文章生成(依大綱填充內容)、文章潤飾(摘要重點並消除重複)github.com。每個模組都有對應接口與可插拔實現,方便開發者定制調整github.com。
-
自動問答對話:STORM的關鍵創新是產生高品質研究問題以引導深度搜尋
github.com。為此採用兩項策略:其一「多元視角引導」,先讓LLM調查相似主題已有的文章,歸納出不同面向,據此生成涵蓋廣度的問題github.com。其二「模擬對話」,讓LLM一人分飾維基作者與主題專家,就網路查得的資訊進行問答,在對話中逐步加深對主題的理解並引出後續問題github.comgithub.com。透過這種自問自答,LLM能動態更新知識,避免只問膚淺問題。最終彙總多輪Q&A結果形成完整的大綱和資料集。
-
多種檢索來源:STORM內建靈活的檢索模組介面
RM
,目前支持You.com搜尋 (YouRM
)、Bing搜尋、Serper(Metaphor/SerpAPI)、Brave、SearxNG、DuckDuckGo、Tavily、Google、Azure等,以及自建的向量檢索VectorRM
github.com。預設配置下,STORM會使用You.com或Bing API進行網搜,每次查詢擷取若干結果摘要,再由LLM決定引用哪些資訊github.comgithub.com。2024年7月更新還加入使用者本地文件作為知識來源的能力,即先將文件轉為向量索引,再讓STORM在其中檢索相關段落作為補充github.com。這種靈活RAG來源確保STORM既可連網抓取最新資料,也能在私有資料庫上運行。
-
Co-STORM 多代理協作:在STORM基礎上,團隊提出Co-STORM,引入多LLM代理的協同對話架構
github.comgithub.com。Co-STORM定義了兩類代理:多個LLM專家和一個主持人 (Moderator)github.com。專家代理基於外部知識(搜尋結果)回答問題、提出新問題;主持人代理則根據檢索到但尚未被討論的信息,產生具有啟發性的深入問題github.com。人類用戶也可參與回合。Co-STORM實現了一套回合管理協議,由系統在代理之間輪流分配發言權,確保對話協作流暢github.com。例如主持人提問→某專家回答並引經據典→主持人再追問未涵蓋點→...如此循環。在這多智能體討論中,資訊不斷被補充和交叉驗證,使最終整理出的內容更全面。這種架構在複雜資訊搜尋任務中表現出更符合人類偏好的效果github.com。
-
使用的模型與效能:STORM採多LLM組合策略,不同模組可用不同模型以平衡成本和品質
github.com。例如示範中讓對話模擬和提問使用OpenAI GPT-3.5 (廉價快速),而大綱和文章生成用GPT-4 (高質量)github.com。實驗顯示,STORM生成的草稿品質尚未達到發佈級別,但有經驗的維基編輯認為它對預寫階段很有幫助github.com。值得注意的是,該專案已在2024 NAACL會議發表,並釋出包含100篇維基優質條目的FreshWiki資料集與用戶深度搜尋行為的WildSeek資料集,助力後續研究github.comgithub.com。綜上,STORM/Co-STORM的模組化、多代理設計為自動化深度知識整合提供了開放且可擴充的框架,其靈活性使開發者能針對不同搜尋源和模型自由定制github.comgithub.com。
GPT Researcher (Assaf Elovic 等)
GPT Researcher是一款流行的開源自主研究代理,由Assaf Elovic等人開發,旨在讓LLM自動完成全面的網路與本地資料研究,產出詳細且有來源引註的報告
github.com。該專案廣受關注,特點在於可靠的多步驟流程和強大的擴展性gptr.devgptr.dev:
-
規劃者-執行者架構:GPT Researcher的核心架構採取「計劃者 (Planner) + 執行者 (Executors)」雙代理模式
blog.langchain.devblog.langchain.dev。首先,由Planner代理(GPT-4等強模型)根據用戶任務產生一組研究問題清單,這些問題合計應覆蓋該主題的各個重要方面blog.langchain.devblog.langchain.dev。隨後,對於每個具體研究問題,啟動一個執行代理(crawler agent),在網路上搜尋並爬取相關資料blog.langchain.dev。這些執行代理可並行運作,以加快多方面信息收集github.comgithub.com。對每個抓取到的資訊來源,執行代理會進行摘要,提取與研究問題相關的要點並記錄來源blog.langchain.dev。最後,Planner彙總所有問題的摘要結果,進行篩選和聚合,生成完整的研究報告blog.langchain.dev。如此框架將複雜任務拆解成子任務並行處理,既確保報告的廣度和深度,又透過LLM二次整理保證內容連貫。
-
關鍵實現:GPT Researcher非常注重來源可信度與上下文記憶。它會「跟蹤已訪問和使用的來源」,以避免重複並保持上下文銜接
github.com。使用LLM大篇幅生成最終報告時,每一段信息都附有原始出處,報告通常包含十多條來源引用,風格類似Perplexity.ai等搜尋引擎blog.langchain.dev。技術上,該代理實作整合了網頁爬取(包括JavaScript渲染,以抓取動態內容)docs.tavily.comgithub.com、PDF導出等功能,並能輸出報告為PDF、Word等格式方便分享github.com。內部使用Python的異步IO實現並發抓取、多線程處理等,提高效率。在最新版本中,該專案與LangChain深度整合,支持通過LangChain的OpenAI介面調用多種模型以及使用LangSmith做日誌監控blog.langchain.devblog.langchain.dev。
-
API 與模型:GPT Researcher預設使用OpenAI的
ChatCompletion
API,結合GPT-3.5-16k與GPT-4協作:如使用較快的GPT-3.5處理搜尋摘要,GPT-4負責規劃和統整blog.langchain.devblog.langchain.dev。不過專案已模組化模型介面,透過LangChain適配可輕鬆替換為Anthropic Claude 2、Llama 2等模型blog.langchain.devblog.langchain.dev。搜尋方面,內建自行實作的爬蟲,透過Python庫(requests、BeautifulSoup、Selenium/Playwright等)直接抓取網頁github.com。從討論可知,它具備執行JavaScript的能力,說明很可能使用了無頭瀏覽器來取得現代網站內容docs.tavily.comgithub.com。相比依賴現成的SerpAPI,它更側重自行抓取,確保完整控制和兼容性(如可處理需要登入或動態加載的頁面)。此外,GPT Researcher允許本地資料輸入,能將超過20個以上來源的內容整合分析docs.tavily.com。其高度可定制性讓使用者可調整提示、增減功能模組,甚至二次開發成特定領域的研究助理github.comgptr.dev。
-
研發動機與性能:GPT Researcher旨在解決人工研究耗時長、LLM訓練資料過時、上下文長度不足等問題
github.com。透過自動抓取最新資料並巧妙拆分任務,其生成報告長度可達上萬字元而不丟失上下文gptr.dev。實驗顯示,它在資訊完整性和客觀性方面表現突出,能生成事實準確、無偏見的報告github.com。由於平行任務執行和對AI調用的優化,其速度也較傳統逐步詢問型代理快github.com。目前該專案在GitHub上數萬下載,並被許多組織用於市場調查、醫學文獻整理等應用gptr.devgptr.dev。總體而言,GPT Researcher以Planner-Executor代理模式和完善的資料抓取管線,成為2024年開源深度研究領域的里程碑之一blog.langchain.devblog.langchain.dev。
GPT Newspaper (LangChain LangGraph 專案)
GPT Newspaper是一項創新專案,利用多智能體協作自動生成個人化報紙
github.com。它由6-7個專門代理組成,透過LangChain的LangGraph框架協同完成從新聞蒐集到編排排版的全流程github.comgithub.com:
-
多代理角色:GPT Newspaper定義了如下代理角色
n 1. 搜尋代理:負責在網路上搜索最新且相關的新聞github.com。它會根據用戶偏好關鍵字查詢新聞API或搜尋引擎。 n 2. 策展代理:從搜尋結果中篩選出符合用戶興趣的新聞條目github.com。確保選材多樣且契合偏好。 n 3. 撰稿代理:針對每條選定新聞撰寫通俗易懂的新聞短文github.com。 n 4. 評論代理:充當編輯,對撰稿內容提出修改意見,直到文章質量達標github.com。這創建一個Writer-Reviewer迴圈持續改進文稿。 n 5. 設計代理:負責將文章排版、加上標題圖片、製作成報紙版面github.com。確保視覺效果美觀。 n 6. 編輯代理:將多篇文章整合成完整報紙,統一風格並做最終校對github.com。 n 7. 發佈代理:將完成的報紙發佈到前端介面(如Web頁面)或其他指定平臺github.com。
透過這些分工,GPT Newspaper能模擬傳統報社的流水線,每個AI代理專注自身任務,又在LangGraph工作流中串接成一體
-
關鍵技術:GPT Newspaper利用LangGraph使這些代理得以順序協調。LangGraph的狀態管理讓代理之間可共享內容(如策展代理將挑選的新聞傳遞給撰稿代理)
github.com。Tavily 搜尋API在其中扮演重要角色——
.env
設定檔顯示該項目需要Tavily API key和OpenAI API keygithub.comgithub.com。因此,搜尋代理很可能是透過Tavily的搜索服務獲取新聞(Tavily提供即時新聞索引)github.com。內容抓取後,可能使用BeautifulSoup等解析新聞正文,再交由撰稿代理(GPT-4或類似模型)生成總結報導github.comgithub.com。審稿回饋機制由評論代理實現,其提示應包含“要求更好”之類,直到Writer代理改寫滿足要求github.com。版面設計部分可能利用HTML/CSS模板,由設計代理將文章嵌入模板完成排版(Repo語言統計顯示HTML/CSS佔比超40%github.com)。最終前端採用Flask或Streamlit呈現給用戶(app.py啟動Web服務github.com)。 -
RAG 與個性化:GPT Newspaper強調個人化新聞
github.com。用戶在啟動時可設定感興趣的主題、偏好來源等github.com。搜尋代理和策展代理會據此過濾內容github.com。多來源新聞被彙整後,系統以引用新聞來源方式確保真實性(從特性看,它類似人為編報:彙集多家媒體報導並簡化)github.com。透過自動化流程,使用者可在瀏覽器中很快收到一份專屬的當日新聞簡報。此專案展示了LLM代理協同在長格式內容生成上的潛力:從資料獲取、內容創作到排版發佈,全部自動執行github.comgithub.com。
-
優勢與現狀:該專案參與了LangChain社群的AgentCraft黑客松,表明它是LangGraph的一個創新用例
www.youtube.com。其優勢在於端到端全自動地產出多模內容(文字+排版),真正呈現“AI報紙”。由於使用強大LLM (GPT-4)和專業搜尋API,其文章質量和資訊覆蓋度獲得好評www.threads.net。不過官方也提醒此專案仍實驗性質,適合個人用途,不應取代專業新聞機構github.com。總體而言,GPT Newspaper展示了多代理AI系統在新聞內容生產領域的可行性,為個性化資訊服務提供了一種自動化思路。
Claude-Researcher (Claude 3 Research Agent by mshumer)
Claude-Researcher通常指Martin Shumer (mshumer)的「AI Researcher」專案中特別使用Anthropic Claude模型的版本
github.comgithub.com。這個專案旨在讓Claude 2/Claude 3執行自動研究並生成綜合報告,其工作流程和GPT Researcher類似,但採用了Anthropic的LLM和不同工具:
-
分解任務:Claude-Researcher首先要求Claude扮演「世界級研究員」,針對給定主題劃分子議題
github.com。具體而言,Claude會產生一個詳細的子主題清單作為研究待辦事項(如一系列調研問題)github.comgithub.com。這一步相當於計劃階段。然後系統針對每個子議題進行資料蒐集和報告撰寫:透過搜索API查詢資料、彙整內容,再由Claude生成該子部分的說明或結論github.comgithub.com。因此整個主題報告其實由多個子報告組成。最後,Claude再將各子部分合併,整合成一份完整、條理清晰的最終報告github.comgithub.com。這種「分篇寫作再合併」策略可充分利用Claude的大上下文長處,使報告架構清晰且內容豐富。
-
工具和API:此代理明確使用SerpAPI作為網路搜尋接口
github.comgithub.com。SerpAPI提供Google搜尋結果的API訪問,因此Claude-Researcher每當需要資訊時,即以子議題作查詢詞調用SerpAPI獲取結果JSONgithub.com。獲取後,系統會下載前若干個結果的網頁內容(透過
requests
等)並將重點段落提取給Claudegithub.com。Claude在看到這些資料後,據此撰寫子報告段落。專案代碼顯示需要配置ANTHROPIC_API_KEY
和SERP_API_KEY
才能運行github.com。Anthropic API使Claude能被程式調用;SerpAPI確保搜索結果質量。由於Claude上下文長度高達100k tokens,該代理可以在最後階段把所有子報告及來源一次性輸入Claude,再由其整合編寫終稿,避免傳統模型因上下文限制無法綜合理解所有子部分的問題github.com。 -
特有機制:為提高報告質量,作者引入一個“老闆 persona”機制,即讓Claude模擬一個上級(或第二代理)來批閱草稿
github.com。在每個子報告生成後,老闆人格會審視內容,指出有無遺漏資訊github.com。Claude再根據這反饋補充該子報告,確保每部分完整無疏漏github.com。這種自我迴路提高了資訊覆蓋度,相當於Claude自己校對自己,使最終匯總報告更趨近全面。作者稱之為加入“老闆指導以填補缺失資訊”的迴圈github.comgithub.com。
-
效果:Claude-Researcher展示了Claude在長文本和綜合推理上的強大能力。透過多步檢索和自審,它能在單次自動運行中產出數千字的深度報告
github.comgithub.com。使用者只需在Colab筆記本中輸入主題,即可約數分鐘後得到結果github.com。該專案利用Claude較高的穩定性,成果報告被認為事實性強且條理清晰。值得一提,mshumer還以相同框架構建了Gemini 1.5 YouTube Researcher(用Google Gemini模型,分析YouTube影片內容),體現此架構對不同模型和媒介的適應性github.com。總體而言,Claude-Researcher充分發揮了Anthropic Claude長上下文和可靠性的優勢,結合SerpAPI的即時搜尋,實現了一個高控管、高品質的研究代理en.rattibha.com。
Gemini YouTube Researcher (mshumer 的 YouTube 內容研究代理)
Gemini-YouTube-Researcher是mshumer在2024年4月發布的另一版本AI Researcher,利用Google的Gemini 1.5 Pro模型,針對YouTube影片內容進行自動研究
github.com。它的特殊之處在於處理多媒體資料:
-
設計目的:此代理適用於當主題存在豐富的影片資源時。與傳統網頁文本不同,影片資訊需透過聽寫 (transcription)或影片描述來取得。Gemini-YouTube-Researcher會收集多個相關YouTube影片,將其語音內容轉成文字,再讓LLM理解彙總
github.com。結果是一份基於影片內容的報告,能反映視頻中專家的觀點、演示的資料等,這對於學術講座、產品發布會等有價值。
-
工作流程:該代理首先利用YouTube API搜尋輸入主題的影片列表(或由用戶提供影片ID集合)。接著對每條影片獲取字幕或自動轉錄文本。可能使用YouTube自帶的字幕API或第三方聽寫服務(如OpenAI Whisper模型)將語音轉文字。然後,類似Claude-Researcher的方式,LLM(Gemini 1.5)會先生成影片列表的問題清單或大綱,再針對每個影片內容撰寫摘要/要點。
github.com提到此版本會“listen to a set of YouTube videos ... and create a report”,暗示它對每支影片提取主要內容後,再由LLM融合多支影片的信息生成報告。這可能包括不同影片間觀點對比、共同點匯總等。
-
模型與工具:Google Gemini 1.5 Pro是一款Google於2024推出的強大多模態模型(推測,可處理文本,甚至影像)。不過此處主要用其NLP能力。Gemini透過Google的API使用,需提供相應憑證。由於Gemini可能內置更強的推理能力,它在總結長篇聽寫上表現突出。此代理還涉及YouTube Data API和字幕API作為資料來源工具,以及可能用到Google Cloud Storage暫存轉錄文本。基於作者描述,“try it out with the Gemini_Youtube_Researcher.ipynb notebook”,整個流程應在Colab上執行,需要用戶填入相應API Key
-
RAG 特點:不同於純文字的網頁搜尋,YouTube影片常包含口語講解、示範等資訊。代理將多支影片的精華匯總,實現了跨影片知識整合。這對需要從大量影片中快速獲得結論的人非常實用。報告中也會引用影片名稱或時間戳作為來源,以便讀者回溯。由於影片內容時新時舊,使用者可指定只收集某期間內的影片(例如近半年),以保持資料新穎性。
Gemini-YouTube-Researcher證明了Deep Research代理可以不局限於文字網頁,延伸到音視頻資料,擴大了LLM自動研究的應用範圍。這對未來多模態研究助理具有啟發意義。
Llama-Researcher (基於LlamaIndex Workflows 的研究助理)
Llama-Researcher是由開發者Rohan S.創建的一個開源教程專案,使用LlamaIndex框架實現一個網路研究助理
github.com。儘管名稱帶有“Llama”,它其實是強調利用LlamaIndex (原稱GPT Index)的工作流能力,而非一定使用Llama系列模型。該專案受到GPT Researcher啟發,但採用了不同的技術棧:
-
架構與流程:Llama-Researcher使用LlamaIndex Workflows來編排多步驟任務
github.com。流程大致如下:
n 1. 取得查詢:使用者輸入研究主題。系統會基於此主題,也許透過模板提示LLM生成一些相關搜尋關鍵詞或子主題。 n 2. Tavily 搜尋:利用Tavily的搜尋API執行網路搜索,獲取相關網頁列表github.com。Tavily具備語義搜索,可找到上下文相關度高的內容blog.tavily.com。 n 3. 內容抓取:對搜尋到的每個結果,用LlamaIndex的Loader模組(如WebPageReader)抓取網頁全文。然後使用LlamaIndex構建這些內容的索引(例如VectorStoreIndex向量索引)github.com。 n 4. 分析整合:透過LlamaIndex的查詢引擎,向索引詢問與主題相關的問題,取得重點段落。或者直接讓LLM遍歷索引內容提取要點。LlamaIndex提供PostProcessor等,可對檢索結果做過濾、合併github.com。 n 5. 報告生成:最後,LLM基於收集的資料生成總結報告。
LlamaIndex Workflows允許把上述步驟串成流水線,並以JSON或Pydantic物件管理狀態,使整個過程清晰可監控
-
使用API:該專案需要配置
OPENAI_API_KEY
和TAVILY_API_KEY
github.com。因此預設使用OpenAI GPT-4或GPT-3.5執行內容生成、分析等,以及Tavily提供搜尋和內容提取服務blog.tavily.comblog.tavily.com。Tavily的Extract API可直接抓取網頁純本文,減少自己處理HTML的麻煩blog.tavily.com。LlamaIndex再對這些文本建立索引(如使用FAISS或內存向量),方便後續語義查詢。
-
RAG 技術:Llama-Researcher充分利用LlamaIndex的RAG優勢。它將外部資料轉成向量、文件樹等結構後,LLM查詢時可得到引用段落作輔助,降低幻覺風險
blog.tavily.com。同時,LlamaIndex的Workflow能靈活引入後處理步驟,例如可加入一個過濾器,去掉來源不可信的段落。也可藉PostProcessor實現將結果轉成報告所需格式(如條列重點)。
-
項目價值:LlamaIndex官方Newsletter報導稱,Rohan的Llama-Researcher專案長於多步推理和任務管理,透過Tavily檢索和LlamaIndex工作流,有效率地完成報告合成
www.llamaindex.aiwww.llamaindex.ai。此專案作為教學範例意義重大,它示範了如何用LlamaIndex打造一個從資料檢索到生成的一站式Agentgithub.com。相對於直接調用LLM,這種方法對流程每步都有掌控,也容易擴展(比如替換搜尋源或加入人工審核環節)。當然,目前版本仍主要使用OpenAI模型,但開發者可以很方便地切換為本地Llama 2或其他開源模型,因為LlamaIndex對接多種LLM。總而言之,Llama-Researcher體現了結合向量索引的代理式RAG應用,為社群提供了一個輕量但功能完整的深度研究代理模板github.comwww.llamaindex.ai。
Open Deep Research (OpenDeepResearch 開源專案)
Open Deep Research(GitHub項目名:open-deep-research)是由開發者Bahae T.構建的開源Web應用,旨在作為OpenAI/Bard“Deep Research”功能的免費替代方案
github.com。它可以根據網路搜尋結果,生成附有來源引用的研究報告www.rdworldonline.com。其技術架構側重於Web前後端集成:
-
全棧式 Web 應用:Open Deep Research採用Next.js (React)構建,用TypeScript撰寫前後端代碼
****github.com****。使用者通過Web界面提交查詢,後端即調用搜尋API和LLM生成報告,最後在前端顯示並可下載。技術棧包括:Next.js 15、Tailwind CSS(UI),Upstash Redis(作為速率限制和緩存)github.com。這使應用即時互動並具備多用戶并發能力(可在Vercel等平台部署在線服務github.com)。
-
靈活的檢索配置:該系統支持Google自定義搜索 API或Bing Search API兩種網路檢索
github.com。用戶可在配置中選擇
provider: 'google'
或'bing'
github.com。若使用Google,需要提供API金鑰和自定義搜尋引擎ID(CX)github.com;使用Bing則填入Azure訂閱金鑰github.com。此外可以設定SafeSearch等參數確保結果安全github.com。此靈活性意味著Open Deep Research可根據不同可用API自由切換搜索源,增強穩定性。 -
資料擷取與模型:對於每條搜尋結果,系統會抓取其網頁內容並解析出正文文本
github.com。這裡它使用了Jina AI 提供的閱讀器來解析網頁github.com。Jina的工具可將HTML轉為乾淨文本,可能通過Jina Cloud API或調用Jina開源庫(DocArray)實現github.com。擷取的內容然後提供給後端的LLM。Open Deep Research支援多種LLM平台:Google Gemini、OpenAI GPT-4/GPT-3.5、Anthropic Claude(Sonnet)等github.com。配置文件允許選擇模型提供方及型號github.com。例如開發者提到“多平臺AI支援 (Google Gemini、OpenAI GPT、Anthropic)”github.com,可推斷其背後採用了適配不同API的後端函式。如選用Gemini需有Google的Palm API權限,選OpenAI則填入OPENAI_API_KEY。此架構讓使用者能根據手頭資源選最優模型。
-
核心流程:用戶輸入查詢後,後端執行:(1)搜尋抓取N篇結果,(2)讓LLM閱讀這些內容並產生報告,(3)在生成文字中插入引用標記對應資料來源。LLM提示可能指示它將每段內容的出處以編號標注
www.rdworldonline.comwww.rdworldonline.com。開發者對OpenAI Deep Research的觀察是,它本質上就是“不斷搜尋、閱讀、推理的循環”,所以他用while-loop實現了類似邏輯www.rdworldonline.com。不過在Open Deep Research中,預設情況下似乎只進行一輪搜尋,由LLM直接基於初始搜索結果寫報告。用戶可以通過介面設定Time filter限制搜尋結果的時間範圍(例如只要近期資料)github.com。另外有參數控制每頁結果數和選擇重點結果數(如預設搜尋10條,選取3條最相關進行處理)github.com。因此系統不追求cover所有資料,而是重質不重量,提高事效。
-
特色功能:Open Deep Research提供Knowledge Base知識庫功能,可將用戶生成的報告及其搜索查詢存到本地瀏覽器存儲中
github.comgithub.com。這允許用戶查看歷史研究記錄,並且離線保存報告(資料安全由用戶掌控)。另可一鍵匯出報告為PDF或Wordrepocloud.io。此外,它實現了速率限制:每分鐘最多X次搜尋、Y次網頁抓取等,以防止濫用(可通過Redis完成計數)github.com。這些實用功能使其作為Web服務更加可靠。
-
核心優勢:Open Deep Research最大的優點是易用的Web界面和高度定制。不需寫代碼即可使用強大研究代理,並可根據需求調整模型和搜索源。作為對比,OpenAI官方Deep Research功能需每月$200 Pro方案,而此專案開源免費(除了API服務成本)
www.rdworldonline.com。雖然如此,其效果也相當不錯——一些用戶測試發現,Open Deep Research生成的維基風報告在完整性上甚至能接近或超過Perplexity等產品medium.com。當然,報告質量取決於底層模型選擇,例如使用Gemini或GPT-4會更好但成本高。總的來說,Open Deep Research以全本地可部署、靈活擴展的特性,為社群提供了一個功能完備的Deep Research解決方案www.rdworldonline.comgithub.com。
Jina AI Node-DeepResearch (Han Xiao 的深度研究複現)
node-DeepResearch是由Jina AI的CEO韩卿(Han Xiao)在OpenAI發佈Deep Research功能數小時內開源的快速複現版本
www.rdworldonline.com。它以Node.js編寫,強調使用開放API組件來模擬OpenAI Deep Research的能力www.rdworldonline.com。其主要技術特色:
-
模組化架構:node-DeepResearch採用模組化設計,各部分對應OpenAI官方方案中的關鍵功能
www.rdworldonline.com。Han Xiao總結OpenAI Deep Research就是“循環執行 搜尋+閱讀+推理”www.rdworldonline.com。因此,他的實現包含三大模組:
n 1. 搜尋模組:使用Brave Search或DuckDuckGo等開源友好的搜尋引擎來獲取資訊www.rdworldonline.com。 n 2. 閱讀模組:使用Jina的網頁解析工具(Jina Reader)來抓取並解析網頁內容www.rdworldonline.com。 n 3. 推理模組:使用Google的Gemini Flash模型作為LLM,在迴圈中進行推理和決策www.rdworldonline.com。
這些組件都是“現成的API”,沒有依賴OpenAI私有模型,因而快速開發
www.rdworldonline.comwww.rdworldonline.com。整個系統運行時,先由LLM根據查詢發起網搜,獲得結果後讀取內容,再由LLM基於新知識決定下一步(繼續搜還是作答),如有需要就反覆迴圈,直到得到滿意答案或達到預設步數上限github.com。
-
使用工具:
- Gemini-Flash:據描述,Gemini-Flash應是Google開發的一個輕量級LLM(可能類似Palm 2的精簡版),提供較快的推理以支撐代理頻繁迭代www.rdworldonline.com。透過Google API調用該模型,成本低於GPT-4。
- Jina Reader:Jina AI的開源組件,可將URL轉為純文字。這省去編寫繁瑣爬蟲代碼。Jina Reader可能基於Playwright或requests+解析來實現,但對開發者透明。
- Brave & DuckDuckGo Search:Brave提供匿名的搜索API (Goggles),DuckDuckGo也有搜尋API,兩者都無需Google訂閱,適合開源項目使用www.threads.net。Han Xiao選擇它們也是為了避免速率限制嚴重或收費昂貴的服務。
- Node.js實現:該專案名稱中的“node”即指出用Node.js。Han利用JavaScript/TypeScript實現代理邏輯,並在不到一天內完成www.rdworldonline.comwww.rdworldonline.com。Node豐富的npm包亦有助於快速集成上述API。
-
運作示例:作者提及一個複雜查詢「Who is bigger: Cohere, Jina AI, or Voyage?」,node-DeepResearch在約13步迴圈後得出答案
www.rdworldonline.com。這說明代理能自行決策:如第一次搜索各公司背景,發現需要比較營收或員工數,再分別搜索Cohere、Voyage等資料,最後彙總比較得結論。在迴圈中,每步LLM可能會根據目前掌握的信息生成下一個搜索query或決定已足夠可以回答,極大降低了人類介入。整個過程大概耗時5-30分鐘自動完成www.rdworldonline.com。
-
比較與影響:OpenAI Deep Research功能需Pro用戶付費,而node-DeepResearch開源免費(只需API成本)
www.rdworldonline.com。儘管模型不同,但早期測試顯示,其答案準確度相當不錯,接近官方水準www.rdworldonline.comwww.rdworldonline.com。該repo發布幾小時內即收穫數百星標,展現開源社群的響應速度www.rdworldonline.com。這項專案的成功複現,凸顯瞭組合現有開源工具即可快速搭建強大Agent的可能。事實上,Han Xiao自稱8天前就預建好了框架,OpenAI發布後只花數小時調優即推出替代品www.rdworldonline.com。這事件說明了2025年AI創新競速:開源社群能極速追趕封閉產品,將最新功能民主化。
Deeper Seeker (社群版 Deep Research 工具)
Deeper Seeker是一位開發者(HarshJ23)在OpenAI Deep Research發布後開源的簡化OSS版本,號稱為ChatGPT深度研究功能的開源替代
www.reddit.com。它同樣是個代理式研究工具,但設計上比STORM或GPT Researcher更輕量:
-
簡化的單代理流程:Deeper Seeker沒有引入多Agent框架或LangChain,而是在程式邏輯中實現了一個Agent循環
www.reddit.comwww.reddit.com。LLM本身同時負責規劃問題和分析結果。具體而言:
n 1. LLM首先解析用戶查詢,生成一系列搜索查詢或細分任務github.comgithub.com。這步驟由函數
generate_research_step()
完成,底層調用OpenAI模型來決定下一步搜尋方向github.com。例如詢問一個話題可能拆成幾個關鍵問題逐一搜索。 n 2. 系統使用Exa Web Search API發出網路搜尋www.reddit.comgithub.com。Exa是為LLM優化的語義搜尋引擎(前稱Metaphor),能根據自然語言查詢找相關內容js.langchain.com。exa_search()
函式負責調用Exa API並返回結果清單github.com。 n 3. 取得結果後,程式會格式化結果(標題、snippet、鏈接),然後遞交給LLM分析github.comgithub.com。LLM透過process_search_results()
閱讀這些摘要,從中提取有效信息點github.com。 n 4. LLM基於新獲知內容更新自身對問題的理解,判斷是否需要深化(例如發現一新名詞需要額外搜索)github.comgithub.com。如是,則返回新的搜索查詢,系統重複步驟2;如果已有足夠資訊,LLM就直接產生結構化輸出(報告)github.com。 n 5. 最終輸出報告通常按照要求是條理分明的要點列表,並附上參考資料。 -
使用API:Deeper Seeker要求配置
EXA_API_KEY
和OPENAI_API_KEY
github.com。它使用OpenAI(GPT-4或gpt-3.5)來進行所有推理和文本生成,以及Exa.ai提供的搜尋服務來獲取資料github.com。Exa搜尋的優勢在於可返回含語意相關片段的結果,方便LLM理解上下文而非只看到關鍵字匹配js.langchain.com。此外Exa聲稱快速且為LLM優化,適合在回圈中多次調用www.reddit.com。至於網頁全文內容,Deeper Seeker暫未實現深入抓取每個結果的詳細內容,而是主要依靠Exa返回的摘要snippet輔助LLM。如果需要,LLM可以要求“打開某結果”,再由代碼fetch該URL內容給它(目前版本可能未涵蓋此步,以保持簡潔)。
-
開發取向:開發者在Reddit上表示,他未使用LangChain/LangGraph等框架,直接用簡單的Python程式實現代理邏輯
www.reddit.com。這種極簡實現易於理解和貢獻,並鼓勵社群後續改進www.reddit.com。目前Deeper Seeker在回答簡單問題時能產生不錯的報告,但對於非常複雜的任務可能不及更先進的多Agent系統www.reddit.com。不過,它勝在足夠輕量,易於部署且對新手友好。同時Exa的語義能力加持,使其對查詢上下文把握較精準,減少不相干結果干擾。
-
功能示例:Deeper Seeker會輸出「structured report」,例如針對查詢,按子問題列出答案要點,每點後可能附上簡短來源名稱或鏈接。這符合其簡明實用定位——提供「條理化重點」。這裡LLM提示可能要求它輸出成markdown列表並在括號內給出資料來源URL。由於架構簡單,用戶也可容易地修改提示以適應不同格式需求。
總之,Deeper Seeker是OpenAI Deep Research思路的一次極簡實現,使用Exa和OpenAI API即可完成深度搜尋和報告生成
www.reddit.comgithub.com。它說明即使不借助複雜框架,只要搭配合適的搜索和解析工具,也能打造一個功能可用的研究代理。這對開源社群降低復現門檻、鼓勵創新有積極意義。
HuggingFace 開源 DeepResearch (基於 SmolAgents 框架)
Hugging Face團隊在OpenAI公佈Deep Research後,亦於24小時內利用自家SmolAgents框架推出了開源的「DeepResearch」復現
arstechnica.comarstechnica.com。其方案強調以程式碼作代理指令以及多工具配合,旨在在GAIA等推理基準上逼近OpenAI方案性能huggingface.cohuggingface.co:
-
CodeAgent 架構:與傳統以對話格式讓LLM決定操作不同,HF採用了「代碼代理 (CodeAgent)」技術
huggingface.co。代理以生成程式碼的方式來表達行動序列,這有多項優點:
- 代碼比JSON等結構更簡潔高效,平均可減少30%步驟,因此節省LLM輸出tokenhuggingface.co。
- LLM對程式語言更熟悉,生成代碼更符合其訓練分佈,有助於減少錯誤並提高複雜任務表達能力huggingface.co。
- State handling更靈活:在代碼中可以將中間結果存變數,LLM容易理解如何重用它們,避免用自然語言refer時混淆huggingface.co。
基於近期研究
huggingface.co,HF實作的DeepResearch代理讓LLM輸出Python代碼片段來調用工具完成任務。例如LLM可能輸出:
results = web_search("query")
,框架執行後將結果賦給變數,再將變數內容傳回LLM續寫。這透過smolagents實現了更可靠的多步推理huggingface.co。 -
工具集成:HF版本為了快速提升性能,直接採用了微軟研究的Magentic-One代理提供的工具程式
huggingface.co。主要包括:
n 1. 簡易網頁瀏覽器:一個文本模式的瀏覽工具,可以根據URL抓取頁面文字huggingface.co。HF將其作為代碼工具封裝為函式
web_search()
或open_url()
,LLM可在代碼中呼叫huggingface.co。 n 2. 文本檢視器:用於讀取本地的txt/pdf等文件的內容huggingface.co。可處理多種文檔格式以便在需要時LLM調用查看內容。這兩個工具被無縫融入smolagents框架,使代理能查網頁、讀文件
huggingface.co。HF強調這只是初版,未實現像OpenAI那樣深入的瀏覽器互動(例如點擊頁面按鈕、執行JS等),未來路線將朝OpenAI的Operator瀏覽器靠攏huggingface.co。即便如此,目前基礎功能已足夠在QA基準上取得顯著提升。
-
模型與性能:HF沒有明說使用何種LLM,但推測應是自家開源模型(如Code Llama或其增強版)以便完整開源。可能使用了一個多輪對話fine-tune的Code LLM,使其能理解指令並用Python工具解題。在GAIA (General AI Assistant benchmark)驗證中,OpenAI Deep Research在驗證集67%正確率,而GPT-4僅7%,HF 24小時復現版已穩定上升逼近該水準
huggingface.cohuggingface.co。雖未完全追平,但巨大進步證明此路徑可行huggingface.co。HF也開放了結果對比、持續調優空間,希望社群貢獻改進,如加強瀏覽器、引入更多專用工具等huggingface.co。
-
社群試用:HF將此代理部署在HuggingFace Space供體驗。有用戶反饋其輸出非常詳細高質,但有遇到超過模型最大token限制等問題
huggingface.cohuggingface.co。開發團隊表示會繼續完善,如升級瀏覽器和狀態管理機制。這也顯示出開源方案仍在快速迭代中。
總的來說,HuggingFace的開源DeepResearch透過smolagents代碼代理和開源模型,在極短時間內提供了一個接近專有系統效能的方案
huggingface.co。這不僅驗證了Academic思路(Code-LLM優於ReAct)在實戰中的威力,也體現HF致力於開源社群共享尖端AI應用的理念。
LangChain 案例專案
LangChain社群在2024年湧現多個基於其框架的Deep Research相關應用,結合LangChain工具與代理管理,涵蓋新聞、公司情報等場景:
-
News TL;DR (新聞摘要代理):這是一個使用LangChain LangGraph實現的新聞重點提取代理
github.com。用戶輸入感興趣的新聞主題或關鍵詞,系統會:
n 1. 調用NewsAPI獲取相關新聞文章的標題與簡介列表github.com。 n 2. 使用LLM(如GPT-4 mini模型)對這些標題產生進一步的網頁訪問計劃,然後並行抓取每篇文章全文(使用BeautifulSoup爬取)github.com。 n 3. 對每篇文章由LLM撰寫一段概要。 n 4. 再由LLM將多篇概要整合,生成一份簡明的要點列表(TL;DR bullet points)github.com。
LangGraph協調多組件:如生成查詢詞→多線程抓取→異步摘要→合併結果
github.com。實現上使用了Python的asyncio來同時處理多文章,極大加快速度github.com。News TL;DR專注提供最新、快速的新聞要點,滿足用戶即時信息攝取需求。
-
AInsight (AI/ML周報代理):AInsight是類似News TL;DR的進階版,針對人工智慧領域新聞,採用多代理架構
github.comgithub.com。它設計了三個Agent:
- NewsSearcher代理:使用Tavily API自動收集近期AI/ML新聞文章列表github.com。
- Summarizer代理:讀取每篇技術新聞,產出概要(著重技術內容解讀,由GPT-4支持)github.com。
- Publisher代理:將多條摘要編輯成週報格式,可能加上標題分類、條理化編排github.com。
LangGraph將這三者串起,使其順序運行並共享狀態(新聞列表->摘要->報告)。AInsight的特色在於模組化,每個代理只專注自己的任務;並通過TypedDict狀態在LangGraph中傳遞數據
github.com。最終生成的週報是一份markdown報告,匯聚當週AI要聞精華。這展示瞭LangChain框架如何輕鬆構建專領域信息聚合代理。
-
Tavily 公司研究員:由Tavily公司發佈的開源公司資訊深度研究代理
blog.tavily.com。它使用LangGraph將Tavily Search/Extract與LLM結合,特點是為避免混淆同名公司、補足網路缺失信息,設計了精細的七步流程blog.tavily.comblog.tavily.com:
n 1. 官網內容錨定:首先用Tavily Extract抓取目標公司的官網內容,作為“ground truth”blog.tavily.com。這形成基本事實資料庫,確保後續搜尋不偏離主題。 n 2. 子問題生成:LLM根據官網信息和用戶需求,生成多個具體調研子問題(如該公司的市場表現、競品、新聞等)blog.tavily.com。 n 3. Tavily 搜尋:針對每個子問題使用Tavily Search查找精確資料blog.tavily.com。 n 4. AI聚類辨識:將檢索到的文檔依公司名聚類,比對ground truth以排除同名異公司的資料blog.tavily.com。確保後續分析只針對正確公司的資訊。 n 5. 人類校驗 (可選):若自動聚類不確定,允許人類在回圈中介入選擇正確的結果集blog.tavily.com。 n 6. 深入擷取:對確認相關的一組來源,再用Tavily Extract拉取詳細內容,獲得豐富的原文資料blog.tavily.com。 n 7. 報告生成與評估:LLM彙總所有蒐集資料撰寫結構化報告,同時內置檢查機制:如發現某關鍵問題尚無答案,會自動產生新問題再搜索補充blog.tavily.com。重複直到報告完善。
最終報告支持輸出成PDF或Markdown
blog.tavily.com。這套流程高度保證了資訊的精確性和完整度。用ground truth引導搜索解決了常見的同名干擾和虛假資訊。Tavily公司研究員因此能產生準確可靠的公司調研報告blog.tavily.comblog.tavily.com。它充分利用了Tavily強大的搜索/提取API和LangGraph靈活的代理編排,是2024年企業級深度研究代理的代表。
-
Structured Report Generation (LangChain + NVIDIA):LangChain與NVIDIA在2024年合作推出結構化報告生成 Blueprint,旨在提供企業可用的多代理報告創作方案
blog.langchain.devblog.langchain.dev。此Blueprint使用LangChain的LangGraph Platform和NVIDIA的NIM後端:
- 技術棧:採用NVIDIA NIM微服務托管開源模型(如Mistral、Llama2),確保可在本地或雲端高效推理blog.langchain.devblog.langchain.dev。LangGraph用於構建複雜代理流程,LangSmith則監控調試blog.langchain.devblog.langchain.dev。
- 代理流程:與前述Document Research Assistant相似(實際上Blueprint內容幾乎就是LlamaIndex Document Assistant):包括撰寫大綱、生成細目問題、查詢RAG資料、寫初稿、審稿、迭代完善等步驟www.llamaindex.aiwww.llamaindex.ai。只是這裡使用LangChain生態實現而非LlamaIndex。
- 模型:採用Llama 3.3 70B等NVIDIA提供的強大開源模型來代替OpenAI模型build.nvidia.com。這解決了企業數據隱私顧慮,可在內網部署。
該Blueprint重點解決擴展性和安全:NIM保證模型推理高吞吐低延時,LangGraph允許細粒度控制流程,可在on-prem環境運行以保護敏感資料
blog.langchain.devblog.langchain.dev。Blueprint示例場景是自動寫技術博客,與LlamaIndex的多代理架構幾乎相同www.llamaindex.aiwww.llamaindex.ai。優勢在於完全控制和開源模型,無需依賴第三方API。這為企業落地方便開發定制自己的深度研究/報告生成代理提供了範本blog.langchain.dev。
LlamaIndex 相關專案
LlamaIndex社群亦推出了一些專用代理應用,將RAG與Agent結合:
-
Research Paper Report Generating Agent:這是LlamaIndex Cookbook中的範例,用於自動生成每日新研究論文報告
github.com。其流程:
n 1. 調用arXiv API獲取當日發佈的論文列表github.com。 n 2. 擷取每篇論文的標題、作者、機構、領域等中繼資料github.com。 n 3. 將論文PDF全文下載並用LlamaParse解析關鍵部分(如摘要)進入索引。 n 4. LLM針對這些論文自動寫一份報告,可能包括列出每篇的新發現、背景介紹、潛在影響等。 n 5. 報告可每天生成一次,作為學術新聞簡報。
從資料看,該代理注重元資料整理,會列出論文的發表日期、作者、機構等資訊
github.com。LlamaIndex在此扮演資料管家的角色:將多篇論文內容存入索引並支持語義檢索,使LLM能比較不同論文內容,找出共通趨勢或重要個例。此Agent極大地減輕科研人員每天追蹤文獻的負擔,做到重點資訊一覽無遺github.com。
-
Document Research Assistant (NVIDIA Blog Assistant):這個前文已在LangChain部分描述,它實際由LlamaIndex團隊與NVIDIA合作完成
www.llamaindex.ai。LlamaIndex提供Workflow組裝5個子代理(大綱撰寫者、問題生成者、檢索答題者、文章撰寫者、審稿者),NVIDIA NIM負責執行模型www.llamaindex.aiwww.llamaindex.ai。值得再強調的是,這套系統在每次撰寫博客時,可以接受任意用戶提供的文檔作為知識來源www.llamaindex.ai。也就是說用戶可上傳幾篇參考資料(PDF、網頁等),系統先嵌入並建立索引,再讓代理問答時查這些文檔www.llamaindex.ai。這使生成內容有據可依,且能靈活適應不同主題背景。每輪審稿代理判斷內容是否全面,來決定要不要追加問題,這體現LlamaIndex在Agent loop上的應用www.llamaindex.ai。經過最多3輪補充,最終博客內容才定稿www.llamaindex.ai。該代理堪稱將RAG與Agent結合的經典案例:先構建知識庫,再多智能體挖掘利用,實現高質量內容創作www.llamaindex.ai。
Ollama Deep Researcher (本地LLM深度研究助手)
Ollama Deep Researcher是LangChain團隊開源的一個專案,提供完全在地端執行的深度研究代理
github.com。它利用Ollama平台托管的本地LLM,讓研究過程不依賴雲端LLM APIgithub.com:
-
運作概覽:使用者提供一個研究主題,Ollama Deep Researcher即會:
n 1. 讓本地LLM為主題產生初步網路查詢。 n 2. 用Tavily(預設)執行搜索,獲取前若干個結果並抓取摘要。 n 3. 本地LLM閱讀摘要後,生成內容概要並分析有無知識空白github.com。 n 4. 若有缺漏,LLM提出新的更具體查詢,系統再次搜索→閱讀→改進摘要github.com。 n 5. 如此迭代指定次數(由用戶設定迴圈輪數),最後產出完整的Markdown報告,內含所有引用來源github.comgithub.com。
簡言之,它執行多輪“搜索-總結-反思-再搜索”循環直到滿意
github.com。這與GPT Researcher類似,但所有LLM推理都在本地進行。
-
本地LLM via Ollama:Ollama是一個本地模型運行時,支援多種預訓練模型的下載與部署。Ollama Deep Researcher可使用任何Ollama已載入的模型
github.com。開發者特別演示了與DeepSeek R1 14B模型的結合www.threads.netwww.threads.net。DeepSeek R1是2025年出現的一款強調推理能力的開源模型,在本地硬體上性能優秀www.threads.net。透過Ollama命令行,使用者可以
ollama pull deepseek-r1:8b
等下載模型權重github.com,然後代理即可調用。由於模型全程本地執行,使用者資料不會發送到雲端,隱私保障。同時可離線工作,不受API服務可用性影響。 -
Tavily 搜尋與資料取得:雖然LLM在本地,但實時資訊仍來自網路,因此使用Tavily這個商業搜尋API
github.com。Tavily提供結果JSON和快速摘要,適合Agent使用。若要完全離線,使用者也可考慮以本地抓取+本地索引代替,但那會複雜許多。預設就使用Tavily能快速取得高品質的搜尋結果github.com。不過若對隱私極端敏感,也可換用如self-hosted的Searx引擎並修改代碼。值得一提,內容摘要這步主要由本地LLM完成:LLM看到搜索結果後自行綜合要點和缺漏github.com。相比服務端LLM,本地模型可能較弱,但DeepSeek這類專精推理的模型彌補了一些差距www.threads.net。
-
優勢:Ollama Deep Researcher真正實現了Deep Research流程的本地化。除了搜尋階段,其餘計算都不依賴外部服務。對那些有強算力且注重資料控制的用戶非常友好。此外,它支持多種模型,用戶可選擇速度快的8B或效果好的70B模型。該代理輸出帶來源的markdown報告,可直接使用。LangChain視頻展示中,DeepSeek R1模型在此場景表現出色
www.threads.netwww.threads.net。總體來說,Ollama Deep Researcher是開源社群探索離線自主Agent的重要里程碑,證明深度研究代理不必依賴雲端大模型也能運作良好www.threads.netapp.opensauced.pizza。
核心技術與優勢對比
各專案在技術實現和功能側重上有所差異,總結如下:
專案名稱
使用的模型 / API
架構與代理
檢索與RAG技術
核心優勢與特色
Stanford STORM (含 Co-STORM)
多LLM組合 (GPT-3.5/4)github.com;You.com API、Bing API 等github.com
模組化管線:知識整理→大綱→寫作→潤飾github.com;Co-STORM多代理輪流對話github.com
網搜+多視角對話github.com;支援向量檢索本地文檔github.com
學術級實作,高度可定制;多輪提問深入主題github.com;合作代理提高資訊覆蓋度github.com
GPT Researcher (Assaf)
OpenAI GPT-3.5/4blog.langchain.dev;自建爬蟲抓取 (JS執行)github.com
Planner+Executors雙Agent並行架構blog.langchain.devblog.langchain.dev
迭代搜尋->總結->過濾;20+來源聚合,帶來源引用blog.langchain.devgithub.com
自動生成客觀無偏報告github.com;可平行抓取提升速度github.com;已融入LangChain,模型切換靈活blog.langchain.dev
GPT Newspaper (LangGraph)
OpenAI GPT-4 系列;Tavily API 搜尋github.com
6+專職代理:搜尋、策展、撰稿、審稿、設計、編輯、發佈github.com
多代理流水線協作;Tavily檢索+爬取新聞github.comgithub.com
自動生成個性化報紙github.com;圖文排版一體化輸出;代理分工細緻,品質控制嚴謹github.com
Claude-Researcher (mshumer)
Anthropic Claude-2/Claude-100kgithub.com;SerpAPI Google搜尋github.com
單Agent實現但內置“老闆”反饋回路github.com;子話題拆分+合併報告github.com
SerpAPI抓取網頁;Claude長上下文匯總多子報告github.com
利用Claude超長上下文,合併多部分內容一致性佳;自主檢查補遺漏,提高完整性github.com
Gemini YouTube Researcher
Google Gemini 1.5 Pro (via Vertex API)github.com;YouTube Data API
單Agent管線:影片搜尋->轉錄->總結各影片->彙總
語音轉文字+LLM跨影片總結;關鍵資訊迭代提問 (如影片不足再補搜)
針對多媒體內容,能從多影片中萃取知識;拓展研究代理至影音領域,資訊豐富多元
Llama-Researcher (Rohan)
OpenAI GPT-4 (默認)github.com;可換開源模型 (透過LlamaIndex)
LlamaIndex Workflow編排順序任務github.com;單Agent執行各步
Tavily智能搜尋github.com;向量索引內容,語義查詢輔助生成www.llamaindex.ai
使用LlamaIndex簡化RAG流程;搜索-索引-問答一體化,易改造成自有資料助手github.com;開源教程性質,易學易拓展
Open Deep Research (OpenDeepResearch)
多模塊LLM選擇 (Google Gemini、OpenAI GPT-4/3.5、Claude等)github.com;Google CSE或Bing APIgithub.com
Web應用架構 (Next.js);單Agent循環或一次性摘要 (預設無明顯多Agent)
API搜尋+Jina Reader抓正文github.com;LLM整合內容並附來源www.rdworldonline.com
易用Web介面,零代碼操作;支持多家搜索/模型,靈活配置github.comgithub.com;知識庫功能可保存歷史報告github.com
Jina node-DeepResearch
Google Gemini Flash 模型www.rdworldonline.com;Brave搜尋API、DuckDuckGowww.rdworldonline.com;Jina Reader
單Agent while-loop連續推理www.rdworldonline.com;模組化「搜尋-閱讀-推理」鏈
每步LLM產生下一操作 (代碼實現迴圈)www.rdworldonline.com;Brave/DDG檢索 + Jina解析www.rdworldonline.com
幾小時內實現的開源複現,輕量快速www.rdworldonline.com;全用開放API,成本低www.rdworldonline.com;可配置迴圈次數與token限制,控制成本
Deeper Seeker
OpenAI GPT-4/GPT-3.5github.comgithub.com;Exa語義搜尋APIwww.reddit.com
單Agent簡化實現;LLM產生查詢->解析結果->迭代github.com
Exa返回語義相關結果snippetjs.langchain.com;LLM根據snippet調整搜索或作答github.com
無框架依賴,純Python易讀代碼www.reddit.com;利用語義搜索提升相關度;輸出結構化要點簡報,直觀實用
HF DeepResearch (smolagents)
開源Code LLM (如CodeLlama調優);smolagents框架
CodeAgent方式:LLM輸出Python code調用工具huggingface.cohuggingface.co;無明確多Agent分工 (工具即代理能力)
簡易瀏覽器+文件閱讀工具huggingface.co;LLM迭代執行代碼 (搜索/讀文件)huggingface.co
代碼式行動效率高,節省30%步驟huggingface.co;完全開源端到端arstechnica.com;24小時達到專有系統近7成性能huggingface.co
LangChain News TL;DR
OpenAI GPT-4 (mini版)github.com;NewsAPI;BeautifulSoup
LangGraph Workflow,同步單代理 (串聯組件)
調用新聞API抓元數據;爬全文並行處理github.com;LLM摘要每篇再彙總
快速獲取當前新聞要點;多文章async並發,速度快github.com;輸出簡明bullet列表,便於閱讀github.com
LangChain AInsight
GPT-4;Tavily Search APIgithub.com
LangGraph 3代理:搜索→摘要→出版github.comgithub.com
Tavily找AI新聞;每篇內容摘要;Markdown周報生成
專注AI領域新聞,每週自動彙整;代理分工使結果面向大眾、技術兼顧github.com;報告模板可定制
Tavily 公司研究員
OpenAI GPT-4 等;Tavily Search + Extractblog.tavily.com
LangGraph 多階段流水線 (可視作多子代理)blog.tavily.comblog.tavily.com
官網資料錨定;語義+關鍵詞搜索;結果公司匹配聚類blog.tavily.comblog.tavily.com;多輪補充問答blog.tavily.com
高精度公司分析,消除同名混淆blog.tavily.com;引入human-in-loop確保質量blog.tavily.com;報告全面且即時(實時網資料)
LangChain/NVIDIA Blueprint
Meta Llama2、Mistral等 (NVIDIA NIM提供)blog.langchain.devblog.langchain.dev
LangGraph 多代理 (大綱Agent、提問Agent、查詢Agent、寫作Agent、審核Agent)www.llamaindex.aiwww.llamaindex.ai
任意上傳文檔->Embed索引;代理輪流調用RAG問答www.llamaindex.aiwww.llamaindex.ai;多輪審核增補www.llamaindex.ai
完全使用開源模型,本地可部署blog.langchain.devblog.langchain.dev;企業級性能和安全;架構清晰易擴展,適用廣泛報告生成
LlamaIndex 論文助手
開源或OpenAI模型 (LlamaIndex 接入)
單Workflow + 查詢引擎
調用arXiv API+LlamaParse讀PDFgithub.com;構建索引後語義總結各論文
自動整理每日新論文資訊,含元數據github.com;快速報告學術動態,提高科研信息獲取效率
LlamaIndex 文檔研究助理
Meta Llama等 (NIM)build.nvidia.com;LlamaIndex
五代理多階段 (同LangChain Blueprint)www.llamaindex.aiwww.llamaindex.ai
上傳文檔->索引;連續Agent RAG查詢與寫作www.llamaindex.aiwww.llamaindex.ai
結構化博客撰寫流水線,自動補全資訊缺口www.llamaindex.ai;靈活接入用戶資料,高可用性
Ollama Deep Researcher
本地LLM (如DeepSeek-R1-14B)github.comgithub.com;Tavily API
LangGraph Workflow (LangChain) + 本地推理
多輪搜索->本地摘要->檢查缺漏->再搜索github.com;使用Tavily抓取網頁
全流程離線(除搜索),隱私佳github.com;可用本地大模型,零API費用;迭代完善摘要,品質接近雲端模型
以上對比表總覽了2024-2025年主流開源Deep Research專案的技術關鍵和優勢。這些專案各有側重:有的強調多代理分工實現高品質報告,有的追求輕量快速易於復現,也有專注領域資料或隱私部署方案。它們共同推動了LLM從對話助手走向自主研究員的進化,使得機器可以在海量資訊中挖掘整理出有價值的知識成果。隨著開源社群的不斷創新,未來我們將見到更智能、更高效的Deep Research代理應用。
www.rdworldonline.comhuggingface.co