1. 背景

互联网上有许多开源的大模型软件，每种软件都有其独特的功能和优缺点。我曾试用过许多大模型软件，但最终效果和具体内容都未能完全记住。因此，本文将主要记录我所了解和使用过的大模型软件。此外，文中还包含一些我需要阅读的相关论文，作为我的待办事项。

待办功能

VAD：音频检测
ASR：发展历史
3D speaker：声纹识别

大模型软件待使用

Dify：agent框架
AnythingLLM：RAG框架
Open-WebUI：聊天对话
geekanMetaGPT(GPT提示词)
ragflow
MCP实操
minimind：超小型大模型训练，学习大模型框架
GPT_Academic：论文阅读
llm-course：大模型学习框架
chatbox：和open-webui类似的对话大模型

Multi Agent

具备规划、记忆、多Agent协调处理、编代码执行和汇总

OpenManus：不太好用
Owl：也不太好用
open interpreter：不太好用

Agent开发框架

MetaGPT：
AutoGPT
AgentGPT
LangChain

浏览器操作智能体

browser use
computer use

自动编写代码

OpenHands：自动写代码，学习对应的AGENT框架

开源多模态大模型测试

agentic-od：吴恩达多模态模型
VLM-R1：基于dp-R1的多模态模型
PaliGemma 2 mix：谷歌开源的多模态模型

大模型论文待看

MCP(model context protocol)
deepseep -R1论文
agentic-od

2. 软件列表

2.1 【AGENT】Dify

GitHub地址：https://github.com/langgeni
搭建使用：http://dify.apostle9891.cn
最终评价：★★★★★
STARRED：68.9W
软件作用：大名鼎鼎的开源Agent框架，支持自定义工作流，自定义Agent，支持Chrome扩展。

2.2 【RAG对话】anythingLLM

GitHub地址：https://github.com/Mintplex-Labs/anything-llm
搭建使用：https://llm.apostle9891.cn
最终评价：★★★
- STARRED：37.7W
软件作用：大模型和知识库框架类的软件，可以建立工作区，对文档和使用大模型进行问答，没有什么惊艳的地方。

2.3 【RAG对话】open-webui

GitHub地址：https://github.com/open-webui/open-webui
搭建使用：https://webui.apostle9891.cn/
最终评价：★★★★
STARRED：76W
软件作用：归类到RAG对话，但是实际其实更多的是像GPT一样可以内容聊天，并且记录保存在本地，也支持函数、工作和项目、文档。和anythingLLM不一样的是以对话为主，RAG、函数工具调用为辅。

2.4 【RAG对话】GPT4ALL

GitHub地址：https://github.com/nomic-ai/gpt4all
搭建使用：无
最终评价：★★★★
STARRED：72.5W
软件作用：可以直接在软件里下载对应大模型，内置ollama的解析，可以做私有化的本地大模型的知识库。因为本人一般使用大模型API，所以并没有搭建。

2.5 【论文阅读】gtp_academic

GitHub地址：https://github.com/binary-husky/gpt_academic
搭建使用：https://aca.apostle9891.cn/
最终评价：★★★★
STARRED：67.6K
软件作用：论文阅读神器

2.6 【自动代码】OpenHands

GitHub地址：https://github.com/All-Hands-AI/OpenHands
搭建使用：还未搭建
最终评价：★★★★
STARRED：46.6K
软件作用：看样子是和cursor、bolt差不多的自动写代码程序，可以部署学习整体自编程的AGENT流程。

2.7 【LLM训练】minmind

GitHub地址：https://github.com/jingyaogong/minimind
搭建使用：还未搭建
最终评价：★★★★
STARRED：10.5K
软件作用：此开源项目旨在完全从0开始，仅用3块钱成本 + 2小时！即可训练出仅为25.8M的超小语言模型MiniMind。MiniMind系列极其轻量，最小版本体积是 GPT-3 的 17000，力求做到最普通的个人GPU也可快速训练。项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调，直接偏好强化学习(DPO)算法、模型蒸馏算法等全过程代码。 MiniMind同时拓展了视觉多模态的VLM: MiniMind-V。项目所有核心算法代码均从0使用PyTorch原生重构！不依赖第三方库提供的抽象接口。这不仅是大语言模型的全阶段开源复现，也是一个入门LLM的教程。希望此项目能为所有人提供一个抛砖引玉的示例，一起感受创造的乐趣！推动更广泛AI社区的进步！

2.8 【消息推送】Novu

GitHub地址：https://github.com/novuhq/novu
搭建使用：还未搭建
最终评价：★★★
STARRED：36.3K
软件作用：novu 是一个通知库，它提供了统一的 API，让多个渠道发送通知变得简单，包括应用内、推送、电子邮件、短信和聊天。使用 novu，你可以创建自定义工作流程，并为每个渠道定义条件，确保以最有效的方式传递通知。

2.9 【Prompt神器】metaGPT

GitHub地址：https://github.com/geekan/MetaGPT
参考文档：https://mp.weixin.qq.com/s/7vildpEbVKQ25wFAy0ch2g
论文地址：https://arxiv.org/pdf/2502.06855
搭建使用：https://prompt.apostle9891.cn/
最终评价：★★★★
STARRED：46.5K
软件作用：提示词AGENT

3. 大模型软件其他介绍

3.1 大模型部署

ollama：模型部署，几行命令行搞定大模型部署。https://github.com/ollama/ollama
vllm：模型部署，和ollama差不多，并发性好。https://github.com/vllm-project/vllm

3.2 大模型训练调优

LLAMA-Factory：模型调优，链接：https://github.com/hiyouga/LLaMA-Factory
unsloth：模型调优。https://github.com/unslothai/unsloth

3.3 RAG框架

ragflow：RAG框架。https://github.com/infiniflow/ragflow
localAI：和GTP4ALL差不多，支持本地和云端接口大模型。https://github.com/mudler/LocalAI
chatbox：和openwebui差不多的对话大模型。https://github.com/Bin-Huang/chatbox?tab=readme-ov-file
cherry-studio：本地客户端的RAG和对话，不支持网页，支持mac/win/linux客户端。https://github.com/CherryHQ/cherry-studio

3.3 其他好项目

browser-use：网页大模型调试。https://github.com/browser-use/browser-use?tab=readme-ov-file
llm-course：大模型学习网站。https://github.com/mlabonne/llm-course?tab=readme-ov-file
markdown：md好的渲染软件。https://github.com/troxler/awesome-css-frameworks

4. 论文研读

4.1 deepseek-R1

GitHub地址：https://github.com/deepseek-ai/DeepSeek-R1
论文地址：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
项目简介：大名鼎鼎的deepseek-R1原理。
论文解读：还没有看

4.2 deepseek-Natively Sparse Attention

论文地址：https://arxiv.org/abs/2502.11089
项目简介：deepseek新发的论文，通过NSA(Natively Sparse Attention）降低训练成本。
论文解读：还没有看

4.3 agentic-od

GitHub地址：https://github.com/landing-ai/vision-agent
网站地址：https://va.landing.ai/demo/agentic-od
项目简介：输入提示词，Agent 将任务分解并自动生成代码，完成图像处理和分析任务。然后代码被执行，并输出结果，例如鲨鱼和冲浪板之间的距离。
论文解读：还未部署使用

4.4 Code Actions

GitHub地址：https://github.com/xingyaoww/code-act
论文地址：https://arxiv.org/pdf/2402.01030
项目简介：吴恩达的agentic-od的参考，通过AGENT形成CodeAct，生成python代码。https://www.jianshu.com/p/4beb9558388c
论文解读：还未部署使用

4.5 MCP

GitHub地址：https://www.anthropic.com/news/model-context-protocol
项目简介：MCP 协议是由 Anthropic 提出的，一种更为高级和灵活的交互范式，MCP 被设计为一个开放的、标准化的协议，它不仅支持 AI 模型与单个数据源或功能连接，还能实现与多个不同的数据源和服务之间的无缝集成。简单的说，和function calling的差别，MCP只是定义了协议。
论文解读：还未部署使用

5. 多模态大模型

5.1 agentic-od

GitHub地址：https://github.com/landing-ai/vision-agent
网站地址：https://va.landing.ai/demo/agentic-od
项目简介：输入提示词，Agent 将任务分解并自动生成代码，完成图像处理和分析任务。然后代码被执行，并输出结果，例如鲨鱼和冲浪板之间的距离。
论文解读：

5.2 VLM-R1

GitHub地址：https://github.com/om-ai-lab/VLM-R1
项目简介：基于deepseek-R1和qwen2-VL结合进行的多模态识别
论文解读：

5.3 PaliGemma 2 mix

GitHub地址：https://developers.googleblog.com/zh-hans/introducing-paligemma-2-mix/
项目简介：谷歌开源的多模态大模型
论文解读：

github大模型软件评测

1. 背景

待办功能

大模型软件待使用

Multi Agent

Agent开发框架

浏览器操作智能体

自动编写代码

开源多模态大模型测试

大模型论文待看

2. 软件列表

2.1 【AGENT】Dify

2.2 【RAG对话】anythingLLM

2.3 【RAG对话】open-webui

2.4 【RAG对话】GPT4ALL

2.5 【论文阅读】gtp_academic

2.6 【自动代码】OpenHands

2.7 【LLM训练】minmind

2.8 【消息推送】Novu

2.9 【Prompt神器】metaGPT

3. 大模型软件其他介绍

3.1 大模型部署

3.2 大模型训练调优

3.3 RAG框架

3.3 其他好项目

4. 论文研读

4.1 deepseek-R1

4.2 deepseek-Natively Sparse Attention

4.3 agentic-od

4.4 Code Actions

4.5 MCP

5. 多模态大模型

5.1 agentic-od

5.2 VLM-R1

5.3 PaliGemma 2 mix

5.4 smolVLM2