github大模型软件评测
1. 背景
互联网上有许多开源的大模型软件,每种软件都有其独特的功能和优缺点。我曾试用过许多大模型软件,但最终效果和具体内容都未能完全记住。因此,本文将主要记录我所了解和使用过的大模型软件。此外,文中还包含一些我需要阅读的相关论文,作为我的待办事项。
待办功能
- VAD:音频检测
- ASR:发展历史
- 3D speaker:声纹识别
大模型软件待使用
- Dify:agent框架
- AnythingLLM:RAG框架
- Open-WebUI:聊天对话
- geekanMetaGPT(GPT提示词)
- ragflow
- MCP实操
- minimind:超小型大模型训练,学习大模型框架
- GPT_Academic:论文阅读
- llm-course:大模型学习框架
- chatbox:和open-webui类似的对话大模型
Multi Agent
具备规划、记忆、多Agent协调处理、编代码执行和汇总
- OpenManus:不太好用
- Owl:也不太好用
- open interpreter:不太好用
Agent开发框架
- MetaGPT:
- AutoGPT
- AgentGPT
- LangChain
浏览器操作智能体
- browser use
- computer use
自动编写代码
- OpenHands:自动写代码,学习对应的AGENT框架
开源多模态大模型测试
- agentic-od:吴恩达多模态模型
- VLM-R1:基于dp-R1的多模态模型
- PaliGemma 2 mix:谷歌开源的多模态模型
大模型论文待看
- MCP(model context protocol)
- deepseep -R1论文
- agentic-od
2. 软件列表
2.1 【AGENT】Dify
- GitHub地址:https://github.com/langgeni
- 搭建使用:http://dify.apostle9891.cn
- 最终评价:★★★★★
- STARRED:68.9W
- 软件作用:大名鼎鼎的开源Agent框架,支持自定义工作流,自定义Agent,支持Chrome扩展。
2.2 【RAG对话】anythingLLM
- GitHub地址:https://github.com/Mintplex-Labs/anything-llm
- 搭建使用:https://llm.apostle9891.cn
- 最终评价:★★★
- STARRED:37.7W
- 软件作用:大模型和知识库框架类的软件,可以建立工作区,对文档和使用大模型进行问答,没有什么惊艳的地方。
2.3 【RAG对话】open-webui
- GitHub地址:https://github.com/open-webui/open-webui
- 搭建使用:https://webui.apostle9891.cn/
- 最终评价:★★★★
- STARRED:76W
- 软件作用:归类到RAG对话,但是实际其实更多的是像GPT一样可以内容聊天,并且记录保存在本地,也支持函数、工作和项目、文档。和anythingLLM不一样的是以对话为主,RAG、函数工具调用为辅。
2.4 【RAG对话】GPT4ALL
- GitHub地址:https://github.com/nomic-ai/gpt4all
- 搭建使用:无
- 最终评价:★★★★
- STARRED:72.5W
- 软件作用:可以直接在软件里下载对应大模型,内置ollama的解析,可以做私有化的本地大模型的知识库。因为本人一般使用大模型API,所以并没有搭建。
2.5 【论文阅读】gtp_academic
- GitHub地址:https://github.com/binary-husky/gpt_academic
- 搭建使用:https://aca.apostle9891.cn/
- 最终评价:★★★★
- STARRED:67.6K
- 软件作用:论文阅读神器
2.6 【自动代码】OpenHands
- GitHub地址:https://github.com/All-Hands-AI/OpenHands
- 搭建使用:还未搭建
- 最终评价:★★★★
- STARRED:46.6K
- 软件作用:看样子是和cursor、bolt差不多的自动写代码程序,可以部署学习整体自编程的AGENT流程。
2.7 【LLM训练】minmind
- GitHub地址:https://github.com/jingyaogong/minimind
- 搭建使用:还未搭建
- 最终评价:★★★★
- STARRED:10.5K
- 软件作用:此开源项目旨在完全从0开始,仅用3块钱成本 + 2小时!即可训练出仅为25.8M的超小语言模型MiniMind。MiniMind系列极其轻量,最小版本体积是 GPT-3 的 17000,力求做到最普通的个人GPU也可快速训练。项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调, 直接偏好强化学习(DPO)算法、模型蒸馏算法等全过程代码。 MiniMind同时拓展了视觉多模态的VLM: MiniMind-V。项目所有核心算法代码均从0使用PyTorch原生重构!不依赖第三方库提供的抽象接口。这不仅是大语言模型的全阶段开源复现,也是一个入门LLM的教程。希望此项目能为所有人提供一个抛砖引玉的示例,一起感受创造的乐趣!推动更广泛AI社区的进步!
2.8 【消息推送】Novu
- GitHub地址:https://github.com/novuhq/novu
- 搭建使用:还未搭建
- 最终评价:★★★
- STARRED:36.3K
- 软件作用:novu 是一个通知库,它提供了统一的 API,让多个渠道发送通知变得简单,包括应用内、推送、电子邮件、短信和聊天。使用 novu,你可以创建自定义工作流程,并为每个渠道定义条件,确保以最有效的方式传递通知。
2.9 【Prompt神器】metaGPT
- GitHub地址:https://github.com/geekan/MetaGPT
- 参考文档:https://mp.weixin.qq.com/s/7vildpEbVKQ25wFAy0ch2g
- 论文地址:https://arxiv.org/pdf/2502.06855
- 搭建使用:https://prompt.apostle9891.cn/
- 最终评价:★★★★
- STARRED:46.5K
- 软件作用:提示词AGENT
3. 大模型软件其他介绍
3.1 大模型部署
- ollama:模型部署,几行命令行搞定大模型部署。https://github.com/ollama/ollama
- vllm:模型部署,和ollama差不多,并发性好。https://github.com/vllm-project/vllm
3.2 大模型训练调优
- LLAMA-Factory:模型调优,链接:https://github.com/hiyouga/LLaMA-Factory
- unsloth:模型调优。https://github.com/unslothai/unsloth
3.3 RAG框架
- ragflow:RAG框架。https://github.com/infiniflow/ragflow
- localAI:和GTP4ALL差不多,支持本地和云端接口大模型。https://github.com/mudler/LocalAI
- chatbox:和openwebui差不多的对话大模型。https://github.com/Bin-Huang/chatbox?tab=readme-ov-file
- cherry-studio:本地客户端的RAG和对话,不支持网页,支持mac/win/linux客户端。https://github.com/CherryHQ/cherry-studio
3.3 其他好项目
- browser-use:网页大模型调试。https://github.com/browser-use/browser-use?tab=readme-ov-file
- llm-course:大模型学习网站。https://github.com/mlabonne/llm-course?tab=readme-ov-file
- markdown:md好的渲染软件。https://github.com/troxler/awesome-css-frameworks
4. 论文研读
4.1 deepseek-R1
- GitHub地址:https://github.com/deepseek-ai/DeepSeek-R1
- 论文地址:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
- 项目简介:大名鼎鼎的deepseek-R1原理。
- 论文解读:还没有看
4.2 deepseek-Natively Sparse Attention
- 论文地址:https://arxiv.org/abs/2502.11089
- 项目简介:deepseek新发的论文,通过NSA(Natively Sparse Attention)降低训练成本。
- 论文解读:还没有看
4.3 agentic-od
- GitHub地址:https://github.com/landing-ai/vision-agent
- 网站地址:https://va.landing.ai/demo/agentic-od
- 项目简介:输入提示词,Agent 将任务分解并自动生成代码,完成图像处理和分析任务。然后代码被执行,并输出结果,例如鲨鱼和冲浪板之间的距离。
- 论文解读:还未部署使用
4.4 Code Actions
- GitHub地址:https://github.com/xingyaoww/code-act
- 论文地址:https://arxiv.org/pdf/2402.01030
- 项目简介:吴恩达的agentic-od的参考,通过AGENT形成CodeAct,生成python代码。https://www.jianshu.com/p/4beb9558388c
- 论文解读:还未部署使用
4.5 MCP
- GitHub地址:https://www.anthropic.com/news/model-context-protocol
- 项目简介:MCP 协议是由 Anthropic 提出的,一种更为高级和灵活的交互范式,MCP 被设计为一个开放的、标准化的协议,它不仅支持 AI 模型与单个数据源或功能连接,还能实现与多个不同的数据源和服务之间的无缝集成。简单的说,和function calling的差别,MCP只是定义了协议。
- 论文解读:还未部署使用
5. 多模态大模型
5.1 agentic-od
- GitHub地址:https://github.com/landing-ai/vision-agent
- 网站地址:https://va.landing.ai/demo/agentic-od
- 项目简介:输入提示词,Agent 将任务分解并自动生成代码,完成图像处理和分析任务。然后代码被执行,并输出结果,例如鲨鱼和冲浪板之间的距离。
- 论文解读:
5.2 VLM-R1
- GitHub地址:https://github.com/om-ai-lab/VLM-R1
- 项目简介:基于deepseek-R1和qwen2-VL结合进行的多模态识别
- 论文解读:
5.3 PaliGemma 2 mix
- GitHub地址:https://developers.googleblog.com/zh-hans/introducing-paligemma-2-mix/
- 项目简介:谷歌开源的多模态大模型
- 论文解读:
5.4 smolVLM2
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 apostle的数字花园!
评论