一、DeepAnalyze是什么
DeepAnalyze 是一个开源的 Agentic LLM,旨在无需人工干预即可自动完成数据科学全流程,包括数据准备、分析、建模、可视化和报告生成,支持多种数据源,帮助数据分析师、研究人员和企业决策者提高效率,解放双手。
DeepAnalyze 是由中国人民大学数据工程与知识工程实验室 (RUC-DataLab) 和清华大学的研究人员开发的,首个 Agentic LLM (大型语言模型),用于自主数据科学。它旨在无需人工干预,自动完成数据科学任务,包括数据准备、分析、建模、可视化和报告生成。DeepAnalyze 支持多种数据源,包括结构化数据 (数据库、CSV、Excel)、半结构化数据 (JSON、XML、YAML) 和非结构化数据 (TXT、Markdown)。
DeepAnalyze:一款面向自主数据科学的开源大型语言模型,可完成数据准备、分析、建模、可视化和报告生成等数据科学任务
二、功能特征
DeepAnalyze 拥有以下核心功能特征:
全流程自动化: 自动执行数据准备、分析、建模、可视化和报告生成等数据科学任务。
开放式数据研究: 对各种数据源进行深入研究,并生成分析师级别的研究报告。
多数据源支持: 支持结构化、半结构化和非结构化数据。
完全开源: 模型、代码、训练数据和演示都是开源的,允许用户部署或扩展自己的数据分析助手。
三、操作指南
以下是 DeepAnalyze 的快速上手指南:
环境准备:
安装 Python 3.12
创建 conda 环境: conda create -n deepanalyze python=3.12 -y
激活 conda 环境: conda activate deepanalyze
安装依赖: pip install -r requirements.txt
部署 DeepAnalyze-8B: 使用 vllm 部署 DeepAnalyze-8B: vllm serve DeepAnalyze-8B
运行数据科学任务:
from deepanalyze import DeepAnalyzeVLLM
prompt = """# Instruction
Generate a data science report.
# Data
File 1: {"name": "bool.xlsx", "size": "4.8KB"}
File 2: {"name": "person.csv", "size": "10.6KB"}
... (更多数据文件)
"""
workspace = "/path/to/your/workspace/"
deepanalyze = DeepAnalyzeVLLM("/path/to/deepanalyze-8b/")
answer = deepanalyze.generate(prompt, workspace=workspace)
print(answer["reasoning"])
四、支持平台
DeepAnalyze 基于 Python 和 vLLM,可以在支持这些技术的平台上运行,包括:
Linux
配备 GPU 的服务器
五、产品定价
DeepAnalyze 是一个开源项目,免费使用。
六、使用场景
DeepAnalyze 适用于以下场景:
数据分析师: 提高数据分析效率,自动生成报告。
研究人员: 快速分析大量数据,发现潜在规律。
企业决策者: 基于数据分析结果,做出更明智的决策。
数据科学爱好者: 学习和实践自主数据科学技术。
七、运作模式
DeepAnalyze 的运作模式是:
接收用户指令和数据源信息。
利用 LLM 自动执行数据准备、分析、建模、可视化等任务。
生成数据科学报告,并提供分析结果。传送门
https://github.com/ruc-datalab/DeepAnalyze