这个项目旨在自动从arXiv的RSS源获取每日新发布的论文,提取其中使用的数据集信息,并构建一个可搜索的数据库。用户可以浏览数据集合集,并通过AI助手讨论如何利用这些数据集实现他们的想法。
datadaily/
├── README.md # 项目说明文档
├── requirements.txt # 项目依赖
├── config.py # 配置文件
├── .env # 环境变量配置(API密钥等)
├── main.py # 主程序入口
├── data/ # 数据存储目录
│ └── database.sqlite # SQLite数据库文件
├── modules/ # 功能模块
│ ├── arxiv_fetcher.py # arXiv RSS获取模块
│ ├── dataset_extractor.py # 数据集信息提取模块
│ ├── database.py # 数据库操作模块
│ ├── ai_assistant.py # AI助手模块
│ └── model_selector.py # 大语言模型选择器模块
└── web/ # Web界面
├── app.py # Flask应用
├── static/ # 静态资源
└── templates/ # HTML模板
- 定时获取arXiv的RSS源
- 解析RSS内容,提取论文ID、标题、摘要、分类等信息
- 将原始数据保存到数据库
- 分析论文摘要和内容
- 识别并提取数据集相关信息
- 使用NLP技术识别数据集名称、描述和用途
- 尝试获取数据集的下载链接
- 设计并创建数据库结构
- 提供数据的增删改查接口
- 支持按数据集名称、领域、论文ID等多维度查询
- 接收用户的研究想法或需求
- 分析数据库中的数据集
- 推荐适合用户需求的数据集
- 提供数据集使用建议
- 利用大语言模型提供智能回答
- 支持多种大语言模型的接入(OpenAI、国内模型等)
- 根据系统配置自动选择合适的模型(完全在后台处理,无需用户干预或选择)
- 处理模型API的调用和响应
- 优化提示词以提高回答质量
- 提供用户友好的界面
- 数据集浏览和搜索功能
- 与AI助手交互的界面
- 数据集详情展示
- Python: 核心编程语言
- feedparser: RSS解析
- NLTK/spaCy: 自然语言处理
- SQLite: 轻量级数据库
- Flask: Web框架
- 大语言模型API: 支持OpenAI、国内主流大语言模型
- python-dotenv: 环境变量管理
- Bootstrap: 前端界面
- 安装依赖:
pip install -r requirements.txt
- 创建并配置.env文件,添加必要的API密钥:
# OpenAI API配置 OPENAI_API_KEY=your_openai_api_key # 其他模型API配置 OTHER_MODEL_API_KEY=your_other_model_api_key OTHER_MODEL_API_URL=https://api.example.com/v1 # 模型选择配置(系统后台自动处理,用户无需选择) DEFAULT_MODEL=openai # 系统将自动使用此配置选择模型
- 配置config.py中的其他参数
- 运行主程序:
python main.py
- 访问Web界面: http://localhost:5000
- 支持更多论文源
- 增强数据集识别准确率
- 添加用户账户系统
- 数据集评分和评论功能
- 数据集使用统计分析
- 大语言模型功能优化:
- 支持更多模型接入(百度文心、讯飞星火等)
- 实现模型响应缓存机制,减少API调用
- 添加模型回答质量评估系统
- 优化提示词工程,提高回答准确性
- 实现模型回答的引用溯源
- 改进后台模型自动选择机制,提升智能切换效率
- 数据集推荐算法优化:
- 基于用户历史行为的个性化推荐
- 结合大语言模型的语义理解能力提升推荐质量