DataDaily - arXiv数据集收集系统

这个项目旨在自动从arXiv的RSS源获取每日新发布的论文，提取其中使用的数据集信息，并构建一个可搜索的数据库。用户可以浏览数据集合集，并通过AI助手讨论如何利用这些数据集实现他们的想法。

项目架构

datadaily/
├── README.md                 # 项目说明文档
├── requirements.txt          # 项目依赖
├── config.py                 # 配置文件
├── .env                      # 环境变量配置（API密钥等）
├── main.py                   # 主程序入口
├── data/                     # 数据存储目录
│   └── database.sqlite       # SQLite数据库文件
├── modules/                  # 功能模块
│   ├── arxiv_fetcher.py      # arXiv RSS获取模块
│   ├── dataset_extractor.py  # 数据集信息提取模块
│   ├── database.py           # 数据库操作模块
│   ├── ai_assistant.py       # AI助手模块
│   └── model_selector.py     # 大语言模型选择器模块
└── web/                      # Web界面
    ├── app.py                # Flask应用
    ├── static/               # 静态资源
    └── templates/            # HTML模板

功能模块

1. arXiv RSS获取模块 (arxiv_fetcher.py)

定时获取arXiv的RSS源
解析RSS内容，提取论文ID、标题、摘要、分类等信息
将原始数据保存到数据库

2. 数据集信息提取模块 (dataset_extractor.py)

分析论文摘要和内容
识别并提取数据集相关信息
使用NLP技术识别数据集名称、描述和用途
尝试获取数据集的下载链接

3. 数据库模块 (database.py)

设计并创建数据库结构
提供数据的增删改查接口
支持按数据集名称、领域、论文ID等多维度查询

4. AI助手模块 (ai_assistant.py)

接收用户的研究想法或需求
分析数据库中的数据集
推荐适合用户需求的数据集
提供数据集使用建议
利用大语言模型提供智能回答

5. 大语言模型选择器模块 (model_selector.py)

支持多种大语言模型的接入（OpenAI、国内模型等）
根据系统配置自动选择合适的模型（完全在后台处理，无需用户干预或选择）
处理模型API的调用和响应
优化提示词以提高回答质量

6. Web界面 (web/app.py)

提供用户友好的界面
数据集浏览和搜索功能
与AI助手交互的界面
数据集详情展示

技术栈

Python: 核心编程语言
feedparser: RSS解析
NLTK/spaCy: 自然语言处理
SQLite: 轻量级数据库
Flask: Web框架
大语言模型API: 支持OpenAI、国内主流大语言模型
python-dotenv: 环境变量管理
Bootstrap: 前端界面

使用方法

安装依赖: pip install -r requirements.txt

创建并配置.env文件，添加必要的API密钥：

# OpenAI API配置
OPENAI_API_KEY=your_openai_api_key

# 其他模型API配置
OTHER_MODEL_API_KEY=your_other_model_api_key
OTHER_MODEL_API_URL=https://api.example.com/v1

# 模型选择配置（系统后台自动处理，用户无需选择）
DEFAULT_MODEL=openai  # 系统将自动使用此配置选择模型

配置config.py中的其他参数
运行主程序: python main.py
访问Web界面: http://localhost:5000

后续扩展

支持更多论文源
增强数据集识别准确率
添加用户账户系统
数据集评分和评论功能
数据集使用统计分析
大语言模型功能优化：
- 支持更多模型接入（百度文心、讯飞星火等）
- 实现模型响应缓存机制，减少API调用
- 添加模型回答质量评估系统
- 优化提示词工程，提高回答准确性
- 实现模型回答的引用溯源
- 改进后台模型自动选择机制，提升智能切换效率
数据集推荐算法优化：
- 基于用户历史行为的个性化推荐
- 结合大语言模型的语义理解能力提升推荐质量

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DataDaily - arXiv数据集收集系统

项目架构

功能模块

1. arXiv RSS获取模块 (arxiv_fetcher.py)

2. 数据集信息提取模块 (dataset_extractor.py)

3. 数据库模块 (database.py)

4. AI助手模块 (ai_assistant.py)

5. 大语言模型选择器模块 (model_selector.py)

6. Web界面 (web/app.py)

技术栈

使用方法

后续扩展

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
modules		modules
web		web
README.md		README.md
config.py		config.py
main.py		main.py
requirements.txt		requirements.txt

alonegg/datadaily

Folders and files

Latest commit

History

Repository files navigation

DataDaily - arXiv数据集收集系统

项目架构

功能模块

1. arXiv RSS获取模块 (arxiv_fetcher.py)

2. 数据集信息提取模块 (dataset_extractor.py)

3. 数据库模块 (database.py)

4. AI助手模块 (ai_assistant.py)

5. 大语言模型选择器模块 (model_selector.py)

6. Web界面 (web/app.py)

技术栈

使用方法

后续扩展

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages