8000 GitHub - alonegg/datadaily: arXiv数据集收集系统
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

alonegg/datadaily

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DataDaily - arXiv数据集收集系统

这个项目旨在自动从arXiv的RSS源获取每日新发布的论文,提取其中使用的数据集信息,并构建一个可搜索的数据库。用户可以浏览数据集合集,并通过AI助手讨论如何利用这些数据集实现他们的想法。

项目架构

datadaily/
├── README.md                 # 项目说明文档
├── requirements.txt          # 项目依赖
├── config.py                 # 配置文件
├── .env                      # 环境变量配置(API密钥等)
├── main.py                   # 主程序入口
├── data/                     # 数据存储目录
│   └── database.sqlite       # SQLite数据库文件
├── modules/                  # 功能模块
│   ├── arxiv_fetcher.py      # arXiv RSS获取模块
│   ├── dataset_extractor.py  # 数据集信息提取模块
│   ├── database.py           # 数据库操作模块
│   ├── ai_assistant.py       # AI助手模块
│   └── model_selector.py     # 大语言模型选择器模块
└── web/                      # Web界面
    ├── app.py                # Flask应用
    ├── static/               # 静态资源
    └── templates/            # HTML模板

功能模块

1. arXiv RSS获取模块 (arxiv_fetcher.py)

  • 定时获取arXiv的RSS源
  • 解析RSS内容,提取论文ID、标题、摘要、分类等信息
  • 将原始数据保存到数据库

2. 数据集信息提取模块 (dataset_extractor.py)

  • 分析论文摘要和内容
  • 识别并提取数据集相关信息
  • 使用NLP技术识别数据集名称、描述和用途
  • 尝试获取数据集的下载链接

3. 数据库模块 (database.py)

  • 设计并创建数据库结构
  • 提供数据的增删改查接口
  • 支持按数据集名称、领域、论文ID等多维度查询

4. AI助手模块 (ai_assistant.py)

  • 接收用户的研究想法或需求
  • 分析数据库中的数据集
  • 推荐适合用户需求的数据集
  • 提供数据集使用建议
  • 利用大语言模型提供智能回答

5. 大语言模型选择器模块 (model_selector.py)

  • 支持多种大语言模型的接入(OpenAI、国内模型等)
  • 根据系统配置自动选择合适的模型(完全在后台处理,无需用户干预或选择)
  • 处理模型API的调用和响应
  • 优化提示词以提高回答质量

6. Web界面 (web/app.py)

  • 提供用户友好的界面
  • 数据集浏览和搜索功能
  • 与AI助手交互的界面
  • 数据集详情展示

技术栈

  • Python: 核心编程语言
  • feedparser: RSS解析
  • NLTK/spaCy: 自然语言处理
  • SQLite: 轻量级数据库
  • Flask: Web框架
  • 大语言模型API: 支持OpenAI、国内主流大语言模型
  • python-dotenv: 环境变量管理
  • Bootstrap: 前端界面

使用方法

  1. 安装依赖: pip install -r requirements.txt
  2. 创建并配置.env文件,添加必要的API密钥:
    # OpenAI API配置
    OPENAI_API_KEY=your_openai_api_key
    
    # 其他模型API配置
    OTHER_MODEL_API_KEY=your_other_model_api_key
    OTHER_MODEL_API_URL=https://api.example.com/v1
    
    # 模型选择配置(系统后台自动处理,用户无需选择)
    DEFAULT_MODEL=openai  # 系统将自动使用此配置选择模型
    
  3. 配置config.py中的其他参数
  4. 运行主程序: python main.py
  5. 访问Web界面: http://localhost:5000

后续扩展

  • 支持更多论文源
  • 增强数据集识别准确率
  • 添加用户账户系统
  • 数据集评分和评论功能
  • 数据集使用统计分析
  • 大语言模型功能优化:
    • 支持更多模型接入(百度文心、讯飞星火等)
    • 实现模型响应缓存机制,减少API调用
    • 添加模型回答质量评估系统
    • 优化提示词工程,提高回答准确性
    • 实现模型回答的引用溯源
    • 改进后台模型自动选择机制,提升智能切换效率
  • 数据集推荐算法优化:
    • 基于用户历史行为的个性化推荐
    • 结合大语言模型的语义理解能力提升推荐质量

About

arXiv数据集收集系统

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published
0