vision_llm_service

A local CLI/API-driven service that turns an input video file into a concise textual synopsis using ffmpeg, AWS Rekognition, (optional) Whisper/AWS Transcribe, and OpenAI GPT-4o.

Features

Frame sampling with ffmpeg (1 fps by default)
Image labeling via AWS Rekognition
(Optional) Audio transcription via Whisper or AWS Transcribe
Timeline event collation
LLM-based summarization (OpenAI GPT-4o)
CLI and optional FastAPI interface

Quick Start

Prerequisites

Python ≥ 3.11
AWS account with Rekognition (& Transcribe if used) enabled
OpenAI API key
ffmpeg installed and in PATH

Installation

python -m venv .venv
.venv\Scripts\Activate.ps1
pip install -r requirements.txt

Configuration

Set environment variables for AWS and OpenAI credentials:

$env:AWS_ACCESS_KEY_ID="..."
$env:AWS_SECRET_ACCESS_KEY="..."
$env:AWS_DEFAULT_REGION="us-west-2"
$env:OPENAI_API_KEY="..."

Usage (CLI)

python src/main.py --video sample.mp4

Usage (API)

uvicorn src.api:app --reload

Project Structure

vision_llm_service/
├── src/
│   ├── main.py            # CLI entry point
│   ├── api.py             # FastAPI wrapper (optional)
│   ├── sampler.py         # ffmpeg helpers
│   ├── vision.py          # Rekognition wrapper
│   ├── transcribe.py      # Whisper / Transcribe wrapper
│   ├── collator.py        # timeline builder
│   └── summarizer.py      # OpenAI call
├── requirements.txt
└── README.md

See VISION_LLM_SERVICE.md for full architecture and implementation notes.

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.github		.github
src		src
tools/ffmpeg-7.1.1-essentials_build		tools/ffmpeg-7.1.1-essentials_build
.gitignore		.gitignore
README.md		README.md
README_S3_UPLOAD.md		README_S3_UPLOAD.md
VISION_LLM_SERVICE.md		VISION_LLM_SERVICE.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

vision_llm_service

Features

Quick Start

Prerequisites

Installation

Configuration

Usage (CLI)

Usage (API)

Project Structure

About

Uh oh!

Releases

Packages

Uh oh!

Languages

Ancient23/VideoCommentator

Folders and files

Latest commit

History

Repository files navigation

vision_llm_service

Features

Quick Start

Prerequisites

Installation

Configuration

Usage (CLI)

Usage (API)

Project Structure

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages