GitHub - 5usu/gaze-estimation: 👀 | MobileGaze: Reat-Time Gaze Estimation models using ResNet 18/34/50, MobileNet v2 and MobileOne s0-s4

Face Detection with Confidence Score and Audio Recording

This feature combines gaze estimation with face detection confidence scoring and automatic audio recording. When a person maintains consistent eye contact (high confidence score) for a specified duration, the system automatically records audio and transcribes it.

Features

Real-time face detection with confidence scoring
Automatic audio recording triggered by sustained eye contact
Speech-to-text transcription using MLX Whisper
Automatic note-taking with timestamp logging

Requirements

Additional dependencies for audio recording and transcription:

pip install requirements.txt
pip install pyaudio mlx-whisper

Usage

python face_detection_w_confidence_score.py --arch [arch_name] --gaze-weights [path_gaze_weights] --face-weights [face_det_weights] --camera-id [camera_id] --dataset [dataset_name]

Arguments

--arch            Model architecture (default: "resnet50")
--gaze-weights    Path to gaze estimation model weights
--face-weights    Path to face detection model weights (default: "weights/det_10g.onnx")
--output         Path to save output video file
--dataset        Dataset name (default: "gaze360")
--camera-id      Camera device ID (default: 0)

How it Works

The system continuously monitors face detection and gaze estimation
When confidence score exceeds 75% for 2 seconds:
- Audio recording automatically starts
- Recording continues for 5 seconds
- Speech is transcribed and saved to:
  - Individual note files in the notes directory
  - Consolidated all_notes.txt file with timestamps
7-second cooldown period between recordings
Press 'q' to quit the application

Output

Individual note files: notes/note_YYYY-MM-DD_HHMMSS.txt
Consolidated notes: all_notes.txt
Real-time visualization with confidence scores and recording status `

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
assets		assets
data		data
models		models
utils		utils
weights		weights
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.py		config.py
detect.py		detect.py
download.sh		download.sh
evaluate.py		evaluate.py
face_detection_w_confidence_score.py		face_detection_w_confidence_score.py
main.py		main.py
mpii_train.py		mpii_train.py
output.mp4		output.mp4
reparameterize.py		reparameterize.py
requirements.txt		requirements.txt
resnet50.pt		resnet50.pt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Face Detection with Confidence Score and Audio Recording

Features

Requirements

Usage

Arguments

How it Works

Output

About

Uh oh!

Releases

Packages

Languages

License

5usu/gaze-estimation

Folders and files

Latest commit

History

Repository files navigation

Face Detection with Confidence Score and Audio Recording

Features

Requirements

Usage

Arguments

How it Works

Output

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages