Transformer4SED

Transformer4SED is a repository which aims to collect Transformer-based sound event detection (SED) algorithms.

Features

Implemented using pytorch, refactored from the DCASE official pytorch-lighting baseline
Kaldi style recipes;
[TODO] Support for commonly used datasets in the sound event detection field, including DESED, MAESTRO, audioset-strong, etc.

recipes

MAT-SED (interspeech 2024)

MAT-SED (Masked Audio Transformer for Sound Event Detection) is a pure Transformer-based SED model with masked-reconstruction-based pre-training.

PMAM (ICASSP 2025)

Prototype based Masked Audio Model (PMAM) is a self-supervised representation learning algorithm designed for frame-level audio tasks like sound event detection, to better exploit unlabeled data.

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
config		config
docs		docs
exps		exps
meta		meta
recipes/desed		recipes/desed
scripts		scripts
src		src
.gitignore		.gitignore
readme.md		readme.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Transformer4SED

Features

recipes

MAT-SED (interspeech 2024)

PMAM (ICASSP 2025)

About

Releases

Packages

Languages

cai525/Transformer4SED

Folders and files

Latest commit

History

Repository files navigation

Transformer4SED

Features

recipes

MAT-SED (interspeech 2024)

PMAM (ICASSP 2025)

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages