Detection of rare sound events

Task description

This task focused on detection of rare sound events in artificially created mixtures. Targeted sound events are baby crying, glass breaking, and gunshot. The training material available for the participants contained a set of ready created mixtures (1500 30-second audio mixtures, totalling 12h 30min in length), a set of isolated events (474 unique events) and background recordings (1121 30-second audio recordings, totalling 9h 20min in length). A total of 1500 30-second audio mixtures (12h 30min of audio) were used for the challenge evaluation.

More detailed task description can be found in the task description page

Challenge results

Detailed description of metrics used can be found here.

System outputs:

DCASE2017 Challenge Submissions Package (28.7 MB)

Systems ranking

Rank	Submission Information		Technical Report	Event-based (overall / evaluation dataset)		Event-based (overall / development dataset)
Rank	Code	Name	Technical Report	ER (overall / evaluation dataset)	F1 (overall / evaluation dataset)	ER (overall / development dataset)	F1 (overall / development dataset)
	Cakir2017	Cakir_TUT_task2_1	CRNN-1	0.1813	91.0	0.1600	91.8
	Cakir2017	Cakir_TUT_task2_2	CRNN-2	0.1733	91.0	0.1400	92.9
	Cakir2017	Cakir_TUT_task2_3	CRNN-3	0.2920	86.0	0.1400	92.8
	Cakir2017	Cakir_TUT_task2_4	CRNN-4	0.1867	90.3	0.1200	93.6
	Dang2017	Dang_NCU_task2_1	CRNN	0.4787	73.3	0.2600	85.9
	Dang2017	Dang_NCU_task2_2	andang2	0.4107	79.1	0.2500	86.4
	Dang2017	Dang_NCU_task2_3	andang2	0.4453	76.1	0.2700	85.6
	Dang2017	Dang_NCU_task2_4	andang2	0.4253	78.6	0.2700	85.6
	Ghaffarzadegan2017	Ghaffarzadegan_BOSCH_task2_1	BOSCH21	0.5000	74.2	0.1700	91.2
	Ghaffarzadegan2017	Ghaffarzadegan_BOSCH_task2_2	BOSCH22	0.5493	71.8	0.1600	92.1
	Ghaffarzadegan2017	Ghaffarzadegan_BOSCH_task2_3	BOSCH23	0.5560	70.8	0.2100	89.6
	Heittola2017	DCASE2017 baseline	Baseline	0.6373	64.1	0.5300	72.7
	Jeon2017	Jeon_GIST_task2_1	NMF_SS+DNN	0.6773	65.8	0.4600	76.9
	Li2017	Li_SCUT_task2_1	LiSCUTt2_1	0.6333	65.5	0.6100	69.6
	Li2017	Li_SCUT_task2_2	LiSCUTt2_2	0.7373	57.4	0.6000	68.1
	Li2017	Li_SCUT_task2_3	LiSCUTt2_3	0.6213	66.6	0.6400	67.8
	Li2017	Li_SCUT_task2_4	LiSCUTt2_4	0.6000	69.8	0.5500	72.5
	Lim2017	Lim_COCAI_task2_1	1dCRNN1	0.1307	93.1	0.0700	96.3
	Lim2017	Lim_COCAI_task2_2	1dCRNN2	0.1347	93.0	0.0700	96.1
	Lim2017	Lim_COCAI_task2_3	1dCRNN3	0.1520	92.2	0.0700	96.1
	Lim2017	Lim_COCAI_task2_4	1dCRNN4	0.1720	91.4	0.0900	95.5
	Kaiwu2017	Liping_CQU_task2_1	E-RFCN	0.3400	79.5	0.1800	90.3
	Kaiwu2017	Liping_CQU_task2_2	E-RFCN	0.3293	81.2	0.1600	91.4
	Kaiwu2017	Liping_CQU_task2_3	E-RFCN	0.3173	82.0	0.1800	90.5
	Phan2017	Phan_UniLuebeck_task2_1	AED-Net	0.2773	85.3	0.1900	89.8
	Ravichandran2017	Ravichandran_BOSCH_task2_4	BOSCH24	0.4267	78.6	0.1700	87.8
	Vesperini2017	Vesperini_UNIVPM_task2_1	A3LAB	0.3267	83.9	0.2000	89.8
	Vesperini2017	Vesperini_UNIVPM_task2_2	A3LAB	0.3440	82.8	0.1800	90.8
	Vesperini2017	Vesperini_UNIVPM_task2_3	A3LAB	0.3267	83.2	0.1800	90.8
	Vesperini2017	Vesperini_UNIVPM_task2_4	A3LAB	0.3267	83.2	0.1900	90.4
	Wang2017	Wang_BUPT_task2_1	MFC_WJ	0.4320	73.4	0.2800	85.0
	Wang2017a	Wang_THU_task2_1	Baseline	0.4973	72.6	0.3800	78.3
	Zhou2017	Zhou_XJTU_task2_1	SLR-NMF	0.3133	84.2	0.2800	85.8

Teams ranking

Table including only the best performing system per submitting team.

Rank	Submission Information		Technical Report	Event-based (overall / evaluation dataset)		Event-based (overall / development dataset)
Rank	Code	Name	Technical Report	ER (overall / evaluation dataset)	F1 (overall / evaluation dataset)	ER (overall / development dataset)	F1 (overall / development dataset)
	Cakir2017	Cakir_TUT_task2_2	CRNN-2	0.1733	91.0	0.1400	92.9
	Dang2017	Dang_NCU_task2_2	andang2	0.4107	79.1	0.2500	86.4
	Heittola2017	DCASE2017 baseline	Baseline	0.6373	64.1	0.5300	72.7
	Jeon2017	Jeon_GIST_task2_1	NMF_SS+DNN	0.6773	65.8	0.4600	76.9
	Li2017	Li_SCUT_task2_4	LiSCUTt2_4	0.6000	69.8	0.5500	72.5
	Lim2017	Lim_COCAI_task2_1	1dCRNN1	0.1307	93.1	0.0700	96.3
	Kaiwu2017	Liping_CQU_task2_3	E-RFCN	0.3173	82.0	0.1800	90.5
	Phan2017	Phan_UniLuebeck_task2_1	AED-Net	0.2773	85.3	0.1900	89.8
	Ravichandran2017	Ravichandran_BOSCH_task2_4	BOSCH24	0.4267	78.6	0.1700	87.8
	Vesperini2017	Vesperini_UNIVPM_task2_1	A3LAB	0.3267	83.9	0.2000	89.8
	Wang2017	Wang_BUPT_task2_1	MFC_WJ	0.4320	73.4	0.2800	85.0
	Wang2017a	Wang_THU_task2_1	Baseline	0.4973	72.6	0.3800	78.3
	Zhou2017	Zhou_XJTU_task2_1	SLR-NMF	0.3133	84.2	0.2800	85.8

Class-wise performance

Rank	Submission Information		Technical Report	Event-based (average / evaluation dataset)		Baby cry		Glass break		Gunshot
Rank	Code	Name	Technical Report	ER (average / evaluation dataset)	F1 (average / evaluation dataset)	ER / Baby cry (eval/seg)	F1 / Baby cry (eval/seg)	ER / Glass break (eval/seg)	F1 / Glass break (eval/seg)	ER / Gunshot (eval/seg)	F1 / Gunshot (eval/seg)
	Cakir2017	Cakir_TUT_task2_1	CRNN-1	0.1813	91.0	0.2720	87.0	0.0720	96.4	0.2000	89.5
	Cakir2017	Cakir_TUT_task2_2	CRNN-2	0.1733	91.0	0.1840	90.8	0.1040	94.7	0.2320	87.4
	Cakir2017	Cakir_TUT_task2_3	CRNN-3	0.2920	86.0	0.2720	87.0	0.1360	92.9	0.4680	78.0
	Cakir2017	Cakir_TUT_task2_4	CRNN-4	0.1867	90.3	0.2120	89.5	0.1120	94.2	0.2360	87.3
	Dang2017	Dang_NCU_task2_1	CRNN	0.4787	73.3	0.4760	75.5	0.3880	79.3	0.5720	65.2
	Dang2017	Dang_NCU_task2_2	andang2	0.4107	79.1	0.4400	80.6	0.2280	88.5	0.5640	68.2
	Dang2017	Dang_NCU_task2_3	andang2	0.4453	76.1	0.4400	80.6	0.3240	82.4	0.5720	65.2
	Dang2017	Dang_NCU_task2_4	andang2	0.4253	78.6	0.4400	80.6	0.2720	87.1	0.5640	68.2
	Ghaffarzadegan2017	Ghaffarzadegan_BOSCH_task2_1	BOSCH21	0.5000	74.2	0.4080	78.8	0.1640	91.5	0.9280	52.3
	Ghaffarzadegan2017	Ghaffarzadegan_BOSCH_task2_2	BOSCH22	0.5493	71.8	0.4320	78.0	0.2400	87.5	0.9760	49.8
	Ghaffarzadegan2017	Ghaffarzadegan_BOSCH_task2_3	BOSCH23	0.5560	70.8	0.4600	74.7	0.2320	87.9	0.9760	49.8
	Heittola2017	DCASE2017 baseline	Baseline	0.6373	64.1	0.8040	66.8	0.3800	79.1	0.7280	46.5
	Jeon2017	Jeon_GIST_task2_1	NMF_SS+DNN	0.6773	65.8	0.8840	65.3	0.3960	80.2	0.7520	51.8
	Li2017	Li_SCUT_task2_1	LiSCUTt2_1	0.6333	65.5	0.8280	65.8	0.4240	77.8	0.6480	52.9
	Li2017	Li_SCUT_task2_2	LiSCUTt2_2	0.7373	57.4	0.9160	61.8	0.5280	69.3	0.7680	41.1
	Li2017	Li_SCUT_task2_3	LiSCUTt2_3	0.6213	66.6	0.7400	68.2	0.4440	76.2	0.6800	55.3
	Li2017	Li_SCUT_task2_4	LiSCUTt2_4	0.6000	69.8	0.7800	67.4	0.3240	82.4	0.6960	59.5
	Lim2017	Lim_COCAI_task2_1	1dCRNN1	0.1307	93.1	0.1520	92.2	0.0480	97.6	0.1920	89.6
	Lim2017	Lim_COCAI_task2_2	1dCRNN2	0.1347	93.0	0.1520	92.4	0.0600	97.0	0.1920	89.6
	Lim2017	Lim_COCAI_task2_3	1dCRNN3	0.1520	92.2	0.1520	92.5	0.1120	94.6	0.1920	89.6
	Lim2017	Lim_COCAI_task2_4	1dCRNN4	0.1720	91.4	0.1720	91.7	0.1520	92.9	0.1920	89.6
	Kaiwu2017	Liping_CQU_task2_1	E-RFCN	0.3400	79.5	0.2760	86.4	0.1800	90.2	0.5640	62.0
	Kaiwu2017	Liping_CQU_task2_2	E-RFCN	0.3293	81.2	0.2840	86.5	0.1600	91.5	0.5440	65.7
	Kaiwu2017	Liping_CQU_task2_3	E-RFCN	0.3173	82.0	0.2640	87.3	0.1600	91.5	0.5280	67.2
	Phan2017	Phan_UniLuebeck_task2_1	AED-Net	0.2773	85.3	0.2840	85.7	0.2200	88.8	0.3280	81.6
	Ravichandran2017	Ravichandran_BOSCH_task2_4	BOSCH24	0.4267	78.6	0.5000	75.9	0.2360	87.8	0.5440	71.9
	Vesperini2017	Vesperini_UNIVPM_task2_1	A3LAB	0.3267	83.9	0.3560	83.0	0.3120	84.7	0.3120	84.0
	Vesperini2017	Vesperini_UNIVPM_task2_2	A3LAB	0.3440	82.8	0.3680	82.4	0.3280	83.8	0.3360	82.3
	Vesperini2017	Vesperini_UNIVPM_task2_3	A3LAB	0.3267	83.2	0.3240	84.3	0.2960	85.1	0.3600	80.3
	Vesperini2017	Vesperini_UNIVPM_task2_4	A3LAB	0.3267	83.2	0.3240	84.3	0.2960	85.1	0.3600	80.3
	Wang2017	Wang_BUPT_task2_1	MFC_WJ	0.4320	73.4	0.4400	77.3	0.2120	89.1	0.6440	53.9
	Wang2017a	Wang_THU_task2_1	Baseline	0.4973	72.6	0.5680	70.7	0.3560	81.0	0.5680	66.0
	Zhou2017	Zhou_XJTU_task2_1	SLR-NMF	0.3133	84.2	0.1720	91.4	0.2200	89.1	0.5480	72.0

System characteristics

Rank	Submission Information		Technical Report	Event-based (overall)		System characteristics
Rank	Code	Name	Technical Report	ER (overall / evaluation dataset)	F1 (overall / evaluation dataset)	Input	Sampling rate	Data augmentation	Features	Classifier	Decision making
	Cakir2017	Cakir_TUT_task2_1	CRNN-1	0.1813	91.0	mono	44.1kHz	mixture generation	log-mel energies	CRNN	median filtering, same architecture in separate models for each class
	Cakir2017	Cakir_TUT_task2_2	CRNN-2	0.1733	91.0	mono	44.1kHz	mixture generation	log-mel energies	CRNN	median filtering, ensemble of 7 best overall architectures
	Cakir2017	Cakir_TUT_task2_3	CRNN-3	0.2920	86.0	mono	44.1kHz	mixture generation	log-mel energies	CRNN	median filtering, best architecture for each class
	Cakir2017	Cakir_TUT_task2_4	CRNN-4	0.1867	90.3	mono	44.1kHz	mixture generation	log-mel energies	CRNN	median filtering, ensemble of 7 best architectures for each class
	Dang2017	Dang_NCU_task2_1	CRNN	0.4787	73.3	mono	44.1kHz		log-mel energies	CRNN	majority vote
	Dang2017	Dang_NCU_task2_2	andang2	0.4107	79.1	mono	44.1kHz		log-mel energies	CRNN	majority vote
	Dang2017	Dang_NCU_task2_3	andang2	0.4453	76.1	mono	44.1kHz		log-mel energies	CRNN	majority vote
	Dang2017	Dang_NCU_task2_4	andang2	0.4253	78.6	mono	44.1kHz		log-mel energies	CRNN	majority vote
	Ghaffarzadegan2017	Ghaffarzadegan_BOSCH_task2_1	BOSCH21	0.5000	74.2	mono	44.1kHz		MFCC, ZCR, energy, spectral centroid, pitch	ensemble	thresholding
	Ghaffarzadegan2017	Ghaffarzadegan_BOSCH_task2_2	BOSCH22	0.5493	71.8	mono	44.1kHz		MFCC, ZCR, energy, spectral centroid, pitch	ensemble	thresholding
	Ghaffarzadegan2017	Ghaffarzadegan_BOSCH_task2_3	BOSCH23	0.5560	70.8	mono	44.1kHz		MFCC, ZCR, energy, spectral centroid, pitch	ensemble	thresholding
	Heittola2017	DCASE2017 baseline	Baseline	0.6373	64.1	mono	44.1kHz		log-mel energies	MLP	median filtering
	Jeon2017	Jeon_GIST_task2_1	NMF_SS+DNN	0.6773	65.8	mono	44.1kHz	mixture generation	log-mel energies from NMF source separation	MLP	median filtering
	Li2017	Li_SCUT_task2_1	LiSCUTt2_1	0.6333	65.5	mono	44.1kHz		DNN(MFCC)	Bi-LSTM	top output probability
	Li2017	Li_SCUT_task2_2	LiSCUTt2_2	0.7373	57.4	mono	44.1kHz		DNN(MFCC)	Bi-LSTM	top output probability
	Li2017	Li_SCUT_task2_3	LiSCUTt2_3	0.6213	66.6	mono	44.1kHz		DNN(MFCC)	DNN	top output probability
	Li2017	Li_SCUT_task2_4	LiSCUTt2_4	0.6000	69.8	mono	44.1kHz		DNN(MFCC)	Bi-LSTM	top output probability
	Lim2017	Lim_COCAI_task2_1	1dCRNN1	0.1307	93.1	mono	44.1kHz	mixture generation	log-mel energies	CRNN	thresholding
	Lim2017	Lim_COCAI_task2_2	1dCRNN2	0.1347	93.0	mono	44.1kHz	mixture generation	log-mel energies	CRNN	thresholding
	Lim2017	Lim_COCAI_task2_3	1dCRNN3	0.1520	92.2	mono	44.1kHz	mixture generation	log-mel energies	CRNN	thresholding
	Lim2017	Lim_COCAI_task2_4	1dCRNN4	0.1720	91.4	mono	44.1kHz	mixture generation	log-mel energies	CRNN	thresholding
	Kaiwu2017	Liping_CQU_task2_1	E-RFCN	0.3400	79.5	mono	44.1kHz		spectrogram	CNN	majority vote
	Kaiwu2017	Liping_CQU_task2_2	E-RFCN	0.3293	81.2	mono	44.1kHz		spectrogram	CNN	majority vote
	Kaiwu2017	Liping_CQU_task2_3	E-RFCN	0.3173	82.0	mono	44.1kHz		spectrogram	CNN	majority vote
	Phan2017	Phan_UniLuebeck_task2_1	AED-Net	0.2773	85.3	mono	44.1kHz		log Gammatone cepstral coefficients	tailored-loss DNN+CNN	median filtering
	Ravichandran2017	Ravichandran_BOSCH_task2_4	BOSCH24	0.4267	78.6	mono	44.1kHz		log-mel Spectrograms, MFCC	MLP, CNN, RNN	median filtering, ensembling, hard Thresholding
	Vesperini2017	Vesperini_UNIVPM_task2_1	A3LAB	0.3267	83.9	mono	44.1kHz	mixture generation	log-mel energies	MLP, CNN	theshold
	Vesperini2017	Vesperini_UNIVPM_task2_2	A3LAB	0.3440	82.8	mono	44.1kHz	mixture generation	log-mel energies	MLP, CNN	theshold
	Vesperini2017	Vesperini_UNIVPM_task2_3	A3LAB	0.3267	83.2	mono	44.1kHz	mixture generation	log-mel energies	MLP, CNN	theshold
	Vesperini2017	Vesperini_UNIVPM_task2_4	A3LAB	0.3267	83.2	mono	44.1kHz	mixture generation	log-mel energies	MLP, CNN	theshold
	Wang2017	Wang_BUPT_task2_1	MFC_WJ	0.4320	73.4	mono	44.1kHz		log-mel energies	DNN	median filtering
	Wang2017a	Wang_THU_task2_1	Baseline	0.4973	72.6	mono	44.1kHz	mixture generation	MFCC, log-mel energies	DNN, HMM	maxout
	Zhou2017	Zhou_XJTU_task2_1	SLR-NMF	0.3133	84.2	mono	44.1kHz		spectrogram	NMF	moving average filter

Technical reports

Convolutional Recurrent Neural Networks for Rare Sound Event Detection

Emre Cakir and Tuomas Virtanen

Laboratory of Signal Processing, Tampere University of Technology, Tampere, Finland

Cakir_TUT_task2_1 Cakir_TUT_task2_2 Cakir_TUT_task2_3 Cakir_TUT_task2_4

Input	mono
Sampling rate	44.1kHz
Data augmentation	mixture generation
Features	log-mel energies
Classifier	CRNN
Decision making	median filtering, same architecture in separate models for each class; median filtering, ensemble of 7 best overall architectures; median filtering, best architecture for each class; median filtering, ensemble of 7 best architectures for each class

Content

Task description

Challenge results

Systems ranking

Teams ranking

Class-wise performance

System characteristics

Technical reports

Convolutional Recurrent Neural Networks for Rare Sound Event Detection

Convolutional Recurrent Neural Networks for Rare Sound Event Detection

Abstract

System characteristics

Deep Learning for DCASE2017 Challenge

Deep Learning for DCASE2017 Challenge

Abstract

System characteristics

Bosch Rare Sound Events Detection Systems for DCASE2017 Challenge

Bosch Rare Sound Events Detection Systems for DCASE2017 Challenge

Abstract

System characteristics

DCASE 2017 Challenge Setup: Tasks, Datasets and Baseline System

DCASE 2017 Challenge Setup: Tasks, Datasets and Baseline System

Abstract

System characteristics

Nonnegative Matrix Factorization-Based Source Separation with Online Noise Learning for Detection of Rare Sound Events

Nonnegative Matrix Factorization-Based Source Separation with Online Noise Learning for Detection of Rare Sound Events

Abstract

System characteristics

Audio Events Detection and Classification Using Extended R-FCN Approach

Audio Events Detection and Classification Using Extended R-FCN Approach

Abstract

System characteristics

The SEIE-SCUT Systems for IEEE AASP Challenge on DCASE 2017: Deep Learning Techniques for Audio Representation and Classification

The SEIE-SCUT Systems for IEEE AASP Challenge on DCASE 2017: Deep Learning Techniques for Audio Representation and Classification

Abstract

System characteristics

Rare Sound Event Detection Using 1D Convolutional Recurrent Neural Networks

Rare Sound Event Detection Using 1D Convolutional Recurrent Neural Networks

Abstract

System characteristics

DNN and CNN with Weighted and Multi-Task Loss Functions for Audio Event Detection

DNN and CNN with Weighted and Multi-Task Loss Functions for Audio Event Detection

Abstract

System characteristics

Bosch Rare Sound Events Detection Systems for DCASE2017 Challenge

Bosch Rare Sound Events Detection Systems for DCASE2017 Challenge

Abstract

System characteristics

A Hierarchic Multi-Scaled Approach for Rare Sound Event Detection

A Hierarchic Multi-Scaled Approach for Rare Sound Event Detection

Abstract

System characteristics

Multi-Frame Concatenation for Detection of Rare Sound Events Based on Deep Neural Network

Multi-Frame Concatenation for Detection of Rare Sound Events Based on Deep Neural Network

Abstract

System characteristics

Transfer Learning Based DNN-HMM Hybrid System for Rare Sound Event Detection

Transfer Learning Based DNN-HMM Hybrid System for Rare Sound Event Detection

Abstract

System characteristics

Robust Sound Event Detection Through Noise Estimation and Source Separation Using NMF

Robust Sound Event Detection Through Noise Estimation and Source Separation Using NMF

Abstract

System characteristics