Task description

This subtask is concerned with the situation in which an application will be tested with a few different types of devices, possibly not the same as the ones used to record the development data.

The development data consists of the same recordings as in subtask A, and a small amount of parallel data recorded with devices B and C. The amount of data is as follows:

Device A: 24 hours (8640 segments, same as subtask A, but resampled and single-channel)
Device B: 2 hours (72 segments per acoustic scene)
Device C: 2 hours (72 segments per acoustic scene)

The 2 hours of data recorded with devices B and C is parallel, and also available as recorded with device A. The training/test setup was created such that approximately 70% of recording locations for each city and each scene class are in the training subset, considering only device A. The training subset contains 6122 segments from device A, 540 segments from device B, and 540 segments from device C. The test subset contains 2518 segments from device A, 180 segments from device B, and 180 segments from device C.

More detailed task description can be found in the task description page

Systems ranking

Submission code	Submission name	Technical Report	Accuracy (B/C) with 95% confidence interval (Evaluation dataset)	Accuracy (B/C) (Development dataset)	Accuracy (B/C) (Leaderboard dataset)
Baseline_Surrey_task1b_1	SurreyCNN8	Kong2018	59.6 (58.5 - 60.7)	57.2	56.8
Baseline_Surrey_task1b_2	SurreyCNN4	Kong2018	58.8 (57.7 - 59.9)	57.5	57.8
DCASE2018 baseline	Baseline	Heittola2018	46.5 (45.4 - 47.6)	45.6	45.0
Li_SCUT_task1b_1	Li_SCUT	Li2018	41.1 (40.0 - 42.2)	51.7
Li_SCUT_task1b_2	Li_SCUT	Li2018	39.5 (38.4 - 40.6)	53.9
Li_SCUT_task1b_3	Li_SCUT	Li2018	42.3 (41.2 - 43.4)	51.7
Liping_CQU_task1b_1	Xception	Liping2018	67.0 (66.0 - 68.1)	77.6	65.8
Liping_CQU_task1b_2	Xception	Liping2018	63.2 (62.1 - 64.3)	77.6	63.1
Liping_CQU_task1b_3	Xception	Liping2018	67.7 (66.6 - 68.7)	77.6	67.2
Liping_CQU_task1b_4	Xception	Liping2018	67.1 (66.1 - 68.2)	77.6	66.5
Nguyen_TUGraz_task1b_1	NNF_CNNEns	Nguyen2018	69.0 (68.0 - 70.0)	63.6	67.3
Ren_UAU_task1b_1	ABCNN	Ren2018	60.5 (59.4 - 61.5)	58.3	58.9
Tchorz_THL_task1b_1	AMS_MFCC	Tchorz2018	54.0 (52.9 - 55.1)	63.8
Waldekar_IITKGP_task1b_1	IITKGP_ABSP_Fusion18	Waldekar2018	56.2 (55.1 - 57.3)	57.8
WangJun_BUPT_task1b_1	Attention	Jun2018	48.8 (47.7 - 49.9)	69.0	49.4
WangJun_BUPT_task1b_2	Attention	Jun2018	52.5 (51.4 - 53.6)	69.0	49.4
WangJun_BUPT_task1b_3	Attention	Jun2018	52.3 (51.2 - 53.4)	69.0	49.4

Teams ranking

Submission code	Submission name	Technical Report	Accuracy with 95% confidence interval (Evaluation dataset)	Accuracy (Development dataset)	Accuracy (Leaderboard dataset)
Baseline_Surrey_task1b_1	SurreyCNN8	Kong2018	59.6 (58.5 - 60.7)	57.2	56.8
DCASE2018 baseline	Baseline	Heittola2018	46.5 (45.4 - 47.6)	45.6	45.0
Li_SCUT_task1b_3	Li_SCUT	Li2018	42.3 (41.2 - 43.4)	51.7
Liping_CQU_task1b_3	Xception	Liping2018	67.7 (66.6 - 68.7)	77.6	67.2
Nguyen_TUGraz_task1b_1	NNF_CNNEns	Nguyen2018	69.0 (68.0 - 70.0)	63.6	67.3
Ren_UAU_task1b_1	ABCNN	Ren2018	60.5 (59.4 - 61.5)	58.3	58.9
Tchorz_THL_task1b_1	AMS_MFCC	Tchorz2018	54.0 (52.9 - 55.1)	63.8
Waldekar_IITKGP_task1b_1	IITKGP_ABSP_Fusion18	Waldekar2018	56.2 (55.1 - 57.3)	57.8
WangJun_BUPT_task1b_2	Attention	Jun2018	52.5 (51.4 - 53.6)	69.0	49.4

Class-wise performance

Submission code	Submission name	Technical Report	Accuracy (Evaluation dataset)	Airport	Bus	Metro	Metro station	Park	Public square	Shopping mall	Street pedestrian	Street traffic	Tram
Baseline_Surrey_task1b_1	SurreyCNN8	Kong2018	59.6	47.7	65.0	51.0	58.2	86.4	36.7	58.5	49.9	80.2	62.1
Baseline_Surrey_task1b_2	SurreyCNN4	Kong2018	58.8	49.6	63.9	56.9	51.9	74.5	36.7	64.4	41.8	78.4	69.6
DCASE2018 baseline	Baseline	Heittola2018	46.5	61.6	56.7	45.3	40.0	61.1	15.4	51.8	32.4	69.8	30.4
Li_SCUT_task1b_1	Li_SCUT	Li2018	41.1	33.3	53.0	33.1	30.1	48.9	43.3	38.1	31.4	47.5	52.1
Li_SCUT_task1b_2	Li_SCUT	Li2018	39.5	27.4	66.5	17.3	35.7	52.5	40.7	41.0	23.2	50.6	39.9
Li_SCUT_task1b_3	Li_SCUT	Li2018	42.3	34.7	66.8	27.8	32.2	51.0	52.3	48.4	23.0	47.6	39.3
Liping_CQU_task1b_1	Xception	Liping2018	67.0	57.6	71.3	65.7	69.6	82.4	57.1	73.4	39.8	82.3	71.1
Liping_CQU_task1b_2	Xception	Liping2018	63.2	40.9	73.7	59.8	68.4	84.2	34.8	77.8	42.9	87.5	61.9
Liping_CQU_task1b_3	Xception	Liping2018	67.7	63.1	72.0	59.5	71.7	86.0	52.3	74.0	42.2	80.4	75.4
Liping_CQU_task1b_4	Xception	Liping2018	67.1	62.6	71.7	59.8	69.9	88.9	48.2	71.1	44.6	81.7	72.7
Nguyen_TUGraz_task1b_1	NNF_CNNEns	Nguyen2018	69.0	67.0	86.9	57.6	56.9	93.9	45.6	69.8	53.3	85.1	73.9
Ren_UAU_task1b_1	ABCNN	Ren2018	60.5	44.6	79.3	52.3	61.4	81.2	29.2	64.0	58.8	81.3	52.7
Tchorz_THL_task1b_1	AMS_MFCC	Tchorz2018	54.0	44.4	64.5	45.1	43.9	76.6	42.6	57.6	37.2	70.8	57.1
Waldekar_IITKGP_task1b_1	IITKGP_ABSP_Fusion18	Waldekar2018	56.2	39.3	62.4	51.1	54.9	73.1	40.2	72.0	41.4	78.4	49.6
WangJun_BUPT_task1b_1	Attention	Jun2018	48.8	37.0	57.2	40.5	60.9	86.9	23.5	50.4	16.2	67.2	48.0
WangJun_BUPT_task1b_2	Attention	Jun2018	52.5	70.7	55.4	59.8	44.6	76.3	46.6	48.6	2.1	73.5	47.0
WangJun_BUPT_task1b_3	Attention	Jun2018	52.3	51.4	58.5	47.7	59.3	87.8	30.2	52.7	12.8	71.5	50.9

Device-wise performance

Rank	Submission code	Submission name	Technical Report	Accuracy / Evaluation dataset
Rank	Submission code	Submission name	Technical Report	Average Dev B / Dev C	Dev B	Dev C	Dev A	Dev D
	Baseline_Surrey_task1b_1	SurreyCNN8	Kong2018	59.6	59.5	59.6	69.1	32.1
	Baseline_Surrey_task1b_2	SurreyCNN4	Kong2018	58.8	58.7	58.8	70.6	33.8
	DCASE2018 baseline	Baseline	Heittola2018	46.5	45.9	47.0	63.6	27.5
	Li_SCUT_task1b_1	Li_SCUT	Li2018	41.1	42.2	39.9	54.2	20.3
	Li_SCUT_task1b_2	Li_SCUT	Li2018	39.5	39.8	39.1	55.7	13.2
	Li_SCUT_task1b_3	Li_SCUT	Li2018	42.3	43.3	41.3	55.7	18.5
	Liping_CQU_task1b_1	Xception	Liping2018	67.0	66.8	67.3	73.7	45.4
	Liping_CQU_task1b_2	Xception	Liping2018	63.2	63.9	62.5	72.2	45.8
	Liping_CQU_task1b_3	Xception	Liping2018	67.7	67.8	67.5	73.9	48.8
	Liping_CQU_task1b_4	Xception	Liping2018	67.1	67.6	66.7	73.6	47.8
	Nguyen_TUGraz_task1b_1	NNF_CNNEns	Nguyen2018	69.0	68.9	69.1	73.8	37.6
	Ren_UAU_task1b_1	ABCNN	Ren2018	60.5	60.6	60.3	71.2	30.1
	Tchorz_THL_task1b_1	AMS_MFCC	Tchorz2018	54.0	55.2	52.8	65.1	12.7
	Waldekar_IITKGP_task1b_1	IITKGP_ABSP_Fusion18	Waldekar2018	56.2	54.8	57.7	58.9	29.5
	WangJun_BUPT_task1b_1	Attention	Jun2018	48.8	47.8	49.8	31.1	33.5
	WangJun_BUPT_task1b_2	Attention	Jun2018	52.5	48.0	56.9	50.1	38.5
	WangJun_BUPT_task1b_3	Attention	Jun2018	52.3	49.7	54.8	35.7	36.2

System characteristics

General characteristics

Code	Technical Report	Accuracy (Eval)	Sampling rate	Data augmentation	Features
Baseline_Surrey_task1b_1	Kong2018	59.6	44.1kHz		log-mel energies
Baseline_Surrey_task1b_2	Kong2018	58.8	44.1kHz		log-mel energies
DCASE2018 baseline	Heittola2018	46.5	44.1kHz		log-mel energies
Li_SCUT_task1b_1	Li2018	41.1	48kHz		MFCC
Li_SCUT_task1b_2	Li2018	39.5	48kHz		MFCC
Li_SCUT_task1b_3	Li2018	42.3	48kHz		MFCC
Liping_CQU_task1b_1	Liping2018	67.0	44.1kHz		log-mel energies
Liping_CQU_task1b_2	Liping2018	63.2	44.1kHz		log-mel energies
Liping_CQU_task1b_3	Liping2018	67.7	44.1kHz		log-mel energies
Liping_CQU_task1b_4	Liping2018	67.1	44.1kHz		log-mel energies
Nguyen_TUGraz_task1b_1	Nguyen2018	69.0	44.1kHz		log-mel energies and their nearest neighbor filtered version
Ren_UAU_task1b_1	Ren2018	60.5	44.1kHz		log-mel spectrogram
Tchorz_THL_task1b_1	Tchorz2018	54.0	44.1kHz		amplitude modulation spectrogram, MFCC
Waldekar_IITKGP_task1b_1	Waldekar2018	56.2	48kHz		MFDWC, CQCC
WangJun_BUPT_task1b_1	Jun2018	48.8	44.1kHz	mixup	log-mel energies
WangJun_BUPT_task1b_2	Jun2018	52.5	44.1kHz	mixup	log-mel energies
WangJun_BUPT_task1b_3	Jun2018	52.3	44.1kHz	mixup	log-mel energies

Machine learning characteristics

Code	Technical Report	Accuracy (Eval)	Model complexity	Classifier	Ensemble subsystems	Decision making
Baseline_Surrey_task1b_1	Kong2018	59.6	4691274	VGGish 8 layer CNN with global max pooling
Baseline_Surrey_task1b_2	Kong2018	58.8	4309450	VGGish 8 layer CNN with global max pooling
DCASE2018 baseline	Heittola2018	46.5	116118	CNN
Li_SCUT_task1b_1	Li2018	41.1	116118	LSTM
Li_SCUT_task1b_2	Li2018	39.5	116118	LSTM
Li_SCUT_task1b_3	Li2018	42.3	116118	LSTM
Liping_CQU_task1b_1	Liping2018	67.0	22758194	Xception
Liping_CQU_task1b_2	Liping2018	63.2	22758194	Xception
Liping_CQU_task1b_3	Liping2018	67.7	22758194	Xception
Liping_CQU_task1b_4	Liping2018	67.1	22758194	Xception
Nguyen_TUGraz_task1b_1	Nguyen2018	69.0	12278040	CNN	12	averaging vote
Ren_UAU_task1b_1	Ren2018	60.5	616800	CNN
Tchorz_THL_task1b_1	Tchorz2018	54.0	15395500	LSTM
Waldekar_IITKGP_task1b_1	Waldekar2018	56.2	20973	SVM	3	fusion
WangJun_BUPT_task1b_1	Jun2018	48.8	4634004	CNN,BGRU,self-attention
WangJun_BUPT_task1b_2	Jun2018	52.5	4634004	CNN,BGRU,self-attention
WangJun_BUPT_task1b_3	Jun2018	52.3	4634004	CNN,BGRU,self-attention

Technical reports

Acoustic Scene Classification Using Ensemble of Convnets

An Dang, Toan Vu and Jia-Ching Wang

Computer Science and Information Engineering, Deep Learning and Media System Laboratory, National Central University, Taoyuan, Taiwan

Dang_NCU_task1a_1 Dang_NCU_task1a_2 Dang_NCU_task1a_3

Input	stereo, mono
Sampling rate	48kHz
Features	log-mel energies
Classifier	Ensemble of Convnet
Decision making	average

Input	left, right, difference; left, right
Sampling rate	22.5kHz
Data augmentation	mixup; pitch shifting; mixup, pitch shifting
Features	perceptual weighted power spectrogram; MFCC; perceptual weighted power spectrogram, MFCC
Classifier	CNN, ensemble; i-vector, late fusion; CNN i-vector ensemble; CNN i-vector late fusion ensemble
Decision making	average; fusion; late calibrated fusion of averaged i-vector and CNN models; late calibrated fusion

Input	binaural
Sampling rate	48kHz
Features	LTAS, Modulation spectrum, position-pitch maps
Classifier	MLP
Decision making	sum of log-probabilities

Input	left, right, mono, mixed
Sampling rate	48kHz
Features	CQT, spectrogram, log-mel, MFCC
Classifier	CNN
Decision making	mean

Input	multichannel
Sampling rate	48kHz
Features	log-mel energies
Classifier	CNN,Bi-Lstm
Decision making	max of precision

Input	mono
Sampling rate	48kHz; 44.1kHz
Features	log-mel energies
Classifier	CNN

Input	left,right
Sampling rate	48kHz
Features	DSS
Classifier	CNN; CNN,DNN

Input	mono, binaural
Sampling rate	48kHz
Features	log-mel energies
Classifier	CNN
Decision making	mean probability; neural network

Input	mixed
Sampling rate	48kHz
Data augmentation	GAN
Features	log-mel spectrogram
Classifier	CNN, ensemble
Decision making	mean probability

Content

Task description

Systems ranking

Teams ranking

Class-wise performance

Device-wise performance

System characteristics

General characteristics

Machine learning characteristics

Technical reports

Acoustic Scene Classification Using Ensemble of Convnets

Acoustic Scene Classification Using Ensemble of Convnets

Abstract

System characteristics

Acoustic Scene Classification with Fully Convolutional Neural Networks and I-Vectors

Acoustic Scene Classification with Fully Convolutional Neural Networks and I-Vectors

Abstract

System characteristics

Classification of Acoustic Scenes Based on Modulation Spectra and Position-Pitch Maps

Classification of Acoustic Scenes Based on Modulation Spectra and Position-Pitch Maps

Abstract

System characteristics

Acoustic Scene Classification Using Convolutional Neural Networks and Different Channels Representations and Its Fusion

Acoustic Scene Classification Using Convolutional Neural Networks and Different Channels Representations and Its Fusion

Abstract

System characteristics

DCASE 2018 Task 1a: Acoustic Scene Classification by Bi-LSTM-CNN-Net Multichannel Fusion

DCASE 2018 Task 1a: Acoustic Scene Classification by Bi-LSTM-CNN-Net Multichannel Fusion

Abstract

System characteristics

A Multi-Device Dataset for Urban Acoustic Scene Classification

A Multi-Device Dataset for Urban Acoustic Scene Classification

Abstract

System characteristics

Self-Attention Mechanism Based System for Dcase2018 Challenge Task1 and Task4

Self-Attention Mechanism Based System for Dcase2018 Challenge Task1 and Task4

Abstract

System characteristics

DNN Based Multi-Level Features Ensemble for Acoustic Scene Classification

DNN Based Multi-Level Features Ensemble for Acoustic Scene Classification

Abstract

System characteristics

Acoustic Scene and Event Detection Systems Submitted to DCASE 2018 Challenge

Acoustic Scene and Event Detection Systems Submitted to DCASE 2018 Challenge

Abstract

System characteristics

DCASE 2018 Challenge Surrey Cross-Task Convolutional Neural Network Baseline

DCASE 2018 Challenge Surrey Cross-Task Convolutional Neural Network Baseline

Abstract

System characteristics

Acoustic Scene Classification Based on Binaural Deep Scattering Spectra with CNN and LSTM

Acoustic Scene Classification Based on Binaural Deep Scattering Spectra with CNN and LSTM

Abstract

System characteristics

The SEIE-SCUT Systems for Challenge on DCASE 2018: Deep Learning Techniques for Audio Representation and Classification

The SEIE-SCUT Systems for Challenge on DCASE 2018: Deep Learning Techniques for Audio Representation and Classification

Abstract

System characteristics

The SEIE-SCUT Systems for Challenge on DCASE 2018: Deep Learning Techniques for Audio Representation and Classification

The SEIE-SCUT Systems for Challenge on DCASE 2018: Deep Learning Techniques for Audio Representation and Classification

Abstract

System characteristics

Acoustic Scene Classification Using Multi-Scale Features

Acoustic Scene Classification Using Multi-Scale Features

Abstract

System characteristics

Auditory Scene Classification Using Ensemble Learning with Small Audio Feature Space

Auditory Scene Classification Using Ensemble Learning with Small Audio Feature Space

Abstract

System characteristics

Exploring Deep Vision Models for Acoustic Scene Classification

Exploring Deep Vision Models for Acoustic Scene Classification

Abstract

System characteristics

Acoustic Scene Classification Using a Convolutional Neural Network Ensemble and Nearest Neighbor Filters

Acoustic Scene Classification Using a Convolutional Neural Network Ensemble and Nearest Neighbor Filters

Abstract

System characteristics

Acoustic Scene Classification Using Deep CNN on Raw-Waveform

Acoustic Scene Classification Using Deep CNN on Raw-Waveform