Task description

This task evaluates systems for multi-label audio tagging using a small set of manually-labeled data, and a larger set of noisy-labeled data, under a large vocabulary setting. This task will provide insight towards the development of broadly-applicable sound event classifiers able to cope with label noise and minimal supervision conditions.

More detailed task description can be found in the task description page or in the competition page in Kaggle.

IMPORTANT NOTE: the task results shown in this page only include the submissions that were made using the DCASE submission system. Therefore, there are entries appearing in the official Kaggle leaderboard that do not appear here and the two rankings do not match.

IMPORTANT NOTE 2: Some of the submitted systems failed running when presented with the data of the private test set (mainly because of kernels taking longer to compute than the maximum time allowed). For these systems Kaggle does not provide us a score for the private LB set, and are disqualified from the official ranking. Also, Kaggle only provides us private LB score for the two selected submissions per team. Hence, the third system that some teams submitted to DCASE does not have a private LB score attached (only public LB). We have asked the authors of these systems to provide us with private LB scores so we can show them in the tables below. Disqualified systems are shown in the tables below highlighted in red.

Systems ranking

Submission code	Kaggle team name	Name	Tech. report	lwlrap (public LB)	lwlrap (private LB*)
Zhang_THU_task2_2	THUEE	THUEE	Zhang2019	0.7392	0.7577
Zhang_THU_task2_1	THUEE	THUEE	Zhang2019	0.7423	0.7575
Boqing_NUDT_task2_1	TEMP	Multi-label Audio tagging system 1	Boqing2019	0.7253	0.7240
Boqing_NUDT_task2_3	TEMP	Multi-label Audio tagging system 3	Boqing2019	0.7119	0.6777
Boqing_NUDT_task2_2	TEMP	Multi-label Audio tagging system 2	Boqing2019	0.7235	0.7232
Zhang_BIsmart_task2_3	3x6min	DCASE2019 Task2 \| Teacher-Student V3	Zhang2019b	0.7126	0.7144
Zhang_BIsmart_task2_2	3x6min	DCASE2019 Task2 \| Teacher-Student V2	Zhang2019b	0.7298	0.7338
Zhang_BIsmart_task2_1	3x6min	DCASE2019 Task2 \| Teacher-Student V1	Zhang2019b	0.7304	0.7338
Kong_SURREY_task2_1	cvssp_baseline	CVSSP cross-task CNN baseline	Kong2019	0.5803	0.0000
BOUTEILLON_NOORG_task2_2	Eric Bouteillon	BOUTEILLON Warm-up pipeline and spec-mix 2.2	Bouteillon2019	0.7331	0.7419
BOUTEILLON_NOORG_task2_1	Eric Bouteillon	BOUTEILLON Warm-up pipeline and spec-mix 2.1	Bouteillon2019	0.7389	0.7519
Akiyama_OU_task2_2	[kaggler-ja/AIMS] OUmed	resnet34_envnet_ensemble Raw-Audio and Spectrogram	Akiyama2019	0.7474	0.7579
Akiyama_OU_task2_1	[kaggler-ja/AIMS] OUmed	resnet34_envnet_ensemble on Raw-Audio and Spectrogram	Akiyama2019	0.7504	0.7577
Sun_BNU_task2_1	Penghao	CNN+MeanTeacher	Sun2019	0.6320	0.6443
Ebbers_UPB_task2_3	Janek Ebbers	DCASE2019 UPB system 3	Ebbers2019	0.7071	0.0000
Ebbers_UPB_task2_2	Janek Ebbers	DCASE2019 UPB system 2	Ebbers2019	0.7262	0.7456
Ebbers_UPB_task2_1	Janek Ebbers	DCASE2019 UPB system 1	Ebbers2019	0.7305	0.7552
HongXiaoFeng_BUPT_task2_1	HongXiaoFeng	HongXiaoFeng_BUPT_task2_1	Hong2019	0.6991	0.7152
HongXiaoFeng_BUPT_task2_2	HongXiaoFeng	HongXiaoFeng_BUPT_task2_2	Hong2019	0.6991	0.7149
Kharin_MePhI_task2_1	Alexander Khar	Kharin_noisy_annealing	Kharin2019	0.6637	0.6819
Koutini_CPJKU_task2_1	CP-JKU	CP JKU 1	Koutini2019	0.7282	0.7351
Koutini_CPJKU_task2_2	CP-JKU	CP JKU 2	Koutini2019	0.7254	0.7374
Fonseca_UPF_task2_1	Challenge Baseline	DCASE2019 baseline system	Fonseca2019	0.5370	0.5379
PaischerPrinz_CPJKU_task2_1	CPJKUStudents	CPJKU Students submission	Paischer2019	0.7222	0.7033
PaischerPrinz_CPJKU_task2_2	CPJKUStudents	CPJKU Students submission	Paischer2019	0.7216	0.7099
PaischerPrinz_CPJKU_task2_3	CPJKUStudents	CPJKU Students submission	Paischer2019	0.7158	0.7018
Liu_Kuaiyu_task2_1	Kuaiyu	Kuaiyu Tagging System	Liu2019	0.7348	0.7414
Liu_Kuaiyu_task2_2	Kuaiyu	Kuaiyu Tagging System	Liu2019	0.7311	0.7366

* Unless stated otherwise, all reported scores are computed using the ground truth for the private leaderboard.

Teams ranking

Table including only the best performing system per submitting team.

Submission code	Kaggle team name	Name	Tech. report	lwlrap (public LB)	lwlrap (private LB)
Zhang_THU_task2_2	THUEE	THUEE	Zhang2019	0.7392	0.7577
Boqing_NUDT_task2_1	TEMP	Multi-label Audio tagging system 1	Boqing2019	0.7253	0.7240
Zhang_BIsmart_task2_2	3x6min	DCASE2019 Task2 \| Teacher-Student V2	Zhang2019b	0.7298	0.7338
Kong_SURREY_task2_1	cvssp_baseline	CVSSP cross-task CNN baseline	Kong2019	0.5803	0.0000
BOUTEILLON_NOORG_task2_1	Eric Bouteillon	BOUTEILLON Warm-up pipeline and spec-mix 2.1	Bouteillon2019	0.7389	0.7519
Akiyama_OU_task2_2	[kaggler-ja/AIMS] OUmed	resnet34_envnet_ensemble Raw-Audio and Spectrogram	Akiyama2019	0.7474	0.7579
Sun_BNU_task2_1	Penghao	CNN+MeanTeacher	Sun2019	0.6320	0.6443
Ebbers_UPB_task2_1	Janek Ebbers	DCASE2019 UPB system 1	Ebbers2019	0.7305	0.7552
HongXiaoFeng_BUPT_task2_1	HongXiaoFeng	HongXiaoFeng_BUPT_task2_1	Hong2019	0.6991	0.7152
Kharin_MePhI_task2_1	Alexander Khar	Kharin_noisy_annealing	Kharin2019	0.6637	0.6819
Koutini_CPJKU_task2_2	CP-JKU	CP JKU 2	Koutini2019	0.7254	0.7374
Fonseca_UPF_task2_1	Challenge Baseline	DCASE2019 baseline system	Fonseca2019	0.5370	0.5379
PaischerPrinz_CPJKU_task2_2	CPJKUStudents	CPJKU Students submission	Paischer2019	0.7216	0.7099
Liu_Kuaiyu_task2_1	Kuaiyu	Kuaiyu Tagging System	Liu2019	0.7348	0.7414

System characteristics

Input characteristics

Submission code	Tech. report	lwlrap (public LB)	lwlrap (private LB)	Acoustic features	Data augmentation	Use of noisy subset	Sampling rate
Zhang_THU_task2_2	Zhang2019	0.7392	0.7577	log-mel energies, CQT	mixup, SpecAugment	using provided labels	44.1kHz
Zhang_THU_task2_1	Zhang2019	0.7423	0.7575	log-mel energies, CQT	mixup, SpecAugment	using provided labels	44.1kHz
Boqing_NUDT_task2_1	Boqing2019	0.7253	0.7240	log-mel energies	SpecAugment	using provided labels	44.1kHz
Boqing_NUDT_task2_3	Boqing2019	0.7119	0.6777	log-mel energies	SpecAugment	using provided labels	44.1kHz
Boqing_NUDT_task2_2	Boqing2019	0.7235	0.7232	log-mel energies	SpecAugment	using provided labels	44.1kHz
Zhang_BIsmart_task2_3	Zhang2019b	0.7126	0.7144	log-mel energies	frequency masking, time masking, time reversal, mixup	using provided labels, automatic re-labeling	32kHz
Zhang_BIsmart_task2_2	Zhang2019b	0.7298	0.7338	log-mel energies, PCEN	frequency masking, time masking, time reversal, mixup	using provided labels, automatic re-labeling	44.1kHz
Zhang_BIsmart_task2_1	Zhang2019b	0.7304	0.7338	log-mel energies, PCEN	frequency masking, time masking, time reversal, mixup	using provided labels, automatic re-labeling	44.1kHz
Kong_SURREY_task2_1	Kong2019	0.5803	0.0000	log-mel energies		using provided labels	32kHz
BOUTEILLON_NOORG_task2_2	Bouteillon2019	0.7331	0.7419	log-mel energies	spec-mix	using provided labels	44.1kHz
BOUTEILLON_NOORG_task2_1	Bouteillon2019	0.7389	0.7519	log-mel energies	spec-mix	using provided labels	44.1kHz
Akiyama_OU_task2_2	Akiyama2019	0.7474	0.7579	log-mel energies, waveform	mixup, cutout, random gain, flip, highpass	semisupervised, multitask learning	44.1kHz
Akiyama_OU_task2_1	Akiyama2019	0.7504	0.7577	log-mel energies, waveform	mixup, cutout, random gain, flip, highpass	semisupervised, multitask learning	44.1kHz
Sun_BNU_task2_1	Sun2019	0.6320	0.6443	log-mel energies	resample, gaussian noise		44.1kHz
Ebbers_UPB_task2_3	Ebbers2019	0.7071	0.0000	log-mel energies	mixup, frequency warping, frequency masking, time masking	automatic re-labeling	44.1kHz
Ebbers_UPB_task2_2	Ebbers2019	0.7262	0.7456	log-mel energies	mixup, frequency warping, frequency masking, time masking	automatic re-labeling	44.1kHz
Ebbers_UPB_task2_1	Ebbers2019	0.7305	0.7552	log-mel energies	mixup, frequency warping, frequency masking, time masking	automatic re-labeling	44.1kHz
HongXiaoFeng_BUPT_task2_1	Hong2019	0.6991	0.7152	log-mel energies	mixup	Semi-Supervised Learning	44.1kHz
HongXiaoFeng_BUPT_task2_2	Hong2019	0.6991	0.7149	log-mel energies	mixup	Semi-Supervised Learning	44.1kHz
Kharin_MePhI_task2_1	Kharin2019	0.6637	0.6819	log-mel energies	random crops	using provided labels	44.1kHz
Koutini_CPJKU_task2_1	Koutini2019	0.7282	0.7351	log-mel energies	mixup	using provided labels	44.1kHz
Koutini_CPJKU_task2_2	Koutini2019	0.7254	0.7374	log-mel energies	mixup	using provided labels	44.1kHz
Fonseca_UPF_task2_1	Fonseca2019	0.5370	0.5379	log-mel energies		using provided labels	44.1kHz
PaischerPrinz_CPJKU_task2_1	Paischer2019	0.7222	0.7033	log-mel energies, perceptually weighted mel, perceptually weighted CQT	Mixup Augmentation	using provided labels	44.1kHz, 32kHz
PaischerPrinz_CPJKU_task2_2	Paischer2019	0.7216	0.7099	log-mel energies, perceptually weighted mel, perceptually weighted CQT	Mixup Augmentation	using provided labels	44.1kHz, 32kHz
PaischerPrinz_CPJKU_task2_3	Paischer2019	0.7158	0.7018	log-mel energies, perceptually weighted mel, perceptually weighted CQT	Mixup Augmentation	using provided labels	44.1kHz, 32kHz
Liu_Kuaiyu_task2_1	Liu2019	0.7348	0.7414	log-mel energies	mixup,	using provided labels	44.1kHz
Liu_Kuaiyu_task2_2	Liu2019	0.7311	0.7366	log-mel energies	mixup,	using provided labels	44.1kHz

Machine learning characteristics

Submission code	Tech. report	lwlrap (public LB)	lwlrap (private LB)	Classifier	Ensemble subsystems	Decision making	System complexity
Zhang_THU_task2_2	Zhang2019	0.7392	0.7577	CNN, RNN, ensemble	15	geometric mean	17000000
Zhang_THU_task2_1	Zhang2019	0.7423	0.7575	CNN, RNN, ensemble	15	geometric mean	17000000
Boqing_NUDT_task2_1	Boqing2019	0.7253	0.7240	CNN	5	arithmetic mean	16800000
Boqing_NUDT_task2_3	Boqing2019	0.7119	0.6777	CNN		arithmetic mean	2300000
Boqing_NUDT_task2_2	Boqing2019	0.7235	0.7232	CNN	5	arithmetic mean	16800000
Zhang_BIsmart_task2_3	Zhang2019b	0.7126	0.7144	CNN		arithmetic mean	5500000
Zhang_BIsmart_task2_2	Zhang2019b	0.7298	0.7338	CNN	13	arithmetic mean	71500000
Zhang_BIsmart_task2_1	Zhang2019b	0.7304	0.7338	CNN	12	arithmetic mean	66000000
Kong_SURREY_task2_1	Kong2019	0.5803	0.0000	CNN		arithmetic mean	4686144
BOUTEILLON_NOORG_task2_2	Bouteillon2019	0.7331	0.7419	CNN		arithmetic mean	5250000
BOUTEILLON_NOORG_task2_1	Bouteillon2019	0.7389	0.7519	CNN	2	arithmetic mean	143000000
Akiyama_OU_task2_2	Akiyama2019	0.7474	0.7579	CNN, ensemble	95	weighted average	21800000
Akiyama_OU_task2_1	Akiyama2019	0.7504	0.7577	CNN, ensemble	170	weighted average	21800000
Sun_BNU_task2_1	Sun2019	0.6320	0.6443	CNN		arithmetic mean	20700000
Ebbers_UPB_task2_3	Ebbers2019	0.7071	0.0000	CRNN		arithmetic mean	2600000
Ebbers_UPB_task2_2	Ebbers2019	0.7262	0.7456	CRNN	3	arithmetic mean	7900000
Ebbers_UPB_task2_1	Ebbers2019	0.7305	0.7552	CRNN	6	arithmetic mean	15900000
HongXiaoFeng_BUPT_task2_1	Hong2019	0.6991	0.7152	CNN, CRNN, ensemble	27	geometric mean	300000000
HongXiaoFeng_BUPT_task2_2	Hong2019	0.6991	0.7149	CNN, ensemble	26	geometric mean	280000000
Kharin_MePhI_task2_1	Kharin2019	0.6637	0.6819	CNN		arithmetic mean	4700000
Koutini_CPJKU_task2_1	Koutini2019	0.7282	0.7351	CNN, Receptive Field Regularization	39	arithmetic mean	90000000
Koutini_CPJKU_task2_2	Koutini2019	0.7254	0.7374	CNN, Receptive Field Regularization	24	arithmetic mean	90000000
Fonseca_UPF_task2_1	Fonseca2019	0.5370	0.5379	CNN		arithmetic mean	3300000
PaischerPrinz_CPJKU_task2_1	Paischer2019	0.7222	0.7033	CNN	5	arithmetic mean	33700000
PaischerPrinz_CPJKU_task2_2	Paischer2019	0.7216	0.7099	CNN	6	arithmetic mean	48600000
PaischerPrinz_CPJKU_task2_3	Paischer2019	0.7158	0.7018	CNN	5	arithmetic mean	47300000
Liu_Kuaiyu_task2_1	Liu2019	0.7348	0.7414	CNN	5	geometric mean	55000000
Liu_Kuaiyu_task2_2	Liu2019	0.7311	0.7366	CNN	2	geometric mean	30000000

Technical reports

MULTITASK LEARNING AND SEMI-SUPERVISED LEARNING WITH NOISY DATA FOR AUDIO TAGGING

Osamu Akiyama and Junya Sato

Faculty of Medicine (OU), Osaka University, Osaka, Japan.

Akiyama_OU_task2_2Akiyama_OU_task2_1

PDF Code

MULTITASK LEARNING AND SEMI-SUPERVISED LEARNING WITH NOISY DATA FOR AUDIO TAGGING

Osamu Akiyama and Junya Sato
Faculty of Medicine (OU), Osaka University, Osaka, Japan.

Abstract

This paper describes our submission to the DCASE 2019 challenge Task 2 "Audio tagging with noisy labels and minimal supervision" [1]. This task is a multi-label audio classification with 80 classes. The training data is composed of a small amount of reliably labeled data (curated data) and a larger amount of data with unreliable labels (noisy data). Additionally, there is a difference between data distribution between curated data and noisy data. To tackle this difficulty, we propose three strategies. The first is multitask learning using noisy data. The second is semi-supervised learning (SSL) using input data with a different distribution from labeled input data. The third is an ensemble method that averages models learned with different time windows. By using these methods, we achieved a score of 0.750 with label-weighted label-ranking average precision (lwlrap), which is in the top 1% on the public leaderboard (LB).

System characteristics

Sampling rate	44.1kHz
Data augmentation	mixup, cutout, random gain, flip, highpass
Features	log-mel energies, waveform
Classifier	CNN, ensemble
Decision making	weighted average
Ensemble subsystems	170
Complexity	21800000 parameters
Training time	17h (1 x Tesla P-100)

Team name	Kaggle ranking	Kaggle score	Code	Report
Ruslan Baikulov	1	0.75980	https://github.com/lRomul/argus-freesound	kaggle writeup
the art of ensemble	2	0.75913	https://github.com/qrfaction/2nd-Freesound-Audio-Tagging-2019	kaggle writeup
Dmitriy Danevskiy	3	0.75892	https://github.com/ex4sperans/freesound-classification	kaggle writeup
Miguel Pinto	6	0.75421	https://github.com/mnpinto/audiotagging2019	Medium blog post
[kaggler-ja] Shirogane	7	0.75302	https://www.kaggle.com/hidehisaarai1213/freesound-7th-place-solution	kaggle writeup
4 people	9	0.74835	https://www.kaggle.com/theoviel/9th-place-modeling-kernel	technical report
VFA	13	0.73993	-	kaggle writeup
和你一起虚度时光	19	0.73399	-	kaggle writeup
[dsmlkz] Dombra Power	21	0.73371	-	kaggle writeup
daisukelab	38	0.72308	https://github.com/daisukelab/freesound-audio-tagging-2019	technical report
Audio4Fun	77	0.70251	-	kaggle writeup
Robert Bracco	210	0.54651	-	kaggle writeup
-	-	-	Tutorial on Medium - How to Participate in a Kaggle Competition with Zero Code https://towardsdatascience.com/f017918d2f08

Content

Task description

Systems ranking

Teams ranking

System characteristics

Input characteristics

Machine learning characteristics

Technical reports

MULTITASK LEARNING AND SEMI-SUPERVISED LEARNING WITH NOISY DATA FOR AUDIO TAGGING

MULTITASK LEARNING AND SEMI-SUPERVISED LEARNING WITH NOISY DATA FOR AUDIO TAGGING

Abstract

System characteristics

MULTI-LABEL AUDIO TAGGING WITH NOISY LABELS AND VARIABLE LENGTH

MULTI-LABEL AUDIO TAGGING WITH NOISY LABELS AND VARIABLE LENGTH

Abstract

System characteristics

SPECMIX: A SIMPLE DATA AUGMENTATION TO LEVERAGE CLEAN AND NOISY SET FOR EFFICIENT AUDIO TAGGING

SPECMIX: A SIMPLE DATA AUGMENTATION TO LEVERAGE CLEAN AND NOISY SET FOR EFFICIENT AUDIO TAGGING

Abstract

System characteristics

CONVOLUTIONAL RECURRENT NEURAL NETWORK AND DATA AUGMENTATION FOR AUDIO TAGGING WITH NOISY LABELS AND MINIMAL SUPERVISION

CONVOLUTIONAL RECURRENT NEURAL NETWORK AND DATA AUGMENTATION FOR AUDIO TAGGING WITH NOISY LABELS AND MINIMAL SUPERVISION

Abstract

System characteristics

AUDIO TAGGING WITH NOISY LABELS AND MINIMAL SUPERVISION

AUDIO TAGGING WITH NOISY LABELS AND MINIMAL SUPERVISION

Abstract

System characteristics

MULTI-LABEL AUDIO TAGGING SYSTEM FOR FREESOUND 2019: FOCUSING ON NETWORK ARCHITECTURES, LABEL NOISY AND LOSS FUNCTIONS

MULTI-LABEL AUDIO TAGGING SYSTEM FOR FREESOUND 2019: FOCUSING ON NETWORK ARCHITECTURES, LABEL NOISY AND LOSS FUNCTIONS

Abstract

System characteristics

DCASE 2019 CHALLENGE NOISY_ANNEALING SYSTEM TECHNICAL REPORT

DCASE 2019 CHALLENGE NOISY_ANNEALING SYSTEM TECHNICAL REPORT

Abstract

System characteristics

CROSS-TASK LEARNING FOR AUDIO TAGGING, SOUND EVENT DETECTION AND SPATIAL LOCALIZATION: DCASE 2019 BASELINE SYSTEMS

CROSS-TASK LEARNING FOR AUDIO TAGGING, SOUND EVENT DETECTION AND SPATIAL LOCALIZATION: DCASE 2019 BASELINE SYSTEMS

Abstract

System characteristics

CP-JKU SUBMISSIONS TO DCASE’19: ACOUSTIC SCENE CLASSIFICATION AND AUDIO TAGGING WITH RECEPTIVE-FIELD-REGULARIZED CNNS

CP-JKU SUBMISSIONS TO DCASE’19: ACOUSTIC SCENE CLASSIFICATION AND AUDIO TAGGING WITH RECEPTIVE-FIELD-REGULARIZED CNNS

Abstract

System characteristics

STACKED CONVOLUTIONAL NEURAL NETWORKS FOR AUDIO TAGGING WITH NOISE LABELS

STACKED CONVOLUTIONAL NEURAL NETWORKS FOR AUDIO TAGGING WITH NOISE LABELS

Abstract

System characteristics

AUDIO TAGGING WITH CONVOLUTIONAL NEURAL NETWORKS TRAINED WITH NOISY DATA

AUDIO TAGGING WITH CONVOLUTIONAL NEURAL NETWORKS TRAINED WITH NOISY DATA

Abstract

System characteristics

Audio Tagging with Minimal Supervision Based on Mean Teacher for DCASE 2019 Challenge

Audio Tagging with Minimal Supervision Based on Mean Teacher for DCASE 2019 Challenge

Abstract

System characteristics

THUEE SYSTEM FOR DCASE 2019 CHALLENGE TASK 2

THUEE SYSTEM FOR DCASE 2019 CHALLENGE TASK 2

Abstract

System characteristics

DCASE 2019 TASK 2: SEMI-SUPERVISED NETWORKS WITH HEAVY DATA AUGMENTATIONS TO BATTLE AGAINST LABEL NOISE IN AUDIO TAGGING TASK

DCASE 2019 TASK 2: SEMI-SUPERVISED NETWORKS WITH HEAVY DATA AUGMENTATIONS TO BATTLE AGAINST LABEL NOISE IN AUDIO TAGGING TASK

Abstract

System characteristics

Other resources generated in the Kaggle competition