Task description

The Sound Event Localization and Detection (SELD) task deals with methods that detect the temporal onset and offset of sound events when active, classify the type of the event from a known set of sound classes, and further localize the events in space when active.

The focus of the current SELD task is developing systems that can perform adequately on real sound scene recordings, with a small amount of training data. There are two tracks: an audio-only track (Track A) for systems using only microphone recordings to estimate the SELD labels, and an audiovisual track (Track B) for systems employing additionally simultaneous 360° video recordings aligned spatially with the multichannel microphone recordings.

The task provides two datasets, development and evaluation, recorded in a multiple rooms over two different sites. Among the two datasets, only the development dataset provides the reference labels. The participants are expected to build and validate systems using the development dataset, report results on a predefined development set split, and finally test their system on the unseen evaluation dataset.

More details on the task setup and evaluation can be found in the task description page.

Teams ranking

The SELD task received 47 submissions in total from 13 teams across the world. From those, 29 submissions were on the audio-only Track A, and 18 submissions on the audiovisual Track B. 4 teams participated in both Track A & B, 7 teams participated only in Track A and 2 teams articipated only in Track B.

The following table includes only the best performing system per submitting team. Confidence intervals are also reported for each metric on the evaluation set results.

Track A: Audio-only

Rank	Submission Information				Evaluation Dataset
Rank	Submission name	Corresponding author	Affiliation	Technical Report	Team Rank	F-score (20°/1)	DOA error (°)	Relative distance error
	Du_NERCSLIP_task3a_4	Qing Wang	University of Science and Technology of China	Du_NERCSLIP_task3_report	1	54.4 (48.9 - 59.2)	13.6 (12.4 - 15.0)	0.21 (0.18 - 0.23)
	Yu_HYUNDAI_task3a_3	Hogeon Yu	Hyundai Motor Company	Yu_HYUNDAI_task3a_report	2	29.8 (25.1 - 34.2)	19.8 (18.3 - 21.6)	0.28 (0.25 - 0.32)
	Yeow_NTU_task3a_2	Jun Wei Yeow	Nanyang Technological University	Yeow_NTU_task3a_report	3	26.2 (22.0 - 30.5)	25.1 (23.2 - 27.6)	0.26 (0.22 - 0.28)
	Guan_CQUPT_task3a_4	Xin Guan	Chongqing University of Posts and Telecommunications	Guan_CQUPT_task3_report	4	26.7 (22.7 - 31.1)	18.6 (17.4 - 21.8)	0.36 (0.34 - 0.39)
	Vo_DU_task3a_1	Quoc Thinh Vo	Drexel University	Vo_DU_task3a_report	5	24.7 (20.8 - 28.4)	19.3 (17.7 - 21.3)	0.34 (0.30 - 0.37)
	Berg_LU_task3a_3	Axel Berg	Lund University, Arm	Berg_LU_task3_report	6	25.5 (21.8 - 29.6)	23.2 (18.2 - 28.8)	0.39 (0.34 - 0.44)
	Sun_JLESS_task3a_1	Wenqiang Sun	Northwestern Polytechnical University	Sun_JLESS_task3a_report	7	28.5 (24.2 - 33.0)	23.8 (21.5 - 25.9)	0.51 (0.49 - 0.53)
	Qian_IASP_task3a_1	Yuanhang Qian	Wuhan University	Qian_IASP_task3a_report	8	22.8 (18.6 - 26.8)	27.2 (24.6 - 29.8)	0.36 (0.31 - 0.42)
	AO_Baseline_FOA	Parthasaarathy Sudarsanam	Tampere University	Politis_TAU_task3a_report	9	18.0 (14.6 - 21.7)	29.6 (24.6 - 33.3)	0.31 (0.28 - 0.36)
	Zhang_BUPT_task3a_1	Zhicheng Zhang	Beijing University of Posts and Telecommunications	Zhang_BUPT_task3a_report	10	19.0 (16.1 - 21.8)	29.6 (26.6 - 32.9)	0.40 (0.32 - 0.48)
	Chen_ECUST_task3a_1	Ning Chen	East China University of Science and Technology	Chen_ECUST_task3_report	11	15.1 (12.2 - 17.9)	28.3 (25.5 - 30.9)	0.48 (0.39 - 0.59)
	Li_BIT_task3a_1	Jiahao Li	Beijing Institution of Technology	Li_BIT_task3a_report	12	16.9 (13.4 - 20.5)	33.5 (30.0 - 42.7)	0.51 (0.26 - 1.25)

Track B: Audiovisual

Rank	Submission Information				Evaluation Dataset
Rank	Submission name	Corresponding author	Affiliation	Technical Report	Team Rank	F-score (20°/1)	DOA error (°)	Relative distance error
	Du_NERCSLIP_task3b_4	Qing Wang	University of Science and Technology of China	Du_NERCSLIP_task3_report	1	55.8 (51.2 - 60.4)	11.4 (10.4 - 12.5)	0.25 (0.22 - 0.29)
	Berghi_SURREY_task3b_4	Davide Berghi	University of Surrey	Berghi_SURREY_task3b_report	2	39.2 (33.9 - 44.3)	15.8 (14.2 - 17.4)	0.29 (0.25 - 0.32)
	Li_SHU_task3b_2	Yongbo Li	Shanghai University	Li_SHU_task3b_report	3	34.2 (29.9 - 38.4)	21.5 (19.8 - 23.4)	0.28 (0.25 - 0.31)
	Guan_CQUPT_task3b_2	Xin Guan	Chongqing University of Posts and Telecommunications	Guan_CQUPT_task3_report	4	23.2 (19.2 - 27.2)	18.8 (17.3 - 21.5)	0.32 (0.28 - 0.37)
	Berg_LU_task3b_3	Axel Berg	Lund University, Arm	Berg_LU_task3_report	5	25.9 (22.1 - 30.1)	23.2 (18.2 - 28.8)	0.33 (0.28 - 0.38)
	Chen_ECUST_task3b_1	Ning Chen	East China University of Science and Technology	Chen_ECUST_task3_report	6	16.3 (13.7 - 19.3)	25.1 (22.3 - 26.9)	0.32 (0.27 - 0.39)
	AV_Baseline_MIC	Parthasaarathy Sudarsanam	Tampere University	Shimada_SONY_task3b_report	7	16.0 (12.1 - 20.0)	35.9 (31.8 - 39.6)	0.30 (0.27 - 0.33)

Systems ranking

Performance of all the submitted systems on the evaluation and the development datasets. Confidence intervals are also reported for each metric on the evaluation set results.

Track A: Audio-only

Rank	Submission Information		Evaluation Dataset				Development Dataset
Rank	Submission name	Technical Report	Submission Rank	F-score (20°/1)	DOA error (°)	Relative distance error	F-score (20°/1)	DOA error (°)	Relative distance error
	Du_NERCSLIP_task3a_4	Du_NERCSLIP_task3_report	1	54.4 (48.9 - 59.2)	13.6 (12.4 - 15.0)	0.21 (0.18 - 0.23)	59.7	12.4	0.21
	Du_NERCSLIP_task3a_1	Du_NERCSLIP_task3_report	2	55.7 (50.8 - 60.0)	13.7 (12.4 - 15.3)	0.21 (0.19 - 0.23)	61.0	12.3	0.21
	Du_NERCSLIP_task3a_2	Du_NERCSLIP_task3_report	3	54.3 (48.9 - 59.0)	13.6 (12.4 - 15.0)	0.21 (0.19 - 0.23)	59.7	12.4	0.22
	Du_NERCSLIP_task3a_3	Du_NERCSLIP_task3_report	4	53.8 (47.9 - 58.9)	14.2 (12.6 - 16.0)	0.21 (0.18 - 0.24)	58.8	12.4	0.21
	Yu_HYUNDAI_task3a_3	Yu_HYUNDAI_task3a_report	5	29.8 (25.1 - 34.2)	19.8 (18.3 - 21.6)	0.28 (0.25 - 0.32)	34.7	18.8	0.28
	Yu_HYUNDAI_task3a_4	Yu_HYUNDAI_task3a_report	6	29.2 (24.4 - 33.6)	19.7 (18.1 - 21.5)	0.30 (0.27 - 0.34)	35.0	19.0	0.29
	Yu_HYUNDAI_task3a_1	Yu_HYUNDAI_task3a_report	7	29.2 (24.5 - 33.5)	19.8 (18.2 - 21.5)	0.29 (0.25 - 0.33)	33.9	19.5	0.28
	Yu_HYUNDAI_task3a_2	Yu_HYUNDAI_task3a_report	8	28.2 (23.5 - 32.6)	20.1 (18.4 - 22.3)	0.29 (0.24 - 0.32)	33.4	19.2	0.28
	Yeow_NTU_task3a_2	Yeow_NTU_task3a_report	9	26.2 (22.0 - 30.5)	25.1 (23.2 - 27.6)	0.26 (0.22 - 0.28)	33.8	21.4	0.30
	Guan_CQUPT_task3a_4	Guan_CQUPT_task3_report	10	26.7 (22.7 - 31.1)	18.6 (17.4 - 21.8)	0.36 (0.34 - 0.39)
	Vo_DU_task3a_1	Vo_DU_task3a_report	11	24.7 (20.8 - 28.4)	19.3 (17.7 - 21.3)	0.34 (0.30 - 0.37)	39.7	17.4	0.33
	Yeow_NTU_task3a_3	Yeow_NTU_task3a_report	12	24.6 (20.2 - 29.4)	25.9 (21.2 - 28.4)	0.26 (0.19 - 0.29)	32.7	22.9	0.30
	Vo_DU_task3a_2	Vo_DU_task3a_report	13	25.6 (21.4 - 29.5)	20.1 (18.4 - 22.2)	0.33 (0.29 - 0.36)	39.9	17.5	0.32
	Guan_CQUPT_task3a_1	Guan_CQUPT_task3_report	14	21.9 (17.4 - 26.2)	16.7 (15.5 - 18.9)	0.31 (0.28 - 0.34)	43.2	14.6	0.29
	Vo_DU_task3a_3	Vo_DU_task3a_report	15	24.6 (20.4 - 28.1)	18.9 (17.4 - 20.5)	0.34 (0.30 - 0.37)	40.2	17.5	0.32
	Guan_CQUPT_task3a_3	Guan_CQUPT_task3_report	16	22.5 (18.2 - 26.7)	16.7 (15.8 - 18.9)	0.36 (0.33 - 0.42)	44.1	13.7	0.30
	Berg_LU_task3a_3	Berg_LU_task3_report	17	25.5 (21.8 - 29.6)	23.2 (18.2 - 28.8)	0.39 (0.34 - 0.44)	32.0	21.8	0.44
	Berg_LU_task3a_1	Berg_LU_task3_report	18	27.0 (23.3 - 31.2)	26.1 (23.0 - 28.6)	0.37 (0.34 - 0.44)	29.0	23.9	0.38
	Yeow_NTU_task3a_1	Yeow_NTU_task3a_report	19	23.5 (19.3 - 27.9)	27.2 (24.2 - 30.5)	0.28 (0.25 - 0.33)	33.9	20.4	0.30
	Sun_JLESS_task3a_1	Sun_JLESS_task3a_report	20	28.5 (24.2 - 33.0)	23.8 (21.5 - 25.9)	0.51 (0.49 - 0.53)	29.2	20.7	0.47
	Guan_CQUPT_task3a_2	Guan_CQUPT_task3_report	21	21.6 (17.7 - 25.4)	17.2 (15.1 - 20.2)	0.40 (0.37 - 0.45)	43.7	14.0	0.30
	Berg_LU_task3a_2	Berg_LU_task3_report	22	24.3 (20.4 - 28.3)	21.5 (18.7 - 24.0)	0.39 (0.31 - 0.50)	28.7	20.8	0.38
	Yeow_NTU_task3a_4	Yeow_NTU_task3a_report	23	21.6 (17.8 - 25.6)	27.3 (23.5 - 30.9)	0.27 (0.23 - 0.30)	32.7	20.6	0.31
	Berg_LU_task3a_4	Berg_LU_task3_report	24	23.5 (19.5 - 27.6)	23.9 (18.2 - 31.1)	0.43 (0.38 - 0.54)	26.8	26.5	0.57
	Qian_IASP_task3a_1	Qian_IASP_task3a_report	25	22.8 (18.6 - 26.8)	27.2 (24.6 - 29.8)	0.36 (0.31 - 0.42)	23.0	25.1	0.43
	AO_Baseline_FOA	Politis_TAU_task3a_report	26	18.0 (14.6 - 21.7)	29.6 (24.6 - 33.3)	0.31 (0.28 - 0.36)	13.1	36.9	0.33
	AO_Baseline_MIC	Politis_TAU_task3a_report	27	16.3 (13.1 - 19.3)	34.1 (30.7 - 37.4)	0.30 (0.28 - 0.33)	9.9	38.1	0.30
	Sun_JLESS_task3a_2	Sun_JLESS_task3a_report	28	21.9 (18.7 - 25.4)	26.4 (24.9 - 28.1)	0.51 (0.49 - 0.53)	21.7	26.5	0.48
	Zhang_BUPT_task3a_1	Zhang_BUPT_task3a_report	29	19.0 (16.1 - 21.8)	29.6 (26.6 - 32.9)	0.40 (0.32 - 0.48)	19.0	27.5	0.39
	Chen_ECUST_task3a_1	Chen_ECUST_task3_report	30	15.1 (12.2 - 17.9)	28.3 (25.5 - 30.9)	0.48 (0.39 - 0.59)	19.2	22.9	0.32
	Li_BIT_task3a_1	Li_BIT_task3a_report	31	16.9 (13.4 - 20.5)	33.5 (30.0 - 42.7)	0.51 (0.26 - 1.25)	33.9	21.1	0.30

Track B: Audiovisual

Rank	Submission Information		Evaluation Dataset				Development Dataset
Rank	Submission name	Technical Report	Submission Rank	F-score (20°/1)	DOA error (°)	Relative distance error	F-score (20°/1)	DOA error (°)	Relative distance error
	Du_NERCSLIP_task3b_4	Du_NERCSLIP_task3_report	1	55.8 (51.2 - 60.4)	11.4 (10.4 - 12.5)	0.25 (0.22 - 0.29)	59.9	10.9	0.21
	Du_NERCSLIP_task3b_3	Du_NERCSLIP_task3_report	2	55.6 (50.9 - 60.3)	11.3 (10.3 - 12.4)	0.25 (0.22 - 0.29)	59.2	10.8	0.22
	Du_NERCSLIP_task3b_2	Du_NERCSLIP_task3_report	3	53.5 (49.1 - 57.8)	11.7 (10.5 - 12.9)	0.27 (0.22 - 0.32)	59.9	11.2	0.21
	Du_NERCSLIP_task3b_1	Du_NERCSLIP_task3_report	4	52.6 (47.7 - 56.9)	13.6 (12.4 - 15.2)	0.29 (0.25 - 0.34)	61.0	10.9	0.22
	Berghi_SURREY_task3b_4	Berghi_SURREY_task3b_report	5	39.2 (33.9 - 44.3)	15.8 (14.2 - 17.4)	0.29 (0.25 - 0.32)	40.3	18.0	0.30
	Berghi_SURREY_task3b_2	Berghi_SURREY_task3b_report	6	36.5 (31.5 - 41.1)	14.4 (13.0 - 15.8)	0.29 (0.26 - 0.33)	38.7	16.8	0.30
	Berghi_SURREY_task3b_1	Berghi_SURREY_task3b_report	7	39.5 (34.3 - 44.3)	15.4 (13.9 - 16.9)	0.31 (0.26 - 0.36)	40.8	17.7	0.30
	Li_SHU_task3b_2	Li_SHU_task3b_report	8	34.2 (29.9 - 38.4)	21.5 (19.8 - 23.4)	0.28 (0.25 - 0.31)	36.4	19.1	0.30
	Berghi_SURREY_task3b_3	Berghi_SURREY_task3b_report	9	30.0 (25.8 - 34.2)	26.1 (19.4 - 29.8)	0.29 (0.25 - 0.33)	30.7	18.9	0.27
	Li_SHU_task3b_1	Li_SHU_task3b_report	10	31.9 (27.9 - 36.0)	19.6 (18.1 - 21.2)	0.33 (0.29 - 0.37)	39.2	18.7	0.31
	Guan_CQUPT_task3b_2	Guan_CQUPT_task3_report	11	23.2 (19.2 - 27.2)	18.8 (17.3 - 21.5)	0.32 (0.28 - 0.37)	46.7	14.2	0.28
	Guan_CQUPT_task3b_1	Guan_CQUPT_task3_report	12	22.2 (18.2 - 26.0)	20.3 (18.4 - 23.9)	0.30 (0.26 - 0.34)	44.4	15.2	0.27
	Berg_LU_task3b_3	Berg_LU_task3_report	13	25.9 (22.1 - 30.1)	23.2 (18.2 - 28.8)	0.33 (0.28 - 0.38)	33.4	21.8	0.28
	Berg_LU_task3b_2	Berg_LU_task3_report	14	24.3 (20.4 - 28.4)	21.5 (18.7 - 24.0)	0.34 (0.28 - 0.41)	29.4	20.8	0.28
	Berg_LU_task3b_4	Berg_LU_task3_report	15	23.7 (19.7 - 27.8)	23.9 (18.2 - 31.1)	0.34 (0.26 - 0.40)	29.0	26.5	0.28
	Chen_ECUST_task3b_1	Chen_ECUST_task3_report	16	16.3 (13.7 - 19.3)	25.1 (22.3 - 26.9)	0.32 (0.27 - 0.39)	16.2	26.2	0.41
	AV_Baseline_MIC	Shimada_SONY_task3b_report	17	16.0 (12.1 - 20.0)	35.9 (31.8 - 39.6)	0.30 (0.27 - 0.33)	11.8	38.5	0.29
	Berg_LU_task3b_1	Berg_LU_task3_report	18	26.4 (22.9 - 30.4)	26.1 (23.0 - 28.6)	0.35 (0.30 - 0.44)	29.8	23.9	0.28
	AV_Baseline_FOA	Shimada_SONY_task3b_report	19	15.5 (12.9 - 18.6)	34.6 (31.0 - 37.3)	0.31 (0.27 - 0.35)	11.3	38.4	0.36
	Chen_ECUST_task3b_2	Chen_ECUST_task3_report	20	14.1 (11.6 - 16.7)	42.2 (26.1 - 90.5)	0.39 (0.34 - 0.49)	17.9	24.2	0.38

System characteristics

Track A: Audio-only

Rank	Submission name	Technical Report	Model	Model params	Audio format	Acoustic features	Data augmentation
1	Du_NERCSLIP_task3a_4	Du_NERCSLIP_task3_report	ResNet, Conformer, Ensemble	46878922	Ambisonic	mel spectra, intensity vector	audio channel swapping, multi-channel data simulation, manifold mixup
2	Du_NERCSLIP_task3a_1	Du_NERCSLIP_task3_report	ResNet, Conformer, Conv-TasNet, Ensemble	145105065	Ambisonic	mel spectra, intensity vector	audio channel swapping, multi-channel data simulation, manifold mixup
3	Du_NERCSLIP_task3a_2	Du_NERCSLIP_task3_report	ResNet, Conformer, Ensemble	46803107	Ambisonic	mel spectra, intensity vector	audio channel swapping, multi-channel data simulation, manifold mixup
4	Du_NERCSLIP_task3a_3	Du_NERCSLIP_task3_report	ResNet, Conformer, Ensemble	93682029	Ambisonic	mel spectra, intensity vector	audio channel swapping, multi-channel data simulation, manifold mixup
5	Yu_HYUNDAI_task3a_3	Yu_HYUNDAI_task3a_report	CNN, MHSA, MHA	6317996	Ambisonic	mel spectra, intensity vector	multi-channel data simulation
6	Yu_HYUNDAI_task3a_4	Yu_HYUNDAI_task3a_report	CNN, MHSA, MHA	6317996	Ambisonic	mel spectra, intensity vector	multi-channel data simulation
7	Yu_HYUNDAI_task3a_1	Yu_HYUNDAI_task3a_report	CNN, MHSA, MHA	6317996	Ambisonic	mel spectra, intensity vector	multi-channel data simulation
8	Yu_HYUNDAI_task3a_2	Yu_HYUNDAI_task3a_report	CNN, MHSA, MHA	6317996	Ambisonic	mel spectra, intensity vector	multi-channel data simulation
9	Yeow_NTU_task3a_2	Yeow_NTU_task3a_report	ResNet, Conformer, Squeeze-and-Excitation	5383000	Ambisonic	SALSA	mixup, frequency shifting, audio channel swapping
10	Guan_CQUPT_task3a_4	Guan_CQUPT_task3_report	CNN, Conformer, Ensemble	14479876	Ambisonic	mel spectra, intensity vector, log-rms	cutout, specAugment, pitch shifting, augmix, audio channel swapping
11	Vo_DU_task3a_1	Vo_DU_task3a_report	ResNet, Conformer	40262940	Ambisonic	mel spectra, intensity vector	cutout, specAugment, audio channel swapping
12	Yeow_NTU_task3a_3	Yeow_NTU_task3a_report	ResNet, Conformer, Squeeze-and-Excitation	5383000	Ambisonic	SALSA	mixup, frequency shifting, audio channel swapping
13	Vo_DU_task3a_2	Vo_DU_task3a_report	ResNet, Conformer	40262940	Ambisonic	mel spectra, intensity vector	cutout, specAugment, audio channel swapping
14	Guan_CQUPT_task3a_1	Guan_CQUPT_task3_report	CNN, Conformer, Ensemble	9318488	Ambisonic	mel spectra, intensity vector	cutout, specAugment, pitch shifting, augmix, audio channel swapping
15	Vo_DU_task3a_3	Vo_DU_task3a_report	ResNet, Conformer	40262940	Ambisonic	mel spectra, intensity vector	cutout, specAugment, audio channel swapping
16	Guan_CQUPT_task3a_3	Guan_CQUPT_task3_report	CNN, Conformer, Ensemble	9820632	Ambisonic	mel spectra, intensity vector, log-rms	cutout, specAugment, pitch shifting, augmix, audio channel swapping
17	Berg_LU_task3a_3	Berg_LU_task3_report	CST-Former, MHSA, Transformer	1490000	Microphone Array	mel spectra, NGCC-PHAT	audio channel swapping
18	Berg_LU_task3a_1	Berg_LU_task3_report	CST-Former, MHSA, Transformer	663000	Microphone Array	mel spectra, NGCC-PHAT	audio channel swapping
19	Yeow_NTU_task3a_1	Yeow_NTU_task3a_report	ResNet, Conformer, Squeeze-and-Excitation	5383000	Ambisonic	SALSA	mixup, frequency shifting, audio channel swapping
20	Sun_JLESS_task3a_1	Sun_JLESS_task3a_report	CNN, Conformer, Ensemble	13107932	Ambisonic	mel spectra, intensity vector, sinIPD	channel rotation
21	Guan_CQUPT_task3a_2	Guan_CQUPT_task3_report	CNN, Conformer, Ensemble	10322776	Ambisonic	mel spectra, intensity vector, log-rms	cutout, specAugment, pitch shifting, augmix, audio channel swapping
22	Berg_LU_task3a_2	Berg_LU_task3_report	CST-Former, MHSA, Transformer	663000	Microphone Array	MFCC, NGCC-PHAT	audio channel swapping
23	Yeow_NTU_task3a_4	Yeow_NTU_task3a_report	ResNet, Conformer, Squeeze-and-Excitation	5383000	Ambisonic	SALSA	mixup, frequency shifting, audio channel swapping
24	Berg_LU_task3a_4	Berg_LU_task3_report	CST-Former, MHSA, Transformer	1490000	Microphone Array	MFCC, NGCC-PHAT	audio channel swapping
25	Qian_IASP_task3a_1	Qian_IASP_task3a_report	ResNet, Conformer,CNN	64560	Ambisonic	mel spectra, intensity vector	audio channel swapping
26	AO_Baseline_FOA	Politis_TAU_task3a_report	CRNN, MHSA	742559	Ambisonic	mel spectra, intensity vector
27	AO_Baseline_MIC	Politis_TAU_task3a_report	CRNN, MHSA	744287	Microphone Array	mel spectra, GCC-PHAT
28	Sun_JLESS_task3a_2	Sun_JLESS_task3a_report	CNN, Conformer, Ensemble	13107932	Microphone Array	mel spectra, intensity vector, sinIPD	channel rotation
29	Zhang_BUPT_task3a_1	Zhang_BUPT_task3a_report	CNN, Conformer	7461404	Ambisonic	mel spectra, intensity vector
30	Chen_ECUST_task3a_1	Chen_ECUST_task3_report	CRNN, MHSA	740963	Ambisonic	mel spectra, intensity vector, magnitude spectra	audio channel swapping
31	Li_BIT_task3a_1	Li_BIT_task3a_report	Conformer, ConvNeXt	3714972	Ambisonic	mel spectra, intensity vector	audio channel swapping

Track B: Audiovisual

Rank	Submission name	Technical Report	Model	Model params	Audio format	Acoustic features	Data augmentation
1	Du_NERCSLIP_task3b_4	Du_NERCSLIP_task3_report	ResNet, Conformer, Ensemble	93537081	Ambisonic	mel spectra, intensity vector	audio channel swapping, multi-channel data simulation, video pixel swapping, manifold mixup
2	Du_NERCSLIP_task3b_3	Du_NERCSLIP_task3_report	ResNet, Conformer, Ensemble	81851917	Ambisonic	mel spectra, intensity vector	audio channel swapping, multi-channel data simulation, video pixel swapping, manifold mixup
3	Du_NERCSLIP_task3b_2	Du_NERCSLIP_task3_report	ResNet, Conformer, Ensemble	58488271	Ambisonic	mel spectra, intensity vector	audio channel swapping, multi-channel data simulation, video pixel swapping, manifold mixup
4	Du_NERCSLIP_task3b_1	Du_NERCSLIP_task3_report	ResNet, Conformer, Ensemble	70166753	Ambisonic	mel spectra, intensity vector	audio channel swapping, multi-channel data simulation, video pixel swapping, manifold mixup
5	Berghi_SURREY_task3b_4	Berghi_SURREY_task3b_report	CNN, Conformer, ViT, MHST	446613716	Ambisonic	mel spectra, intensity vector, direct-reverberant components	audio-visual channel swapping
6	Berghi_SURREY_task3b_2	Berghi_SURREY_task3b_report	CNN, Conformer	85483420	Ambisonic	mel spectra, intensity vector	audio-visual channel swapping
7	Berghi_SURREY_task3b_1	Berghi_SURREY_task3b_report	CNN, Conformer	85483420	Ambisonic	mel spectra, intensity vector	audio-visual channel swapping
8	Li_SHU_task3b_2	Li_SHU_task3b_report	ResNet-50,ResNet, Conformer,Transformer	9995660	Ambisonic	mel spectra, intensity vector	audio channel swapping,multi-channel data simulation,video pixel swapping
9	Berghi_SURREY_task3b_3	Berghi_SURREY_task3b_report	CNN, Conformer, ViT, MHST	275646876	Ambisonic	mel spectra, intensity vector, direct-reverberant components	audio-visual channel swapping
10	Li_SHU_task3b_1	Li_SHU_task3b_report	ResNet-50,ResNet, Conformer,Transformer	9995660	Ambisonic	mel spectra, intensity vector	audio channel swapping,video pixel swapping,multi-channel data simulation
11	Guan_CQUPT_task3b_2	Guan_CQUPT_task3_report	CNN, Conformer, Ensemble, MHSA, MHCA	13401544	Ambisonic	mel spectra, intensity vector	cutout, specAugment, pitch shifting, augmix, audio channel swapping, audio-visual channel swapping
12	Guan_CQUPT_task3b_1	Guan_CQUPT_task3_report	CNN, Conformer, Ensemble, MHSA, MHCA	13401544	Ambisonic	mel spectra, intensity vector	cutout, specAugment, pitch shifting, augmix, audio channel swapping, audio-visual channel swapping
13	Berg_LU_task3b_3	Berg_LU_task3_report	CST-Former, MHSA, Transformer	21900000	Microphone Array	mel spectra, NGCC-PHAT	audio channel swapping
14	Berg_LU_task3b_2	Berg_LU_task3_report	CST-Former, MHSA, Transformer	21000000	Microphone Array	MFCC, NGCC-PHAT	audio channel swapping
15	Berg_LU_task3b_4	Berg_LU_task3_report	CST-Former, MHSA, Transformer	21900000	Microphone Array	MFCC, NGCC-PHAT	audio channel swapping
16	Chen_ECUST_task3b_1	Chen_ECUST_task3_report	CRNN, MHSA	743428	Ambisonic	mel spectra, GCC-PHAT, magnitude spectra	audio channel swapping, video pixel swapping
17	AV_Baseline_MIC	Shimada_SONY_task3b_report	CRNN	2728671	Microphone Array	magnitude spectra, IPD
18	Berg_LU_task3b_1	Berg_LU_task3_report	CST-Former, MHSA, Transformer	21000000	Microphone Array	mel spectra, NGCC-PHAT	audio channel swapping
19	AV_Baseline_FOA	Shimada_SONY_task3b_report	CRNN	2726943	Ambisonic	magnitude spectra, IPD
20	Chen_ECUST_task3b_2	Chen_ECUST_task3_report	CRNN, MHSA	745963	Ambisonic	mel spectra, GCC-PHAT, magnitude spectra	audio channel swapping, video pixel swapping

Technical reports

THE LU SYSTEM FOR DCASE 2024 SOUND EVENT LOCALIZATION AND DETECTION CHALLENGE

Axel Berg^1,2, Johanna Engman¹, Jens Gulin^1,3, Karl Astrom¹, Magnus Oskarsson¹

¹Computer Vision and Machine Learning, Centre for Mathematical Sciences, Lund University, Sweden, ²Arm, Lund, Sweden, ³Sony Europe B.V., Lund, Sweden

Berg_LU_task3a_1 Berg_LU_task3a_2 Berg_LU_task3a_3 Berg_LU_task3a_4 Berg_LU_task3b_1 Berg_LU_task3b_2 Berg_LU_task3b_3 Berg_LU_task3b_4

PDF Code

THE LU SYSTEM FOR DCASE 2024 SOUND EVENT LOCALIZATION AND DETECTION CHALLENGE

Axel Berg^1,2, Johanna Engman¹, Jens Gulin^1,3, Karl Astrom¹, Magnus Oskarsson¹
¹Computer Vision and Machine Learning, Centre for Mathematical Sciences, Lund University, Sweden, ²Arm, Lund, Sweden, ³Sony Europe B.V., Lund, Sweden

Abstract

This technical report gives an overview of our submission to task 3 of the DCASE 2024 challenge. We present a sound event localization and detection (SELD) system using input features based on trainable neural generalized cross-correlations with phase transform (NGCC-PHAT). With these features together with spectrograms as input to a Transformer-based network, we achieve significant improvements over the baseline method. In addition, we also present an audio-visual version of our system, where distance predictions are updated using depth maps from the panorama video frames.

Content

Task description

Teams ranking

Track A: Audio-only

Track B: Audiovisual

Systems ranking

Track A: Audio-only

Track B: Audiovisual

System characteristics

Track A: Audio-only

Track B: Audiovisual

Technical reports

THE LU SYSTEM FOR DCASE 2024 SOUND EVENT LOCALIZATION AND DETECTION CHALLENGE

THE LU SYSTEM FOR DCASE 2024 SOUND EVENT LOCALIZATION AND DETECTION CHALLENGE

Abstract

LEVERAGING REVERBERATION AND VISUAL DEPTH CUES FOR SOUND EVENT LOCALIZATION AND DETECTION WITH DISTANCE ESTIMATION

LEVERAGING REVERBERATION AND VISUAL DEPTH CUES FOR SOUND EVENT LOCALIZATION AND DETECTION WITH DISTANCE ESTIMATION

Abstract

FEATURE FUSION BASED ON CROSS-FEATURE TRANSFORMER FOR SOUND EVENT LOCALIZATION AND DETECTION WITH SOURCE DISTANCE ESTIMATION

FEATURE FUSION BASED ON CROSS-FEATURE TRANSFORMER FOR SOUND EVENT LOCALIZATION AND DETECTION WITH SOURCE DISTANCE ESTIMATION

Abstract

THE NERC-SLIP SYSTEM FOR SOUND EVENT LOCALIZATION AND DETECTION WITH SOURCE DISTANCE ESTIMATION OF DCASE 2024 CHALLENGE

THE NERC-SLIP SYSTEM FOR SOUND EVENT LOCALIZATION AND DETECTION WITH SOURCE DISTANCE ESTIMATION OF DCASE 2024 CHALLENGE

Abstract

POWER CUE ENHANCED NETWORK AND AUDIO-VISUAL FUISON FOR SOUND EVENT LOCALIZATION AND DETECTION OF DCASE2024 CHALLENGE

POWER CUE ENHANCED NETWORK AND AUDIO-VISUAL FUISON FOR SOUND EVENT LOCALIZATION AND DETECTION OF DCASE2024 CHALLENGE

Abstract

THE SYSTEM USING CONVNEXT, CONFORMER, AND DATA AUGMENTATION FOR SOUND EVENT LOCALIZATION AND DETECTION

THE SYSTEM USING CONVNEXT, CONFORMER, AND DATA AUGMENTATION FOR SOUND EVENT LOCALIZATION AND DETECTION

Abstract

Data Augmentation and Cross-Fusion for Audiovisual Sound Event Localization and Detection with Source Distance Estimation

Data Augmentation and Cross-Fusion for Audiovisual Sound Event Localization and Detection with Source Distance Estimation

Abstract

STARSS22: A dataset of spatial recordings of real scenes with spatiotemporal annotations of sound events

STARSS22: A dataset of spatial recordings of real scenes with spatiotemporal annotations of sound events

Abstract

THE IASP SUBMISSION FOR SOUND EVENT LOCALIZATION AND DETECTION OF DCASE2024 CHALLENGE

THE IASP SUBMISSION FOR SOUND EVENT LOCALIZATION AND DETECTION OF DCASE2024 CHALLENGE

Abstract

STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events

STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events

Abstract

JLESS SUBMISSION TO DCASE2024 TASK3: Conformer with Data Augmentation for Sound Event Localization and Detection with Source Distance Estimation

JLESS SUBMISSION TO DCASE2024 TASK3: Conformer with Data Augmentation for Sound Event Localization and Detection with Source Distance Estimation

Abstract

RESNET-CONFORMER NETWORK WITH SHARED WEIGHTS AND ATTENTION MECHANISM FOR SOUND EVENT LOCALIZATION, DETECTION, AND DISTANCE ESTIMATION

RESNET-CONFORMER NETWORK WITH SHARED WEIGHTS AND ATTENTION MECHANISM FOR SOUND EVENT LOCALIZATION, DETECTION, AND DISTANCE ESTIMATION

Abstract

SQUEEZE-AND-EXCITE RESNET-CONFORMERS FOR SOUND EVENT LOCALIZATION, DETECTION, AND DISTANCE ESTIMATION FOR DCASE2024 CHALLENGE

SQUEEZE-AND-EXCITE RESNET-CONFORMERS FOR SOUND EVENT LOCALIZATION, DETECTION, AND DISTANCE ESTIMATION FOR DCASE2024 CHALLENGE

Abstract

DOA AND EVENT GUIDANCE SYSTEM FOR SOUND EVENT LOCALIZATION AND DETECTION WITH SOURCE DISTANCE ESTIMATION

DOA AND EVENT GUIDANCE SYSTEM FOR SOUND EVENT LOCALIZATION AND DETECTION WITH SOURCE DISTANCE ESTIMATION

Abstract

MULTI-SCALE FEATURE FUSION FOR SOUND EVENT LOCALIZATION AND DETECTION

MULTI-SCALE FEATURE FUSION FOR SOUND EVENT LOCALIZATION AND DETECTION

Abstract