Task description

The Sound Event Localization and Detection (SELD) task deals with methods that detect the temporal onset and offset of sound events when active, classify the type of the event from a known set of sound classes, and further localize the events in space when active.

The focus of the current SELD task is developing systems that can perform adequately on stereo audio data. There are two tracks: an audio-only track (Track A) for systems using only stereo audio data to estimate the SELD labels, and an audiovisual track (Track B) for systems employing additionally simultaneous perspective video data aligned spatially with the stereo audio data.

The task provides two datasets, development and evaluation. Among the two datasets, only the development dataset provides the reference labels. The participants are expected to build and validate systems using the development dataset, report results on a predefined development set split, and finally test their system on the unseen evaluation dataset.

More details on the task setup and evaluation can be found in the task description page.

Teams ranking

The SELD task received 57 submissions in total from 16 teams across the world. From those, 40 submissions were on the audio-only Track A, and 17 submissions on the audiovisual Track B. 4 teams participated in both Track A & B, 10 teams participated only in Track A and 2 teams participated only in Track B.

The following table includes only the best performing system per submitting team. Confidence intervals are also reported for each metric on the evaluation set results.

Track A: Audio-only

Rank	Submission Information				Evaluation Dataset
Rank	Submission name	Corresponding author	Affiliation	Technical Report	Team Rank	F-score (20°/1)	DOA error (°)	Relative distance error
	Du_NERCSLIP_task3a_4	Jun Du	University of Science and Technology of China	Du_NERCSLIP_task3_report	1	50.4 (49.2 - 51.4)	12.2 (11.7 - 12.5)	26.9 (25.9 - 28.1)
	He_HIT_task3a_1	Changjiang He	Harbin Institute of Technology	He_HIT_task3a_report	2	47.0 (45.6 - 48.2)	13.3 (12.6 - 13.9)	38.6 (37.5 - 39.9)
	Banerjee_NTU_task3a_1	Mohor Banerjee	Nanyang Technological University	Banerjee_NTU_task3a_report	3	43.9 (42.5 - 45.5)	14.0 (13.2 - 14.7)	35.2 (33.6 - 36.5)
	Berghi_SURREY_task3a_2	Davide Berghi	University of Surrey	Berghi_SURREY_task3_report	4	42.5 (41.4 - 43.8)	15.4 (14.5 - 16.2)	31.4 (30.5 - 32.4)
	Wu_HUST_task3a_2	Digao Wu	Huazhong University of Science and Technology	Wu_HUST_task3a_report	5	41.8 (40.4 - 43.3)	15.3 (14.6 - 16.0)	29.3 (28.2 - 30.4)
	Yeow_NTU_task3a_3	Jun Wei Yeow	Nanyang Technological University	Yeow_NTU_task3a_report	6	41.3 (40.0 - 42.7)	14.5 (13.3 - 15.6)	28.0 (26.9 - 28.9)
	Wan_XJU_task3a_1	QingJing Wan	Xinjiang University	Wan_XJU_task3a_report	7	35.4 (34.3 - 36.7)	18.6 (17.4 - 19.4)	34.9 (33.1 - 36.9)
	Zhao_MITC-MG_task3a_3	Tianbo Zhao	Xiaomi Corporation	Zhao_MITC-MG_task3a_report	8	34.0 (33.1 - 34.7)	16.8 (15.1 - 18.4)	36.6 (35.7 - 37.3)
	Gao_DTU_task3a_1	Wenmiao Gao	Denmark Technical University	Gao_DTU_task3a_report	9	31.0 (30.2 - 31.8)	17.4 (13.6 - 18.6)	40.1 (35.9 - 41.5)
	Park_KAIST_task3a_2	Jehyun Park	Korea Advanced Institute of Science and Technology	Park_KAIST_task3a_report	10	30.3 (29.5 - 31.1)	14.6 (13.6 - 17.5)	32.4 (26.9 - 43.2)
	Bahuguna_UPF_task3a_3	Arjun Bahuguna	Universitat Pompeu Fabra	Bahuguna_UPF_task3a_report	11	28.8 (27.7 - 29.7)	21.2 (16.8 - 26.9)	100.0 (100.0 - 100.0)
	Bingnan_UOE_task3a_1	Duan Bingnan	The University of Edinburgh	Bingnan_UOE_task3a_report	12	26.9 (26.1 - 27.9)	24.6 (21.4 - 32.8)	37.9 (31.6 - 54.4)
	AO_Baseline	Parthasaarathy Sudarsanam	Tampere University	Baseline_report	13	26.1 (25.0 - 27.6)	23.0 (21.5 - 24.1)	33.2 (30.8 - 37.3)
	Guan_GISP-HEU_task3a_1	Jian Guan	Harbin Engineering University	Guan_GISP-HEU_task3_report	14	25.1 (24.0 - 26.1)	24.7 (22.1 - 27.9)	35.6 (34.7 - 36.2)
	Kim_Samsung_task3a_1	Gwantae Kim	Samsung Electronics	Kim_Samsung_task3_report	15	24.6 (23.7 - 25.5)	18.2 (13.2 - 25.9)	33.7 (32.4 - 35.1)

Track B: Audiovisual

Rank	Submission Information				Evaluation Dataset
Rank	Submission name	Corresponding author	Affiliation	Technical Report	Team Rank	F-score (20°/1/on)	F-score (20°/1)	DOA error (°)	Relative distance error	Onscreen accuracy
	Du_NERCSLIP_task3b_1	Jun Du	University of Science and Technology of China	Du_NERCSLIP_task3_report	1	41.6 (40.3 - 42.6)	50.1 (48.8 - 51.1)	12.2 (11.7 - 12.5)	27.0 (26.0 - 28.1)	82.2 (80.0 - 84.5)
	Berghi_SURREY_task3b_3	Davide Berghi	University of Surrey	Berghi_SURREY_task3_report	2	34.8 (33.7 - 35.9)	46.2 (44.9 - 47.9)	14.1 (13.5 - 14.4)	30.4 (29.0 - 31.5)	76.9 (73.5 - 80.0)
	Chengnuo_JSU_task3b_4	Sun Chengnuo	Jiangsu University	Chengnuo_JSU_task3b_report	3	20.8 (19.9 - 21.7)	27.5 (26.7 - 28.3)	22.2 (20.9 - 23.4)	37.7 (35.7 - 40.1)	77.8 (74.0 - 81.3)
	AV_Baseline	Parthasaarathy Sudarsanam	Tampere University	Baseline_report	4	20.8 (19.9 - 21.7)	27.5 (26.7 - 28.3)	22.2 (20.9 - 23.4)	37.7 (35.7 - 40.1)	77.8 (74.0 - 81.3)
	Guan_GISP-HEU_task3b_3	Jian Guan	Harbin Engineering University	Guan_GISP-HEU_task3_report	5	18.2 (17.7 - 18.7)	24.7 (23.9 - 25.5)	24.0 (20.2 - 27.1)	38.2 (31.3 - 46.1)	76.1 (68.0 - 84.8)
	Yu_Polyu_task3b_1	Xiang Yu	The Hong Kong Polytechnic University	Yu_Polyu_task3b_report	6	18.1 (17.2 - 19.1)	24.8 (24.0 - 25.8)	18.1 (17.2 - 19.0)	34.0 (31.6 - 35.8)	79.8 (77.3 - 82.3)
	Kim_Samsung_task3b_1	Gwantae Kim	Samsung Electronics	Kim_Samsung_task3_report	7	18.0 (17.0 - 18.9)	24.5 (23.6 - 25.4)	20.9 (14.8 - 38.0)	34.0 (31.2 - 42.8)	78.4 (76.0 - 82.8)

Systems ranking

Performance of all the submitted systems on the evaluation and the development datasets. Confidence intervals are also reported for each metric on the evaluation set results.

Track A: Audio-only

Rank	Submission Information		Evaluation Dataset				Development Dataset
Rank	Submission name	Technical Report	Submission Rank	F-score (20°/1)	DOA error (°)	Relative distance error	F-score (20°/1)	DOA error (°)	Relative distance error
	Du_NERCSLIP_task3a_4	Du_NERCSLIP_task3_report	1	50.4 (49.2 - 51.4)	12.2 (11.7 - 12.5)	26.9 (25.9 - 28.1)	54.3	11.8	26.0
	Du_NERCSLIP_task3a_3	Du_NERCSLIP_task3_report	2	49.6 (48.5 - 50.4)	12.4 (11.9 - 12.8)	26.9 (25.9 - 28.0)	54.0	12.0	25.9
	Du_NERCSLIP_task3a_2	Du_NERCSLIP_task3_report	3	49.2 (48.0 - 50.2)	12.4 (12.0 - 12.8)	27.4 (26.4 - 28.6)	53.1	12.1	25.9
	He_HIT_task3a_1	He_HIT_task3a_report	4	47.0 (45.6 - 48.2)	13.3 (12.6 - 13.9)	38.6 (37.5 - 39.9)	50.0	13.1	36.0
	Du_NERCSLIP_task3a_1	Du_NERCSLIP_task3_report	5	46.6 (45.1 - 47.7)	12.3 (11.8 - 12.8)	29.8 (28.6 - 31.1)	50.1	12.5	26.5
	He_HIT_task3a_2	He_HIT_task3a_report	6	45.4 (44.4 - 46.3)	13.6 (12.9 - 14.2)	30.4 (29.4 - 31.8)	48.8	13.4	32.0
	He_HIT_task3a_3	He_HIT_task3a_report	7	45.3 (43.9 - 46.3)	12.8 (12.2 - 13.3)	31.3 (29.8 - 32.9)	51.3	12.5	33.0
	He_HIT_task3a_4	He_HIT_task3a_report	8	44.3 (43.0 - 45.6)	13.5 (13.0 - 13.9)	29.8 (28.8 - 31.0)	47.8	13.0	30.0
	Banerjee_NTU_task3a_1	Banerjee_NTU_task3a_report	9	43.9 (42.5 - 45.5)	14.0 (13.2 - 14.7)	35.2 (33.6 - 36.5)	48.2	13.3	36.0
	Banerjee_NTU_task3a_2	Banerjee_NTU_task3a_report	10	43.7 (42.3 - 45.0)	14.1 (13.0 - 15.2)	36.5 (34.3 - 38.4)	47.5	13.7	36.0
	Berghi_SURREY_task3a_2	Berghi_SURREY_task3_report	11	42.5 (41.4 - 43.8)	15.4 (14.5 - 16.2)	31.4 (30.5 - 32.4)	46.0	15.2	30.8
	Wu_HUST_task3a_2	Wu_HUST_task3a_report	12	41.8 (40.4 - 43.3)	15.3 (14.6 - 16.0)	29.3 (28.2 - 30.4)	42.5	15.0	30.0
	Yeow_NTU_task3a_3	Yeow_NTU_task3a_report	13	41.3 (40.0 - 42.7)	14.5 (13.3 - 15.6)	28.0 (26.9 - 28.9)	45.3	13.2	26.2
	Yeow_NTU_task3a_4	Yeow_NTU_task3a_report	14	40.9 (39.3 - 42.4)	13.9 (12.9 - 14.7)	28.7 (27.8 - 29.7)	43.1	12.7	25.9
	Wu_HUST_task3a_1	Wu_HUST_task3a_report	15	40.8 (39.3 - 42.3)	14.9 (14.1 - 15.7)	29.2 (28.0 - 30.3)	41.3	14.9	30.0
	Yeow_NTU_task3a_1	Yeow_NTU_task3a_report	16	40.5 (39.3 - 42.0)	14.1 (13.3 - 14.7)	28.4 (27.0 - 29.7)	44.0	13.2	27.1
	Yeow_NTU_task3a_2	Yeow_NTU_task3a_report	17	39.8 (38.3 - 41.1)	13.9 (13.1 - 14.7)	28.4 (27.0 - 29.8)	43.4	13.2	26.1
	Wu_HUST_task3a_4	Wu_HUST_task3a_report	18	39.8 (38.9 - 40.9)	16.3 (15.5 - 16.9)	28.3 (27.3 - 29.1)	42.7	16.3	27.0
	Wu_HUST_task3a_3	Wu_HUST_task3a_report	19	39.5 (38.5 - 40.7)	15.8 (15.0 - 16.4)	28.3 (27.3 - 29.2)	41.7	16.1	27.0
	Wan_XJU_task3a_1	Wan_XJU_task3a_report	20	35.4 (34.3 - 36.7)	18.6 (17.4 - 19.4)	34.9 (33.1 - 36.9)	37.1	18.3	30.0
	Zhao_MITC-MG_task3a_3	Zhao_MITC-MG_task3a_report	21	34.0 (33.1 - 34.7)	16.8 (15.1 - 18.4)	36.6 (35.7 - 37.3)	37.0	16.9	39.0
	Zhao_MITC-MG_task3a_4	Zhao_MITC-MG_task3a_report	22	32.6 (31.8 - 33.6)	18.8 (16.7 - 20.8)	38.1 (37.1 - 39.1)	35.1	18.0	37.0
	Gao_DTU_task3a_1	Gao_DTU_task3a_report	23	31.0 (30.2 - 31.8)	17.4 (13.6 - 18.6)	40.1 (35.9 - 41.5)	39.6	15.8	33.0
	Gao_DTU_task3a_3	Gao_DTU_task3a_report	24	30.4 (29.5 - 31.2)	18.8 (16.5 - 20.1)	36.4 (34.2 - 38.0)	38.2	15.9	33.0
	Park_KAIST_task3a_2	Park_KAIST_task3a_report	25	30.3 (29.5 - 31.1)	14.6 (13.6 - 17.5)	32.4 (26.9 - 43.2)	36.3	14.5	28.0
	Gao_DTU_task3a_4	Gao_DTU_task3a_report	26	29.9 (29.3 - 30.7)	20.8 (19.2 - 22.3)	36.7 (35.5 - 37.9)	35.1	16.5	30.0
	Berghi_SURREY_task3a_1	Berghi_SURREY_task3_report	27	29.4 (28.4 - 30.5)	20.1 (17.6 - 22.4)	34.9 (31.5 - 37.7)	45.7	15.0	31.0
	Bahuguna_UPF_task3a_3	Bahuguna_UPF_task3a_report	28	28.8 (27.7 - 29.7)	21.2 (16.8 - 26.9)	100.0 (100.0 - 100.0)	28.4	20.3	100.0
	Park_KAIST_task3a_1	Park_KAIST_task3a_report	29	28.5 (27.5 - 29.3)	13.2 (9.7 - 14.6)	28.5 (26.2 - 30.4)	35.3	15.5	30.0
	Gao_DTU_task3a_2	Gao_DTU_task3a_report	30	28.2 (27.4 - 29.1)	19.8 (17.3 - 21.8)	39.0 (33.2 - 43.5)	36.2	16.6	33.0
	Bahuguna_UPF_task3a_1	Bahuguna_UPF_task3a_report	31	27.4 (26.8 - 28.4)	22.3 (20.1 - 24.1)	35.1 (34.1 - 36.4)	26.6	20.4	36.0
	Bingnan_UOE_task3a_1	Bingnan_UOE_task3a_report	32	26.9 (26.1 - 27.9)	24.6 (21.4 - 32.8)	37.9 (31.6 - 54.4)	29.0	19.3	30.0
	Bahuguna_UPF_task3a_4	Bahuguna_UPF_task3a_report	33	26.8 (26.0 - 27.9)	22.2 (20.5 - 23.6)	37.0 (36.2 - 37.9)	24.8	20.6	34.0
	Bahuguna_UPF_task3a_2	Bahuguna_UPF_task3a_report	34	26.4 (25.6 - 27.4)	22.1 (20.0 - 24.4)	36.6 (35.2 - 38.1)	28.0	17.3	43.0
	AO_Baseline	Baseline_report	35	26.1 (25.0 - 27.6)	23.0 (21.5 - 24.1)	33.2 (30.8 - 37.3)	22.8	24.5	41.0
	Guan_GISP-HEU_task3a_1	Guan_GISP-HEU_task3_report	36	25.1 (24.0 - 26.1)	24.7 (22.1 - 27.9)	35.6 (34.7 - 36.2)	22.9	23.5	32.0
	Kim_Samsung_task3a_1	Kim_Samsung_task3_report	37	24.6 (23.7 - 25.5)	18.2 (13.2 - 25.9)	33.7 (32.4 - 35.1)	28.8	18.1	34.0
	Guan_GISP-HEU_task3a_2	Guan_GISP-HEU_task3_report	38	23.8 (22.8 - 25.2)	27.3 (26.0 - 28.4)	37.2 (33.4 - 40.7)	21.9	28.2	44.0
	Guan_GISP-HEU_task3a_3	Guan_GISP-HEU_task3_report	39	22.9 (22.0 - 23.9)	25.1 (22.4 - 27.2)	36.8 (34.1 - 40.1)	25.3	23.0	45.0
	Zhao_MITC-MG_task3a_1	Zhao_MITC-MG_task3a_report	40	11.6 (11.4 - 11.7)	20.5 (18.6 - 22.8)	38.0 (36.7 - 39.0)	35.2	17.4	38.0
	Zhao_MITC-MG_task3a_2	Zhao_MITC-MG_task3a_report	41	11.2 (11.0 - 11.3)	22.3 (20.1 - 24.6)	38.9 (37.9 - 39.8)	36.3	17.2	37.0

Track B: Audiovisual

Rank	Submission Information		Evaluation Dataset						Development Dataset
Rank	Submission name	Technical Report	Submission Rank	F-score (20°/1/on)	F-score (20°/1)	DOA error (°)	Relative distance error	Onscreen accuracy	F-score (20°/1/on)	F-score (20°/1)	DOA error (°)	Relative distance error	Onscreen accuracy
	Du_NERCSLIP_task3b_1	Du_NERCSLIP_task3_report	1	41.6 (40.3 - 42.6)	50.1 (48.8 - 51.1)	12.2 (11.7 - 12.5)	27.0 (26.0 - 28.1)	82.2 (80.0 - 84.5)	46.9	54.1	11.9	26.0	86.0
	Du_NERCSLIP_task3b_4	Du_NERCSLIP_task3_report	2	41.4 (40.0 - 42.4)	50.1 (48.6 - 51.0)	12.2 (11.8 - 12.6)	26.9 (25.9 - 28.0)	81.9 (79.7 - 84.2)	47.0	54.2	12.0	25.9	85.6
	Du_NERCSLIP_task3b_3	Du_NERCSLIP_task3_report	3	41.2 (39.8 - 42.1)	49.8 (48.3 - 50.8)	11.9 (11.5 - 12.3)	26.6 (25.6 - 27.7)	82.0 (79.8 - 84.3)	47.3	54.6	11.8	26.1	85.8
	Du_NERCSLIP_task3b_2	Du_NERCSLIP_task3_report	4	41.0 (39.6 - 41.9)	49.6 (48.1 - 50.5)	11.8 (11.4 - 12.2)	26.9 (25.8 - 28.0)	82.1 (79.9 - 84.3)	46.9	54.2	11.9	25.4	85.9
	Berghi_SURREY_task3b_3	Berghi_SURREY_task3_report	5	34.8 (33.7 - 35.9)	46.2 (44.9 - 47.9)	14.1 (13.5 - 14.4)	30.4 (29.0 - 31.5)	76.9 (73.5 - 80.0)	37.3	48.0	14.0	29.3	80.8
	Berghi_SURREY_task3b_4	Berghi_SURREY_task3_report	6	34.8 (33.5 - 36.0)	46.2 (44.9 - 47.9)	14.1 (13.5 - 14.4)	30.4 (29.0 - 31.5)	76.3 (72.5 - 79.8)	37.5	48.0	14.0	29.3	80.8
	Berghi_SURREY_task3b_1	Berghi_SURREY_task3_report	7	33.6 (32.3 - 34.8)	45.1 (43.7 - 46.6)	14.8 (14.0 - 15.3)	32.3 (29.9 - 34.5)	75.3 (71.6 - 78.6)	34.4	44.4	15.6	30.4	80.5
	Berghi_SURREY_task3b_2	Berghi_SURREY_task3_report	8	33.3 (32.0 - 34.7)	43.5 (42.0 - 45.5)	15.0 (14.3 - 15.5)	31.9 (30.6 - 33.3)	77.7 (73.7 - 81.2)	35.8	45.5	15.2	32.2	81.0
	Chengnuo_JSU_task3b_4	Chengnuo_JSU_task3b_report	9	20.8 (19.9 - 21.7)	27.5 (26.7 - 28.3)	22.2 (20.9 - 23.4)	37.7 (35.7 - 40.1)	77.8 (74.0 - 81.3)	18.8	26.8	20.1	34.0	80.0
	AV_Baseline	Baseline_report	10	20.8 (19.9 - 21.7)	27.5 (26.7 - 28.3)	22.2 (20.9 - 23.4)	37.7 (35.7 - 40.1)	77.8 (74.0 - 81.3)	20.0	26.8	23.8	40.0	80.0
	Guan_GISP-HEU_task3b_3	Guan_GISP-HEU_task3_report	11	18.2 (17.7 - 18.7)	24.7 (23.9 - 25.5)	24.0 (20.2 - 27.1)	38.2 (31.3 - 46.1)	76.1 (68.0 - 84.8)	17.9	23.7	25.8	37.0	81.0
	Chengnuo_JSU_task3b_1	Chengnuo_JSU_task3b_report	12	18.1 (17.2 - 18.8)	23.8 (23.0 - 24.6)	24.4 (20.6 - 29.7)	38.7 (37.0 - 40.1)	74.7 (68.2 - 78.7)	23.1	26.8	20.1	34.0	80.5
	Yu_Polyu_task3b_1	Yu_Polyu_task3b_report	13	18.1 (17.2 - 19.1)	24.8 (24.0 - 25.8)	18.1 (17.2 - 19.0)	34.0 (31.6 - 35.8)	79.8 (77.3 - 82.3)	24.1	32.4	18.1	32.9	81.4
	Kim_Samsung_task3b_1	Kim_Samsung_task3_report	14	18.0 (17.0 - 18.9)	24.5 (23.6 - 25.4)	20.9 (14.8 - 38.0)	34.0 (31.2 - 42.8)	78.4 (76.0 - 82.8)		26.1	19.6	30.0	74.0
	Chengnuo_JSU_task3b_2	Chengnuo_JSU_task3b_report	15	17.9 (16.9 - 18.8)	23.7 (22.8 - 24.6)	23.2 (21.9 - 25.0)	39.1 (37.5 - 40.6)	79.1 (75.9 - 81.9)	22.7	26.8	20.1	34.0	80.5
	Guan_GISP-HEU_task3b_2	Guan_GISP-HEU_task3_report	16	17.1 (16.1 - 18.3)	22.7 (21.6 - 23.8)	24.5 (20.6 - 27.6)	42.4 (39.3 - 46.9)	78.0 (74.6 - 81.6)	19.6	26.4	22.3	46.0	80.0
	Chengnuo_JSU_task3b_3	Chengnuo_JSU_task3b_report	17	15.8 (15.1 - 16.5)	21.1 (20.1 - 22.0)	24.5 (22.3 - 27.4)	47.2 (46.2 - 48.5)	74.5 (70.4 - 77.8)	20.5	26.8	20.1	34.0	80.0
	Guan_GISP-HEU_task3b_1	Guan_GISP-HEU_task3_report	18	15.5 (14.9 - 16.2)	22.0 (21.1 - 23.2)	26.8 (24.3 - 28.7)	46.0 (43.6 - 48.4)	78.4 (75.4 - 81.1)	16.6	23.6	25.8	48.0	80.0

System characteristics

Track A: Audio-only

Rank	Submission name	Technical Report	Model	Model params	Acoustic features	Data augmentation	External datasets	Pre-trained models
1	Du_NERCSLIP_task3a_4	Du_NERCSLIP_task3_report	ResNet, Conformer, ensemble	58472848	log mel spectra	Audio Channel Swapping, Multi-channel data simulation, Mixup	AudioSet
2	Du_NERCSLIP_task3a_3	Du_NERCSLIP_task3_report	ResNet, Conformer, ensemble	46792105	log mel spectra	Audio Channel Swapping, Multi-channel data simulation, Mixup	AudioSet
3	Du_NERCSLIP_task3a_2	Du_NERCSLIP_task3_report	ResNet, Conformer, ensemble	35111362	log mel spectra	Audio Channel Swapping, Multi-channel data simulation, Mixup	AudioSet
4	He_HIT_task3a_1	He_HIT_task3a_report	ResNet, Conformer, ensemble	104852705	log mel spectra	Audio Channel Swapping, audio generation, synthetic audio	FSD50K, TAU-SRIR DB
5	Du_NERCSLIP_task3a_1	Du_NERCSLIP_task3_report	ResNet, Conformer, ensemble	23430619	log mel spectra	Audio Channel Swapping, Multi-channel data simulation, Mixup	AudioSet
6	He_HIT_task3a_2	He_HIT_task3a_report	ResNet, Conformer, ensemble	104852705	log mel spectra	Audio Channel Swapping, audio generation, synthetic audio	FSD50K, TAU-SRIR DB
7	He_HIT_task3a_3	He_HIT_task3a_report	ResNet, Conformer, ensemble	104854001	log mel spectra, intensity vector	Audio Channel Swapping, audio generation, synthetic audio	FSD50K, TAU-SRIR DB
8	He_HIT_task3a_4	He_HIT_task3a_report	ResNet, Conformer	52388101	log mel spectra	Audio Channel Swapping, audio generation, synthetic audio	FSD50K, TAU-SRIR DB
9	Banerjee_NTU_task3a_1	Banerjee_NTU_task3a_report	ResNet, Conformer, ONE-PEACE embedding, ensemble	26337755	log mel spectra, GCC-PHAT, inter-channel level difference, Sine of Interaural Phase Difference, Cosine of Interaural Phase Difference		FSD50K, TAU-SRIR DB	ONE-PEACE
10	Banerjee_NTU_task3a_2	Banerjee_NTU_task3a_report	ResNet, Conformer, ONE-PEACE embedding, ensemble	26337755	log mel spectra, GCC-PHAT, inter-channel level difference, Sine of Interaural Phase Difference, Cosine of Interaural Phase Difference	Audio Channel Swapping	FSD50K, TAU-SRIR DB	ONE-PEACE
11	Berghi_SURREY_task3a_2	Berghi_SURREY_task3_report	CNN, Conformer, Cross-Modal Conformer	30959349	log mel spectra, inter-channel level difference, short-term power of ACC	Audio Channel Swapping	FSD50K, RIR datasets, SpatialScaper	CLAP
12	Wu_HUST_task3a_2	Wu_HUST_task3a_report	CNN, Conformer, AFF	11785511	log mel spectra	frequency shifting, SpecAugment, random cutout, augmix, data simulation	FSD50K, TAU-SRIR DB
13	Yeow_NTU_task3a_3	Yeow_NTU_task3a_report	CRNN	4000000	log mel spectra, Mid-Side spectrogram, Mid-Side Intensity Vector	frequency shifting, FilterAugment	SpatialScaper
14	Yeow_NTU_task3a_4	Yeow_NTU_task3a_report	CRNN	4000000	log mel spectra, Mid-Side spectrogram, Mid-Side Intensity Vector, Magnitude-Squared Coherence	FilterAugment, frequency shifting	SpatialScaper
15	Wu_HUST_task3a_1	Wu_HUST_task3a_report	CNN, Conformer, AFF	11785511	log mel spectra	frequency shifting, SpecAugment, random cutout, augmix, data simulation	FSD50K, TAU-SRIR DB
16	Yeow_NTU_task3a_1	Yeow_NTU_task3a_report	CRNN	4000000	log mel spectra, Mid-Side spectrogram, Mid-Side Intensity Vector	Inter-Channel Aware Time-Frequemcy Masking	SpatialScaper
17	Yeow_NTU_task3a_2	Yeow_NTU_task3a_report	CRNN	4000000	log mel spectra, Mid-Side spectrogram, Mid-Side Intensity Vector, Magnitude-Squared Coherence	Inter-Channel Aware Time-Frequemcy Masking	SpatialScaper
18	Wu_HUST_task3a_4	Wu_HUST_task3a_report	CNN, Conformer, AFF	11785511	log mel spectra	frequency shifting, SpecAugment, random cutout, augmix, data simulation	FSD50K, TAU-SRIR DB
19	Wu_HUST_task3a_3	Wu_HUST_task3a_report	CNN, Conformer, AFF	11785511	log mel spectra	frequency shifting, SpecAugment, random cutout, augmix, data simulation	FSD50K, TAU-SRIR DB
20	Wan_XJU_task3a_1	Wan_XJU_task3a_report	CNN,Conformer,	4011000	log mel spectra	frequency shifting	SpatialScaper
21	Zhao_MITC-MG_task3a_3	Zhao_MITC-MG_task3a_report	ResNet,Conformer	3656167	log mel spectra	Gain,PolarityInversion,SevenBandParametricEQ,Time Masking,Reverb	FSD50K, FMA	dasheng_base
22	Zhao_MITC-MG_task3a_4	Zhao_MITC-MG_task3a_report	ResNet,Conformer	3656167	log mel spectra	Gain,PolarityInversion,SevenBandParametricEQ,Time Masking,Reverb	FSD50K, FMA, STARSS23	dasheng_base
23	Gao_DTU_task3a_1	Gao_DTU_task3a_report	CRNN, CNN, Mamba, Conformer, asymmetric CNN	76083414	log mel spectra, intensity vector	Audio Channel Swapping		PSELDnet
24	Gao_DTU_task3a_3	Gao_DTU_task3a_report	CRNN, CNN, Conformer	210078389	log mel spectra, intensity vector	Audio Channel Swapping		PSELDnet
25	Park_KAIST_task3a_2	Park_KAIST_task3a_report	ResNet, Conformer, ensemble	28100981	log mel spectra	Audio Channel Swapping, FilterAugment
26	Gao_DTU_task3a_4	Gao_DTU_task3a_report	Transformer, Swin Transformer	28083725	log mel spectra, intensity vector	Audio Channel Swapping		PSELDnet
27	Berghi_SURREY_task3a_1	Berghi_SURREY_task3_report	CNN, Conformer, Cross-Modal Conformer	30959349	log mel spectra, inter-channel level difference, short-term power of ACC	Audio Channel Swapping	FSD50K, RIR datasets, SpatialScaper	CLAP
28	Bahuguna_UPF_task3a_3	Bahuguna_UPF_task3a_report	Conformer	1856247	log mel spectra		FSD50K, TAU-SRIR DB
29	Park_KAIST_task3a_1	Park_KAIST_task3a_report	ResNet, Conformer	14085057	log mel spectra	Audio Channel Swapping, FilterAugment		self-trained SED+DOA model
30	Gao_DTU_task3a_2	Gao_DTU_task3a_report	CRNN, CNN, Mamba, Conformer	178113205	log mel spectra, intensity vector	Audio Channel Swapping		PSELDnet
31	Bahuguna_UPF_task3a_1	Bahuguna_UPF_task3a_report	ensemble, Conformer	3732618	log mel spectra	Spatial Scaper for rare class augmentation	FSD50K, TAU-SRIR DB
32	Bingnan_UOE_task3a_1	Bingnan_UOE_task3a_report	ResNet, MHSA	1350197	log mel spectra, short-term power of ACC	Time Masking, Frame Shuffle
33	Bahuguna_UPF_task3a_4	Bahuguna_UPF_task3a_report	Conformer	1866309	log mel spectra		FSD50K, TAU-SRIR DB
34	Bahuguna_UPF_task3a_2	Bahuguna_UPF_task3a_report	ensemble, Conformer	5588865	log mel spectra	Spatial Scaper for rare class augmentation	FSD50K, TAU-SRIR DB
35	AO_Baseline	Baseline_report	CRNN, MHSA	734261	log mel spectra
36	Guan_GISP-HEU_task3a_1	Guan_GISP-HEU_task3_report	CRNN, MHSA	1728181	log mel spectra		FSD50K, TAU-SRIR DB
37	Kim_Samsung_task3a_1	Kim_Samsung_task3_report	ViT, ensemble	291473710	log mel spectra	Specmix	FSD50K, TAU-SRIR DB
38	Guan_GISP-HEU_task3a_2	Guan_GISP-HEU_task3_report	CRNN, MHSA	1728181	log mel spectra		FSD50K, TAU-SRIR DB
39	Guan_GISP-HEU_task3a_3	Guan_GISP-HEU_task3_report	CRNN, MHSA	1728181	log mel spectra	SpecAugment	FSD50K, TAU-SRIR DB
40	Zhao_MITC-MG_task3a_1	Zhao_MITC-MG_task3a_report	ResNet,Conformer	3656167	log mel spectra	Gain,PolarityInversion,SevenBandParametricEQ,Time Masking,Reverb	FSD50K, FMA	dasheng_base
41	Zhao_MITC-MG_task3a_2	Zhao_MITC-MG_task3a_report	ResNet,Conformer	3656167	log mel spectra	Gain,PolarityInversion,SevenBandParametricEQ,Time Masking,Reverb	FSD50K, FMA	dasheng_base

Track B: Audiovisual

Rank	Submission name	Technical Report	Model	Model params	Acoustic features	Visual features	Data augmentation	External datasets	Pre-trained models
1	Du_NERCSLIP_task3b_1	Du_NERCSLIP_task3_report	ResNet, Conformer, ensemble	58484930	log mel spectra	ResNet-50 features, video object detection, video human keypoints detection	Audio Channel and Video Pixel Swapping, Multi-channel data simulation, Mixup	AudioSet	ResNet-50, ppyoloe, grounding dino
2	Du_NERCSLIP_task3b_4	Du_NERCSLIP_task3_report	ResNet, Conformer, ensemble	67264873	log mel spectra	ResNet-50 features, video object detection, video human keypoints detection	Audio Channel and Video Pixel Swapping, Multi-channel data simulation, Mixup	AudioSet	ResNet-50, ppyoloe, grounding dino
3	Du_NERCSLIP_task3b_3	Du_NERCSLIP_task3_report	ResNet, Conformer, ensemble	99415144	log mel spectra	ResNet-50 features, video object detection, video human keypoints detection	Audio Channel and Video Pixel Swapping, Multi-channel data simulation, Mixup	AudioSet	ResNet-50, ppyoloe, grounding dino
4	Du_NERCSLIP_task3b_2	Du_NERCSLIP_task3_report	ResNet, Conformer, ensemble	67268214	log mel spectra	ResNet-50 features, video object detection, video human keypoints detection	Audio Channel and Video Pixel Swapping, Multi-channel data simulation, Mixup	AudioSet	ResNet-50, ppyoloe, grounding dino
5	Berghi_SURREY_task3b_3	Berghi_SURREY_task3_report	CNN, Conformer, Cross-Modal Conformer, ViT, ensemble	134694434	log mel spectra, inter-channel level difference, short-term power of ACC	OWL-ViT features	Audio Channel and Video Pixel Swapping, frame flip	FSD50K, RIR datasets, SpatialScaper, SELDVisualSynth Canvas and Assets, Flickr30k, DoorDetect Dataset, 360-Indoor	CLAP, OWL-ViT
6	Berghi_SURREY_task3b_4	Berghi_SURREY_task3_report	CNN, Conformer, Cross-Modal Conformer, ViT, ensemble	134694434	log mel spectra, inter-channel level difference, short-term power of ACC	OWL-ViT features	Audio Channel and Video Pixel Swapping, frame flip	FSD50K, RIR datasets, SpatialScaper, SELDVisualSynth Canvas and Assets, Flickr30k, DoorDetect Dataset, 360-Indoor	CLAP, OWL-ViT
7	Berghi_SURREY_task3b_1	Berghi_SURREY_task3_report	CNN, Conformer, Cross-Modal Conformer, ViT	36387868	log mel spectra, inter-channel level difference, short-term power of ACC	OWL-ViT features	Audio Channel and Video Pixel Swapping, frame flip	FSD50K, RIR datasets, SpatialScaper, SELDVisualSynth Canvas and Assets, Flickr30k, DoorDetect Dataset, 360-Indoor	CLAP, OWL-ViT
8	Berghi_SURREY_task3b_2	Berghi_SURREY_task3_report	CNN, Conformer, Cross-Modal Conformer, ViT	36387868	log mel spectra, inter-channel level difference, short-term power of ACC	OWL-ViT features	Audio Channel and Video Pixel Swapping, frame flip	FSD50K, RIR datasets, SpatialScaper, SELDVisualSynth Canvas and Assets, Flickr30k, DoorDetect Dataset, 360-Indoor	CLAP, OWL-ViT
9	Chengnuo_JSU_task3b_4	Chengnuo_JSU_task3b_report	MLP, MHSA,CNN	2896093	log mel spectra	ResNet-50 features			ResNet-50
10	AV_Baseline	Baseline_report	CRNN, MHSA	2723676	log mel spectra	ResNet-50 features			ResNet-50
11	Guan_GISP-HEU_task3b_3	Guan_GISP-HEU_task3_report	CRNN, MHSA	3717596	log mel spectra	ResNet-50 features		FSD50K, TAU-SRIR DB, SELDVisualSynth Canvas and Assets, Flickr30k	ResNet-50
12	Chengnuo_JSU_task3b_1	Chengnuo_JSU_task3b_report	MLP, MHSA,CNN	2896093	log mel spectra	ResNet-50 features			ResNet-50
13	Yu_Polyu_task3b_1	Yu_Polyu_task3b_report	Mamba, ResNet	980000	log mel spectra, intensity vector	ResNet-50 features	Multi-channel data simulation	FSD50K, TAU-SRIR DB	ResNet-50
14	Kim_Samsung_task3b_1	Kim_Samsung_task3_report	ViT, ensemble	291473710	log mel spectra	ResNet-50 features	Specmix	FSD50K, TAU-SRIR DB	ResNet-50
15	Chengnuo_JSU_task3b_2	Chengnuo_JSU_task3b_report	MLP, MHSA,CNN	2896093	log mel spectra	ResNet-50 features			ResNet-50
16	Guan_GISP-HEU_task3b_2	Guan_GISP-HEU_task3_report	CRNN, MHSA	2720000	log mel spectra	ResNet-50 features	SpecAugment	FSD50K, TAU-SRIR DB, SELDVisualSynth Canvas and Assets, Flickr30k	ResNet-50
17	Chengnuo_JSU_task3b_3	Chengnuo_JSU_task3b_report	MLP, MHSA,CNN	2896093	log mel spectra	ResNet-50 features			ResNet-50
18	Guan_GISP-HEU_task3b_1	Guan_GISP-HEU_task3_report	CRNN, MHSA	2720000	log mel spectra	ResNet-50 features		FSD50K, TAU-SRIR DB, SELDVisualSynth Canvas and Assets, Flickr30k	ResNet-50

Technical reports

A CONFORMER-BASED ENSEMBLE APPROACH FOR SOUND EVENT LOCALIZATION AND DETECTION FOR STEREO DATA

Arjun Bahuguna¹, Rahul Peter²

¹Universitat Pompeu Fabra, Dept. of Engineering, Barcelona, 08018, Spain, ²Aalto University, Electrical Engineering Dept., Espoo, 20150, Finland

Bahuguna_UPF_task3a_1 Bahuguna_UPF_task3a_2 Bahuguna_UPF_task3a_3 Bahuguna_UPF_task3a_4

PDF Code

A CONFORMER-BASED ENSEMBLE APPROACH FOR SOUND EVENT LOCALIZATION AND DETECTION FOR STEREO DATA

Arjun Bahuguna¹, Rahul Peter²
¹Universitat Pompeu Fabra, Dept. of Engineering, Barcelona, 08018, Spain, ²Aalto University, Electrical Engineering Dept., Espoo, 20150, Finland

Abstract

This report presents our approach to task 3 of the DCASE Challenge 2025, which focuses on the localization and detection of stereo sound events (SELD) in regular video content. We propose a three-part ensemble model that operates in the audio domain and outperforms the official baseline. To address class imbalance in the STARSS23 dataset, we explore synthetic data generation using SpatialScaper and apply data augmentation techniques such as channel-swapping and time-domain remixing. Our proposed system achieves an F-score of 28%, DOA error of 17.3°, and relative distance error of 0.43 on the development data set. We conclude by suggesting possible future enhancements.

Content

Task description

Teams ranking

Track A: Audio-only

Track B: Audiovisual

Systems ranking

Track A: Audio-only

Track B: Audiovisual

System characteristics

Track A: Audio-only

Track B: Audiovisual

Technical reports

A CONFORMER-BASED ENSEMBLE APPROACH FOR SOUND EVENT LOCALIZATION AND DETECTION FOR STEREO DATA

A CONFORMER-BASED ENSEMBLE APPROACH FOR SOUND EVENT LOCALIZATION AND DETECTION FOR STEREO DATA

Abstract

EXPLOITING STEREO SPATIAL PROPERTIES WITH RESNET-CONFORMERS FOR ROBUST EVENT DETECTION AND LOCALIZATION

EXPLOITING STEREO SPATIAL PROPERTIES WITH RESNET-CONFORMERS FOR ROBUST EVENT DETECTION AND LOCALIZATION

Abstract

Stereo Sound Event Localization and Detection with Onscreen/offscreen Classification

Stereo Sound Event Localization and Detection with Onscreen/offscreen Classification

SPATIAL AND SEMANTIC EMBEDDING INTEGRATION FOR STEREO SOUND EVENT LOCALIZATION AND DETECTION IN REGULAR VIDEOS

SPATIAL AND SEMANTIC EMBEDDING INTEGRATION FOR STEREO SOUND EVENT LOCALIZATION AND DETECTION IN REGULAR VIDEOS

Abstract

MULTI-ACCDOA-BASED SELD IN STEREO AUDIO: FEATURE EXTRACTION AND DATA AUGMENTATION STRATEGIES

MULTI-ACCDOA-BASED SELD IN STEREO AUDIO: FEATURE EXTRACTION AND DATA AUGMENTATION STRATEGIES

Abstract

THE SYSTEM FOR DCASE 2025 SOUND EVENT LOCALIZATION AND DETECTION CHALLENGE

THE SYSTEM FOR DCASE 2025 SOUND EVENT LOCALIZATION AND DETECTION CHALLENGE

Abstract

THE NERC-SLIP SYSTEM FOR STEREO SOUND EVENT LOCALIZATION AND DETECTION IN REGULAR VIDEO CONTENT OF DCASE 2025 CHALLENGE

THE NERC-SLIP SYSTEM FOR STEREO SOUND EVENT LOCALIZATION AND DETECTION IN REGULAR VIDEO CONTENT OF DCASE 2025 CHALLENGE

Abstract

STEREO SOUND EVENT LOCALIZATION AND DETECTION BASED ON PSELDNET PRETRAINING AND BIMAMBA SEQUENCE MODELING

STEREO SOUND EVENT LOCALIZATION AND DETECTION BASED ON PSELDNET PRETRAINING AND BIMAMBA SEQUENCE MODELING

Abstract

GISP@HEU'S SUBMISSION TO THE DCASE 2025 CHALLENGE: STEREO SELD TASK

GISP@HEU'S SUBMISSION TO THE DCASE 2025 CHALLENGE: STEREO SELD TASK

Abstract

STEREO SOUND EVENT LOCALIZATION AND DETECTION WITH SOURCE DISTANCE ESTIMATION USING DATA-DRIVEN RESNET-CONFORMER ENSEMBLE

STEREO SOUND EVENT LOCALIZATION AND DETECTION WITH SOURCE DISTANCE ESTIMATION USING DATA-DRIVEN RESNET-CONFORMER ENSEMBLE

Abstract

SOUND EVENT LOCALIZATION AND DETECTION MODEL WITH ATTENTION-BASED NEURAL NETWORKS AND DATA MODELING

SOUND EVENT LOCALIZATION AND DETECTION MODEL WITH ATTENTION-BASED NEURAL NETWORKS AND DATA MODELING

Abstract

ResNet-Conformer for Stereo Sound Event Localization and Distance Estimation in DCASE 2025 task3

ResNet-Conformer for Stereo Sound Event Localization and Distance Estimation in DCASE 2025 task3

Abstract

A MULTI-LEVEL FEATURE EXTRACTION NETWORK FOR SOUND EVENT LOCALIZATION AND DETECTION IN DCASE 2025 TASK 3

A MULTI-LEVEL FEATURE EXTRACTION NETWORK FOR SOUND EVENT LOCALIZATION AND DETECTION IN DCASE 2025 TASK 3

Abstract

A STEREO SOUND EVENT LOCALIZATION AND DETECTION METHOD BASED ON FEATURE FUSION AND TWO-STAGE TRAINING

A STEREO SOUND EVENT LOCALIZATION AND DETECTION METHOD BASED ON FEATURE FUSION AND TWO-STAGE TRAINING

Abstract

IMPROVING STEREO 3D SOUND EVENT LOCALIZATION AND DETECTION: PERCEPTUAL FEATURES, STEREO-SPECIFIC DATA AUGMENTATION, AND DISTANCE NORMALIZATION

IMPROVING STEREO 3D SOUND EVENT LOCALIZATION AND DETECTION: PERCEPTUAL FEATURES, STEREO-SPECIFIC DATA AUGMENTATION, AND DISTANCE NORMALIZATION

Abstract

THE MAMBA-BASED SYSTEM FOR DCASE 2025 SOUND EVENT LOCALIZATION AND DETECTION CHALLENGE

THE MAMBA-BASED SYSTEM FOR DCASE 2025 SOUND EVENT LOCALIZATION AND DETECTION CHALLENGE

Abstract

ENHANCING STEREO SOUND EVENT LOCALIZATION AND DETECTION THROUGH PRETRAINED AUDIO REPRESENTATIONS AND HYBRID ARCHITECTURES

ENHANCING STEREO SOUND EVENT LOCALIZATION AND DETECTION THROUGH PRETRAINED AUDIO REPRESENTATIONS AND HYBRID ARCHITECTURES

Abstract