Task description

The Sound Event Localization and Detection (SELD) task deals with methods that detect the temporal onset and offset of sound events when active, classify the type of the event from a known set of sound classes, and further localize the events in space when active.

The focus of the current SELD task is developing systems that can perform adequately on real sound scene recordings, with a small amount of training data. The task provides two datasets, development and evaluation, recorded in a multiple rooms over two different sites. Among the two datasets, only the development dataset provides the reference labels. The participants are expected to build and validate systems using the development dataset, report results on a predefined development set split, and finally test their system on the unseen evaluation dataset.

More details on the task setup and evaluation can be found in the task description page.

Teams ranking

The SELD task received 63 submissions in total from 19 teams across the world. The following table includes only the best performing system per submitting team. Confidence intervals are also reported for each metric on the evaluation set results.

Rank	Submission Information				Evaluation dataset					Development dataset
Rank	Submission name	Corresponding author	Affiliation	Technical Report	Best official system rank	Error Rate (20°)	F-score (20°)	Localization error (°)	Localization recall	Error Rate (20°)	F-score (20°)	Localization error (°)	Loalization recall
	Du_NERCSLIP_task3_2	Jun Du	University of Science and Technology of China	Du_NERCSLIP_task3_report	1	0.35 (0.30 - 0.41)	58.3 (53.8 - 64.7)	14.6 (12.8 - 16.5)	73.7 (68.7 - 78.2)
	Hu_IACAS_task3_3	Jinbo Hu	Institute of Acoustics, Chinese Academy of Sciences	Hu_IACAS_task3_report	5	0.39 (0.34 - 0.44)	55.8 (51.2 - 61.1)	16.2 (14.6 - 17.8)	72.4 (67.3 - 77.2)	0.53	48.1	17.8	62.6
	Han_KU_task3_4	Sung Won Han	Korea University	Han_KU_task3_report	7	0.37 (0.31 - 0.42)	49.7 (44.4 - 56.6)	16.5 (14.8 - 18.0)	70.7 (65.8 - 76.1)	0.39	59.5	13.0	73.7
	Xie_UESTC_task3_1	Rong Xie	University of Electronic Science and Technology of China	Xie_UESTC_task3_report	11	0.48 (0.41 - 0.55)	48.6 (42.5 - 55.4)	17.6 (16.0 - 19.2)	73.5 (68.0 - 77.6)	0.44	58.0	12.9	68.0
	Bai_JLESS_task3_4	Jisheng Bai	Northwestern Polytechnical University	Bai_JLESS_task3_report	14	0.47 (0.40 - 0.54)	49.3 (41.8 - 57.1)	16.9 (15.0 - 18.9)	67.9 (59.3 - 73.3)	0.48	52.2	16.9	70.7
	Kang_KT_task3_2	Sang-Ick Kang	KT Corporation	Kang_KT_task3_report	17	0.47 (0.40 - 0.53)	45.9 (40.1 - 52.6)	15.8 (13.6 - 18.0)	59.3 (50.3 - 65.1)	0.48	51.3	16.4	67.7
	FOA_Baseline_task3_1	Archontis Politis	Tampere University	Politis_TAU_task3_report	42	0.61 (0.57 - 0.65)	23.7 (18.7 - 29.4)	22.9 (21.0 - 26.0)	51.4 (46.2 - 55.2)	0.71	21.0	29.3	46.0
	Chun_Chosun_task3_3	Chanjun Chun	Chosun University	Chun_Chosun_task3_report	27	0.59 (0.52 - 0.66)	31.0 (25.9 - 36.3)	19.8 (17.3 - 22.6)	50.7 (42.2 - 56.3)	0.59	35.0	33.8	57.0
	Guo_XIAOMI_task3_2	Kaibin Guo	Xiaomi	Guo_XIAOMI_task3_report	33	0.60 (0.53 - 0.67)	28.2 (22.8 - 34.1)	23.8 (21.3 - 26.2)	52.1 (43.4 - 58.1)	0.61	29.0	23.5	49.0
	Scheibler_LINE_task3_1	Robin Scheibler	LINE Corporation	Scheibler_LINE_task3_report	30	0.62 (0.55 - 0.69)	30.4 (25.2 - 36.3)	16.7 (14.0 - 19.5)	49.2 (42.1 - 54.5)	0.50	51.1	16.7	63.4
	Park_SGU_task3_4	Hyung-Min Park	Sogang University	Park_SGU_task3_report	38	0.60 (0.53 - 0.67)	30.6 (25.2 - 36.4)	21.6 (17.8 - 25.1)	45.9 (40.3 - 51.0)	0.62	46.8	25.1	78.2
	Wang_SJTU_task3_2	Yu Wang	Shanghai Jiao Tong University	Wang_SJTU_task3_report	33	0.67 (0.60 - 0.74)	27.0 (19.3 - 33.6)	24.4 (22.0 - 27.1)	60.3 (53.8 - 65.3)	0.46	61.8	11.4	68.4
	FalconPerez_Aalto_task3_2	Ricardo Falcon-Perez	Aalto University	FalconPerez_Aalto_task3_report	52	0.73 (0.67 - 0.79)	21.8 (15.5 - 27.6)	24.4 (21.7 - 27.1)	43.1 (35.7 - 48.7)	0.74	23.0	27.4	45.0
	Kim_KU_task3_2	Gwantae Kim	Korea University	Kim_KU_task3_report	46	0.74 (0.66 - 0.81)	24.1 (19.8 - 28.9)	26.6 (23.4 - 29.8)	55.1 (48.6 - 59.5)	0.66	30.0	22.5	49.0
	Chen_SHU_task3_1	Zhengyu Chen	Shanghai University	Chen_SHU_task3_report	65	1.00 (1.00 - 1.00)	0.3 (0.1 - 0.6)	60.3 (45.4 - 94.0)	4.5 (2.9 - 6.3)	0.71	27.0	26.7	48.0
	Wu_NKU_task3_2	Shichao Wu	Nankai University	Wu_NKU_task3_report	53	0.69 (0.64 - 0.74)	17.9 (14.4 - 21.5)	28.5 (24.5 - 39.7)	44.5 (38.2 - 48.4)	0.63	33.0	22.7	49.0
	Ko_KAIST_task3_2	Byeong-Yun Ko	Korea Advanced Institute of Science and Technology	Ko_KAIST_task3_report	23	0.49 (0.42 - 0.55)	39.9 (33.8 - 46.0)	17.3 (15.3 - 19.3)	54.6 (46.5 - 60.5)	0.55	46.2	16.4	54.6
	Kapka_SRPOL_task3_4	Slawomir Kapka	Samsung Research Poland	Kapka_SRPOL_task3_report	48	0.72 (0.65 - 0.79)	25.5 (21.3 - 30.4)	25.4 (21.7 - 29.3)	49.8 (42.8 - 55.3)
	Zhaoyu_LRVT_task3_1	Zhaoyu Yan	Lenovo Research	Zhaoyu_LRVT_task3_report	60	0.96 (0.88 - 1.00)	11.2 (8.8 - 13.9)	31.0 (28.5 - 33.4)	53.4 (44.4 - 58.9)	0.58	35.0	22.5	42.0
	Xie_XJU_task3_1	Yin Xie	Xinjiang university	Xie_XJU_task3_report	44	0.66 (0.59 - 0.74)	25.5 (19.3 - 32.2)	23.1 (19.9 - 26.4)	53.1 (42.7 - 59.4)	0.66	34.2	22.9	57.7

Systems ranking

Performance of all the submitted systems on the evaluation and the development datasets. Confidence intervals are also reported for each metric on the evaluation set results.

Rank	Submission Information		Evaluation dataset					Development dataset
Rank	Submission name	Technical Report	Official rank	Error Rate (20°)	F-score (20°)	Localization error (°)	Localization recall	Error Rate (20°)	F-score (20°)	Localization error (°)	Localization recall
	FOA_Baseline_task3_1	Politis_TAU_task3_report	42	0.61 (0.57 - 0.65)	23.7 (18.7 - 29.4)	22.9 (21.0 - 26.0)	51.4 (46.2 - 55.2)	0.71	21.0	29.3	46.0
	MIC_Baseline_task3_1	Politis_TAU_task3_report	45	0.61 (0.56 - 0.66)	21.6 (17.6 - 25.8)	25.9 (22.6 - 28.5)	48.1 (36.8 - 54.9)	0.71	21.0	32.2	47.0
	Bai_JLESS_task3_1	Bai_JLESS_task3_report	20	0.48 (0.41 - 0.54)	46.0 (38.0 - 54.0)	16.3 (14.4 - 18.1)	58.8 (48.3 - 65.2)	0.48	52.4	16.1	62.1
	Bai_JLESS_task3_2	Bai_JLESS_task3_report	16	0.49 (0.42 - 0.56)	47.8 (40.2 - 55.3)	16.9 (14.9 - 18.8)	66.6 (56.0 - 72.8)	0.52	50.0	17.1	68.1
	Bai_JLESS_task3_3	Bai_JLESS_task3_report	19	0.46 (0.39 - 0.53)	46.1 (38.3 - 53.8)	16.3 (14.6 - 17.9)	57.8 (46.4 - 64.6)	0.44	54.2	16.0	65.4
	Bai_JLESS_task3_4	Bai_JLESS_task3_report	14	0.47 (0.40 - 0.54)	49.3 (41.8 - 57.1)	16.9 (15.0 - 18.9)	67.9 (59.3 - 73.3)	0.48	52.2	16.9	70.7
	Chun_Chosun_task3_1	Chun_Chosun_task3_report	28	0.59 (0.52 - 0.66)	30.9 (25.9 - 36.2)	19.7 (17.5 - 21.9)	50.2 (42.0 - 55.7)	0.59	35.0	20.7	57.0
	Chun_Chosun_task3_2	Chun_Chosun_task3_report	31	0.60 (0.53 - 0.66)	30.1 (25.7 - 34.8)	20.0 (17.8 - 22.3)	50.2 (41.8 - 55.8)	0.59	34.0	24.8	58.0
	Chun_Chosun_task3_3	Chun_Chosun_task3_report	27	0.59 (0.52 - 0.66)	31.0 (25.9 - 36.3)	19.8 (17.3 - 22.6)	50.7 (42.2 - 56.3)	0.59	35.0	33.8	57.0
	Chun_Chosun_task3_4	Chun_Chosun_task3_report	29	0.60 (0.53 - 0.67)	30.4 (25.2 - 36.0)	20.2 (17.0 - 22.6)	50.5 (42.4 - 56.0)	0.59	34.0	23.0	59.0
	Guo_XIAOMI_task3_1	Guo_XIAOMI_task3_report	47	0.63 (0.57 - 0.69)	20.2 (16.9 - 24.1)	22.9 (20.7 - 25.2)	45.8 (40.4 - 49.7)	0.63	25.0	23.9	48.0
	Guo_XIAOMI_task3_2	Guo_XIAOMI_task3_report	33	0.60 (0.53 - 0.67)	28.2 (22.8 - 34.1)	23.8 (21.3 - 26.2)	52.1 (43.4 - 58.1)	0.61	29.0	23.5	49.0
	Kang_KT_task3_1	Kang_KT_task3_report	21	0.47 (0.41 - 0.53)	44.3 (38.4 - 50.6)	16.0 (13.8 - 18.2)	57.7 (49.0 - 63.5)	0.49	53.0	15.8	68.0
	Kang_KT_task3_2	Kang_KT_task3_report	17	0.47 (0.40 - 0.53)	45.9 (40.1 - 52.6)	15.8 (13.6 - 18.0)	59.3 (50.3 - 65.1)	0.48	51.3	16.4	67.7
	Kang_KT_task3_3	Kang_KT_task3_report	18	0.46 (0.40 - 0.52)	45.4 (39.4 - 51.5)	15.8 (13.5 - 18.2)	58.4 (50.8 - 63.7)	0.49	52.6	15.8	66.4
	Kang_KT_task3_4	Kang_KT_task3_report	22	0.46 (0.40 - 0.52)	43.7 (38.2 - 49.9)	16.2 (14.0 - 18.5)	56.4 (49.2 - 61.5)	0.48	52.0	16.3	65.3
	Du_NERCSLIP_task3_1	Du_NERCSLIP_task3_report	4	0.37 (0.31 - 0.44)	56.9 (50.9 - 64.5)	15.0 (13.2 - 16.9)	73.6 (68.1 - 78.7)	0.38	67.0	14.8	78.0
	Du_NERCSLIP_task3_2	Du_NERCSLIP_task3_report	1	0.35 (0.30 - 0.41)	58.3 (53.8 - 64.7)	14.6 (12.8 - 16.5)	73.7 (68.7 - 78.2)
	Du_NERCSLIP_task3_3	Du_NERCSLIP_task3_report	2	0.36 (0.29 - 0.43)	56.8 (50.6 - 63.9)	15.5 (13.8 - 17.4)	75.5 (70.1 - 80.4)
	Du_NERCSLIP_task3_4	Du_NERCSLIP_task3_report	3	0.37 (0.31 - 0.44)	57.8 (51.7 - 65.3)	14.9 (13.2 - 16.7)	73.4 (67.7 - 78.5)	0.41	64.0	14.9	73.0
	Scheibler_LINE_task3_1	Scheibler_LINE_task3_report	30	0.62 (0.55 - 0.69)	30.4 (25.2 - 36.3)	16.7 (14.0 - 19.5)	49.2 (42.1 - 54.5)	0.50	51.1	16.7	63.4
	Park_SGU_task3_1	Park_SGU_task3_report	41	0.60 (0.53 - 0.67)	28.4 (23.9 - 33.6)	22.6 (19.8 - 25.3)	46.9 (41.5 - 52.1)	0.61	46.2	24.0	78.2
	Park_SGU_task3_2	Park_SGU_task3_report	40	0.63 (0.55 - 0.70)	31.2 (25.3 - 37.5)	21.6 (18.3 - 25.0)	46.5 (40.7 - 51.7)	0.62	46.8	25.1	78.2
	Park_SGU_task3_3	Park_SGU_task3_report	38	0.63 (0.56 - 0.70)	31.4 (25.8 - 37.4)	22.7 (18.6 - 26.5)	47.4 (41.7 - 52.5)	0.62	46.8	25.1	78.2
	Park_SGU_task3_4	Park_SGU_task3_report	38	0.60 (0.53 - 0.67)	30.6 (25.2 - 36.4)	21.6 (17.8 - 25.1)	45.9 (40.3 - 51.0)	0.62	46.8	25.1	78.2
	Wang_SJTU_task3_1	Wang_SJTU_task3_report	35	0.67 (0.60 - 0.74)	26.3 (18.3 - 33.1)	23.9 (21.8 - 26.3)	59.2 (52.6 - 64.4)	0.47	62.2	11.3	69.0
	Wang_SJTU_task3_2	Wang_SJTU_task3_report	33	0.67 (0.60 - 0.74)	27.0 (19.3 - 33.6)	24.4 (22.0 - 27.1)	60.3 (53.8 - 65.3)	0.46	61.8	11.4	68.4
	Wang_SJTU_task3_3	Wang_SJTU_task3_report	34	0.68 (0.60 - 0.75)	26.3 (18.0 - 33.3)	23.7 (21.7 - 25.9)	59.8 (52.4 - 65.1)	0.48	61.4	11.5	69.0
	Wang_SJTU_task3_4	Wang_SJTU_task3_report	36	0.67 (0.60 - 0.74)	26.2 (18.0 - 33.2)	23.8 (21.5 - 26.4)	58.8 (51.2 - 64.2)	0.47	61.6	11.4	68.7
	FalconPerez_Aalto_task3_1	FalconPerez_Aalto_task3_report	58	0.70 (0.64 - 0.75)	16.2 (10.1 - 21.1)	28.7 (24.0 - 32.6)	33.9 (26.5 - 39.0)	0.75	19.0	49.3	38.0
	FalconPerez_Aalto_task3_2	FalconPerez_Aalto_task3_report	52	0.73 (0.67 - 0.79)	21.8 (15.5 - 27.6)	24.4 (21.7 - 27.1)	43.1 (35.7 - 48.7)	0.74	23.0	27.4	45.0
	FalconPerez_Aalto_task3_3	FalconPerez_Aalto_task3_report	59	0.70 (0.64 - 0.77)	17.2 (10.2 - 22.5)	25.5 (22.6 - 28.6)	31.2 (23.4 - 36.2)	0.75	15.0	51.8	3.0
	Xie_UESTC_task3_1	Xie_UESTC_task3_report	11	0.48 (0.41 - 0.55)	48.6 (42.5 - 55.4)	17.6 (16.0 - 19.2)	73.5 (68.0 - 77.6)	0.44	58.0	12.9	68.0
	Xie_UESTC_task3_2	Xie_UESTC_task3_report	15	0.50 (0.43 - 0.57)	47.8 (41.5 - 54.4)	17.5 (15.9 - 19.2)	72.3 (65.1 - 77.1)	0.47	52.0	14.4	64.0
	Xie_UESTC_task3_3	Xie_UESTC_task3_report	13	0.52 (0.44 - 0.60)	48.4 (42.4 - 55.1)	17.9 (16.2 - 19.8)	74.6 (69.3 - 78.8)	0.46	55.0	14.0	66.0
	Xie_UESTC_task3_4	Xie_UESTC_task3_report	12	0.50 (0.42 - 0.57)	49.5 (43.8 - 56.0)	17.4 (15.9 - 19.1)	74.0 (69.2 - 77.8)	0.46	56.0	13.7	67.0
	Kim_KU_task3_1	Kim_KU_task3_report	54	0.80 (0.74 - 0.86)	20.3 (16.3 - 24.9)	26.1 (23.9 - 28.6)	50.6 (43.8 - 55.5)	0.66	31.0	21.7	51.0
	Kim_KU_task3_2	Kim_KU_task3_report	46	0.74 (0.66 - 0.81)	24.1 (19.8 - 28.9)	26.6 (23.4 - 29.8)	55.1 (48.6 - 59.5)	0.66	30.0	22.5	49.0
	Kim_KU_task3_3	Kim_KU_task3_report	49	0.75 (0.69 - 0.82)	20.5 (12.6 - 25.9)	26.1 (22.7 - 29.5)	53.3 (47.0 - 57.6)	0.65	33.0	20.4	51.0
	Hu_IACAS_task3_1	Hu_IACAS_task3_report	10	0.44 (0.38 - 0.49)	49.2 (43.8 - 55.8)	16.6 (14.4 - 19.0)	70.4 (64.0 - 75.2)	0.50	48.4	19.5	65.7
	Hu_IACAS_task3_2	Hu_IACAS_task3_report	6	0.40 (0.34 - 0.46)	57.4 (53.4 - 62.8)	15.1 (13.4 - 16.8)	70.6 (65.4 - 75.4)	0.50	51.0	16.4	65.9
	Hu_IACAS_task3_3	Hu_IACAS_task3_report	5	0.39 (0.34 - 0.44)	55.8 (51.2 - 61.1)	16.2 (14.6 - 17.8)	72.4 (67.3 - 77.2)	0.53	48.1	17.8	62.6
	Hu_IACAS_task3_4	Hu_IACAS_task3_report	9	0.40 (0.34 - 0.46)	50.9 (44.4 - 59.4)	15.9 (13.8 - 18.1)	69.4 (63.7 - 75.7)	0.53	45.4	17.4	62.5
	Chen_SHU_task3_1	Chen_SHU_task3_report	65	1.00 (1.00 - 1.00)	0.3 (0.1 - 0.6)	60.3 (45.4 - 94.0)	4.5 (2.9 - 6.3)	0.71	27.0	26.7	48.0
	Wu_NKU_task3_1	Wu_NKU_task3_report	55	0.72 (0.67 - 0.77)	18.5 (13.3 - 23.6)	25.1 (22.0 - 29.4)	42.1 (33.3 - 47.6)	0.66	32.0	23.2	48.0
	Wu_NKU_task3_2	Wu_NKU_task3_report	53	0.69 (0.64 - 0.74)	17.9 (14.4 - 21.5)	28.5 (24.5 - 39.7)	44.5 (38.2 - 48.4)	0.63	33.0	22.7	49.0
	Wu_NKU_task3_3	Wu_NKU_task3_report	57	0.72 (0.67 - 0.77)	18.8 (14.2 - 24.6)	30.2 (23.4 - 35.2)	39.7 (29.9 - 45.5)	0.65	31.0	26.0	43.0
	Wu_NKU_task3_4	Wu_NKU_task3_report	56	0.71 (0.65 - 0.76)	18.7 (14.7 - 23.0)	28.3 (22.8 - 40.2)	38.6 (31.9 - 43.2)	0.65	30.0	18.0	44.0
	Han_KU_task3_1	Han_KU_task3_report	39	0.73 (0.66 - 0.80)	27.8 (22.6 - 35.2)	25.6 (23.8 - 27.2)	63.5 (57.7 - 68.7)	0.45	63.6	14.4	71.1
	Han_KU_task3_2	Han_KU_task3_report	43	0.72 (0.64 - 0.79)	23.0 (15.6 - 31.1)	25.5 (23.9 - 27.0)	64.0 (58.9 - 70.2)	0.43	58.8	15.1	73.2
	Han_KU_task3_3	Han_KU_task3_report	8	0.38 (0.33 - 0.44)	53.6 (47.8 - 60.7)	15.6 (13.9 - 17.1)	67.3 (61.7 - 73.1)	0.28	67.2	11.8	76.7
	Han_KU_task3_4	Han_KU_task3_report	7	0.37 (0.31 - 0.42)	49.7 (44.4 - 56.6)	16.5 (14.8 - 18.0)	70.7 (65.8 - 76.1)	0.39	59.5	13.0	73.7
	Ko_KAIST_task3_1	Ko_KAIST_task3_report	24	0.47 (0.40 - 0.53)	39.6 (32.9 - 45.9)	18.9 (16.2 - 26.5)	52.7 (42.7 - 59.8)	0.53	49.8	16.0	55.9
	Ko_KAIST_task3_2	Ko_KAIST_task3_report	23	0.49 (0.42 - 0.55)	39.9 (33.8 - 46.0)	17.3 (15.3 - 19.3)	54.6 (46.5 - 60.5)	0.55	46.2	16.4	54.6
	Ko_KAIST_task3_3	Ko_KAIST_task3_report	25	0.48 (0.42 - 0.53)	39.8 (33.3 - 46.2)	19.6 (17.2 - 26.6)	52.0 (42.4 - 58.7)	0.57	46.4	17.2	54.4
	Ko_KAIST_task3_4	Ko_KAIST_task3_report	26	0.50 (0.44 - 0.56)	35.7 (28.6 - 42.1)	20.4 (18.3 - 22.6)	52.8 (42.4 - 59.5)	0.55	46.4	17.0	56.2
	Kapka_SRPOL_task3_1	Kapka_SRPOL_task3_report	58	0.92 (0.84 - 0.99)	25.2 (21.6 - 29.2)	24.1 (21.2 - 27.3)	49.5 (43.4 - 54.3)	0.85	32.1	24.7	51.4
	Kapka_SRPOL_task3_2	Kapka_SRPOL_task3_report	50	0.81 (0.73 - 0.88)	26.0 (22.1 - 30.2)	22.3 (19.2 - 25.9)	48.1 (41.9 - 53.0)	0.76	32.9	24.6	49.9
	Kapka_SRPOL_task3_3	Kapka_SRPOL_task3_report	51	0.81 (0.74 - 0.88)	24.7 (20.5 - 29.5)	26.2 (23.0 - 29.9)	52.1 (45.3 - 57.2)
	Kapka_SRPOL_task3_4	Kapka_SRPOL_task3_report	48	0.72 (0.65 - 0.79)	25.5 (21.3 - 30.4)	25.4 (21.7 - 29.3)	49.8 (42.8 - 55.3)
	Zhaoyu_LRVT_task3_1	Zhaoyu_LRVT_task3_report	60	0.96 (0.88 - 1.00)	11.2 (8.8 - 13.9)	31.0 (28.5 - 33.4)	53.4 (44.4 - 58.9)	0.58	35.0	22.5	42.0
	Zhaoyu_LRVT_task3_2	Zhaoyu_LRVT_task3_report	64	0.88 (0.84 - 0.92)	3.5 (2.3 - 4.8)	39.3 (28.9 - 59.3)	7.5 (5.6 - 9.5)	0.68	25.0	35.4	42.0
	Zhaoyu_LRVT_task3_3	Zhaoyu_LRVT_task3_report	62	0.83 (0.78 - 0.87)	7.4 (5.5 - 9.5)	24.5 (20.1 - 34.5)	12.5 (10.0 - 15.1)	0.70	25.4	45.2	42.0
	Zhaoyu_LRVT_task3_4	Zhaoyu_LRVT_task3_report	61	0.83 (0.80 - 0.87)	12.1 (7.4 - 16.8)	26.2 (23.0 - 29.0)	36.0 (23.1 - 43.6)	0.72	33.3	43.5	35.0
	Xie_XJU_task3_1	Xie_XJU_task3_report	44	0.66 (0.59 - 0.74)	25.5 (19.3 - 32.2)	23.1 (19.9 - 26.4)	53.1 (42.7 - 59.4)	0.66	34.2	22.9	57.7

System characteristics

Rank	Submission name	Technical Report	Model	Model params	Audio format	Acoustic features	Data augmentation
42	FOA_Baseline_task3_1	Politis_TAU_task3_report	CRNN	604920	FOA	log-mel spectra, intensity vector
45	MIC_Baseline_task3_1	Politis_TAU_task3_report	CRNN	606648	MIC	log-mel spectra, GCC
20	Bai_JLESS_task3_1	Bai_JLESS_task3_report	CNN, Conformer, ensemble	194560	MIC	log-mel spectra, SALSA-Lite	FMix, mixup, random cutout, channel rotation, data generation
16	Bai_JLESS_task3_2	Bai_JLESS_task3_report	CNN, Conformer, ensemble	194560	MIC	log-mel spectra, SALSA-Lite	FMix, mixup, random cutout, channel rotation, data generation
19	Bai_JLESS_task3_3	Bai_JLESS_task3_report	CNN, Conformer, ensemble	235212	MIC	log-mel spectra, SALSA-Lite	FMix, mixup, random cutout, channel rotation, data generation
14	Bai_JLESS_task3_4	Bai_JLESS_task3_report	CNN, Conformer, ensemble	235212	MIC	log-mel spectra, SALSA-Lite	FMix, mixup, random cutout, channel rotation, data generation
28	Chun_Chosun_task3_1	Chun_Chosun_task3_report	CRNN, Transformer, ensemble	5650035	FOA	log-mel spectra, intensity vector	SpecAugment, impulse response simulation
31	Chun_Chosun_task3_2	Chun_Chosun_task3_report	CRNN, Transformer, ensemble	4194366	FOA	log-mel spectra, intensity vector	SpecAugment, impulse response simulation
27	Chun_Chosun_task3_3	Chun_Chosun_task3_report	CRNN, Transformer, ensemble	4983870	FOA	log-mel spectra, intensity vector	SpecAugment, impulse response simulation
29	Chun_Chosun_task3_4	Chun_Chosun_task3_report	CRNN, Transformer, ensemble	4654910	FOA	log-mel spectra, intensity vector	SpecAugment, impulse response simulation
47	Guo_XIAOMI_task3_1	Guo_XIAOMI_task3_report	ComplexNew 3DCNN	807257	FOA	log-mel spectra, intensity vector	Channel swapping, Labels first, Channels first
33	Guo_XIAOMI_task3_2	Guo_XIAOMI_task3_report	3DCNN	902953	FOA	log-mel spectra, intensity vector	Channel swapping, Labels first, Channels first
21	Kang_KT_task3_1	Kang_KT_task3_report	CRNN, ensemble	97778356	FOA+MIC	log-mel spectra, intensity vector, log-linear magnitude spectra, SALSA-Lite	SpecAugment, random cutout, frequency shifting, rotation, channel swapping
17	Kang_KT_task3_2	Kang_KT_task3_report	CRNN, ensemble	67818904	FOA+MIC	log-mel spectra, intensity vector, log-linear magnitude spectra, SALSA-Lite	SpecAugment, random cutout, frequency shifting, rotation, channel swapping
18	Kang_KT_task3_3	Kang_KT_task3_report	CRNN, ensemble	126997260	FOA+MIC	log-mel spectra, intensity vector, log-linear magnitude spectra, SALSA-Lite	SpecAugment, random cutout, frequency shifting, rotation, channel swapping
22	Kang_KT_task3_4	Kang_KT_task3_report	CRNN, ensemble	97137808	FOA+MIC	log-mel spectra, intensity vector, log-linear magnitude spectra, SALSA-Lite	SpecAugment, random cutout, frequency shifting, rotation, channel swapping
4	Du_NERCSLIP_task3_1	Du_NERCSLIP_task3_report	CNN, Conformer	58100201	FOA	log-mel spectra, intensity vector	audio channel swapping, multichannel data simulation
1	Du_NERCSLIP_task3_2	Du_NERCSLIP_task3_report	CNN, Conformer	58100201	FOA	log-mel spectra, intensity vector	audio channel swapping, multichannel data simulation
2	Du_NERCSLIP_task3_3	Du_NERCSLIP_task3_report	CNN, Conformer	58100201	FOA	log-mel spectra, intensity vector	audio channel swapping, multichannel data simulation
3	Du_NERCSLIP_task3_4	Du_NERCSLIP_task3_report	CNN, Conformer	58100201	FOA	log-mel spectra, intensity vector	audio channel swapping, multichannel data simulation
30	Scheibler_LINE_task3_1	Scheibler_LINE_task3_report	CNN, Conformer, SSAST, IVA	4000000	FOA	log-mel spectra, intensity vector	SpecAug, FOA Rotation, Simulation, FSD50K
41	Park_SGU_task3_1	Park_SGU_task3_report	CRNN	26242768	FOA	log-mel spectra, intensity vector	rotate, rotate + mixup
40	Park_SGU_task3_2	Park_SGU_task3_report	CRNN	26242768	FOA	log-mel spectra, intensity vector	rotate, rotate + mixup
38	Park_SGU_task3_3	Park_SGU_task3_report	CRNN	26242768	FOA	log-mel spectra, intensity vector	rotate, rotate + mixup
38	Park_SGU_task3_4	Park_SGU_task3_report	CRNN	26242768	FOA	log-mel spectra, intensity vector	rotate, rotate + mixup
35	Wang_SJTU_task3_1	Wang_SJTU_task3_report	CRNN, MHSA, ensemble	538261542	FOA+MIC	log-mel spectra, intensity vector, GCC
33	Wang_SJTU_task3_2	Wang_SJTU_task3_report	CRNN, Transformer, ensemble	672127703	FOA+MIC	log-mel spectra, intensity vector, GCC
34	Wang_SJTU_task3_3	Wang_SJTU_task3_report	CRNN, MHSA, ensemble	672127703	FOA+MIC	log-mel spectra, intensity vector, GCC
36	Wang_SJTU_task3_4	Wang_SJTU_task3_report	CRNN, Transformer, ensemble	805993864	FOA+MIC	log-mel spectra, intensity vector, GCC
58	FalconPerez_Aalto_task3_1	FalconPerez_Aalto_task3_report	SampleCNN	713511	FOA	raw waveform
52	FalconPerez_Aalto_task3_2	FalconPerez_Aalto_task3_report	CRNN	4709607	FOA	log-linear magnitude spectra, intensity vector
59	FalconPerez_Aalto_task3_3	FalconPerez_Aalto_task3_report	CRNN	4709607	FOA	log-linear magnitude spectra, intensity vector
11	Xie_UESTC_task3_1	Xie_UESTC_task3_report	CRNN	482551524	FOA	log-mel spectra, intensity vector	Mini-batch mixup, angle noise, mini-batch time-frequency noise, FOA rotation, random cutout and SpecAugment
15	Xie_UESTC_task3_2	Xie_UESTC_task3_report	CRNN	273011952	FOA	log-mel spectra, intensity vector	Mini-batch mixup, angle noise, mini-batch time-frequency noise, FOA rotation, random cutout and SpecAugment
13	Xie_UESTC_task3_3	Xie_UESTC_task3_report	CRNN	295482564	FOA	log-mel spectra, intensity vector	Mini-batch mixup, angle noise, mini-batch time-frequency noise, FOA rotation, random cutout and SpecAugment
12	Xie_UESTC_task3_4	Xie_UESTC_task3_report	CRNN	660798176	FOA	log-mel spectra, intensity vector	Mini-batch mixup, angle noise, mini-batch time-frequency noise, FOA rotation, random cutout and SpecAugment
54	Kim_KU_task3_1	Kim_KU_task3_report	CNN, Conformer	122211189	FOA	log-mel spectra, inter-phase difference intensity vector	Specmix
46	Kim_KU_task3_2	Kim_KU_task3_report	CNN, Conformer	122211189	FOA	log-mel spectra, inter-phase difference intensity vector	Specmix
49	Kim_KU_task3_3	Kim_KU_task3_report	CNN, Conformer	122211189	FOA	log-mel spectra, inter-phase difference intensity vector	Specmix
10	Hu_IACAS_task3_1	Hu_IACAS_task3_report	EINV2, Conformer, CNN	85288432	FOA	log-mel spectra, intensity vector	mixup, specAugment, rotation, random crop, frequency shifting
6	Hu_IACAS_task3_2	Hu_IACAS_task3_report	EINV2, Conformer, CNN	85288432	FOA	log-mel spectra, intensity vector	mixup, specAugment, rotation, random crop, frequency shifting
5	Hu_IACAS_task3_3	Hu_IACAS_task3_report	EINV2, Conformer, CNN	85288432	FOA	log-mel spectra, intensity vector	mixup, specAugment, rotation, random crop, frequency shifting
9	Hu_IACAS_task3_4	Hu_IACAS_task3_report	EINV2, Conformer, CNN	85288432	FOA	log-mel spectra, intensity vector	mixup, specAugment, rotation, random crop, frequency shifting
65	Chen_SHU_task3_1	Chen_SHU_task3_report	CRNN, Self-Attention	2918925	FOA	log-mel spectra, intensity vector
55	Wu_NKU_task3_1	Wu_NKU_task3_report	CRNN	1920757	FOA	log-mel spectra, intensity vector, variable-Q transform (VQT)
53	Wu_NKU_task3_2	Wu_NKU_task3_report	CRNN	10364997	FOA	log-mel spectra, intensity vector, variable-Q transform (VQT)	block mixing
57	Wu_NKU_task3_3	Wu_NKU_task3_report	CRNN	1922485	MIC	log-mel spectra, GCC, variable-Q transform (VQT)
56	Wu_NKU_task3_4	Wu_NKU_task3_report	CRNN	10366725	MIC	log-mel spectra, GCC, variable-Q transform (VQT)	block mixing
39	Han_KU_task3_1	Han_KU_task3_report	SE-ResNet34, GRU	6047746	FOA	log-mel spectra, intensity vector	pitch shifting, gain adjusting, band-pass filter, noise, rotation, Spec-augmentation
43	Han_KU_task3_2	Han_KU_task3_report	SE-ResNet34, GRU	6047746	FOA	log-mel spectra, intensity vector	pitch shifting, gain adjusting, band-pass filter, noise, rotation, Spec-augmentation
8	Han_KU_task3_3	Han_KU_task3_report	SE-ResNet34, GRU	24190984	FOA	log-mel spectra, intensity vector	pitch shifting, gain adjusting, band-pass filter, noise, rotation, Spec-augmentation
7	Han_KU_task3_4	Han_KU_task3_report	SE-ResNet34, GRU	24190984	FOA	log-mel spectra, intensity vector	pitch shifting, gain adjusting, band-pass filter, noise, rotation, Spec-augmentation
24	Ko_KAIST_task3_1	Ko_KAIST_task3_report	CRNN	160775516	FOA	log-linear magnitude spectra, eigenvector-based intensity vector	channel swapping, pitch shifting, mix-up, frame shift
23	Ko_KAIST_task3_2	Ko_KAIST_task3_report	CRNN	44050908	FOA	log-linear magnitude spectra, eigenvector-based intensity vector	channel swapping, pitch shifting, mix-up, frame shift
25	Ko_KAIST_task3_3	Ko_KAIST_task3_report	CRNN	44250060	FOA	log-linear magnitude spectra, eigenvector-based intensity vector	channel swapping, pitch shifting, mix-up, frame shift
26	Ko_KAIST_task3_4	Ko_KAIST_task3_report	CRNN	44250060	FOA	log-linear magnitude spectra, eigenvector-based intensity vector	channel swapping, pitch shifting, mix-up, frame shift
58	Kapka_SRPOL_task3_1	Kapka_SRPOL_task3_report	CRNN	4604286	FOA	log-linear magnitude spectra, phase spectra, intensity vector	volume perturbation, FOA spatial augment
50	Kapka_SRPOL_task3_2	Kapka_SRPOL_task3_report	CRNN	4604286	FOA	log-linear magnitude spectra, phase spectra, intensity vector	volume perturbation, FOA spatial augment
51	Kapka_SRPOL_task3_3	Kapka_SRPOL_task3_report	CRNN	4604286	FOA	log-linear magnitude spectra, phase spectra, intensity vector	volume perturbation, FOA spatial augment
48	Kapka_SRPOL_task3_4	Kapka_SRPOL_task3_report	CRNN	4604286	FOA	log-linear magnitude spectra, phase spectra, intensity vector	volume perturbation, FOA spatial augment
60	Zhaoyu_LRVT_task3_1	Zhaoyu_LRVT_task3_report	CNN, Conformer, MLP	30.35M	FOA	log-mel spectra, intensity vector	SpecAugment, Time Frequency Masing, Audio Channel Swapping, Reverb Simulation
64	Zhaoyu_LRVT_task3_2	Zhaoyu_LRVT_task3_report	CNN, Conformer, MLP	30.35M	FOA	log-mel spectra, intensity vector	SpecAugment, Time Frequency Masing, Audio Channel Swapping
62	Zhaoyu_LRVT_task3_3	Zhaoyu_LRVT_task3_report	CNN, LSTM, U-Net	17.42M	FOA	log-mel spectra, intensity vector	SpecAugment, Time Frequency Masing, Audio Channel Swapping
61	Zhaoyu_LRVT_task3_4	Zhaoyu_LRVT_task3_report	CRNN, MLP	2.35M	FOA	log-mel spectra, intensity vector	SpecAugment, Time Frequency Masing, Audio Channel Swapping, Reverb Simulation
44	Xie_XJU_task3_1	Xie_XJU_task3_report	CRNN	116118	FOA	log-mel spectra, intensity vector

Technical reports

JLESS SUBMISSION TO DCASE2022 TASK3: DYNAMIC KERNEL CONVOLUTION NETWORK WITH DATA AUGMENTATION FOR SOUND EVENT LOCALIZATION AND DETECTION IN REAL SPACE

Siwei Huang¹, Jisheng Bai^1,2, Yafei Jia¹, Mou Wang¹, Jianfeng Chen^1,2

¹Joint Laboratory of Environmental Sound Sensing, School of Marine Science and Technology, Northwestern Polytechnical University, Xi’an, China, ²LianFeng Acoustic Technologies Co., Ltd. Xi’an, China

Bai_JLESS_task3_1 Bai_JLESS_task3_2 Bai_JLESS_task3_3 Bai_JLESS_task3_4

Content

Task description

Teams ranking

Systems ranking

System characteristics

Technical reports

JLESS SUBMISSION TO DCASE2022 TASK3: DYNAMIC KERNEL CONVOLUTION NETWORK WITH DATA AUGMENTATION FOR SOUND EVENT LOCALIZATION AND DETECTION IN REAL SPACE

JLESS SUBMISSION TO DCASE2022 TASK3: DYNAMIC KERNEL CONVOLUTION NETWORK WITH DATA AUGMENTATION FOR SOUND EVENT LOCALIZATION AND DETECTION IN REAL SPACE

Abstract

GLFE: GLOBAL-LOCAL FUSION ENHANCEMENT FOR SOUND EVENT LOCALIZATION AND DETECTION

GLFE: GLOBAL-LOCAL FUSION ENHANCEMENT FOR SOUND EVENT LOCALIZATION AND DETECTION

Abstract

Polyphonic Sound Event Localization and Detection Using Convolutional Neural Networks and Self-Attention with Synthetic and Real Data

Polyphonic Sound Event Localization and Detection Using Convolutional Neural Networks and Self-Attention with Synthetic and Real Data

Abstract

THE NERC-SLIP SYSTEM FOR SOUND EVENT LOCALIZATION AND DETECTION OF DCASE2022 CHALLENGE

THE NERC-SLIP SYSTEM FOR SOUND EVENT LOCALIZATION AND DETECTION OF DCASE2022 CHALLENGE

Abstract

CURRICULUM LEARNING WITH AUDIO DOMAIN DATA AUGMENTATION FOR SOUND EVENT LOCALIZATION AND DETECTION

CURRICULUM LEARNING WITH AUDIO DOMAIN DATA AUGMENTATION FOR SOUND EVENT LOCALIZATION AND DETECTION

Abstract

TACCNN: TIME-ALIGNMENT COMPLEX CONVOLUTIONAL NEURAL NETWORK

TACCNN: TIME-ALIGNMENT COMPLEX CONVOLUTIONAL NEURAL NETWORK

Abstract

A ROBUST FRAMEWORK FOR SOUND EVENT LOCALIZATION AND DETECTION ON REAL RECORDINGS

A ROBUST FRAMEWORK FOR SOUND EVENT LOCALIZATION AND DETECTION ON REAL RECORDINGS

Abstract

SOUND EVENT LOCALIZATION AND DETECTION FOR REAL SPATIAL SOUND SCENES: EVENT-INDEPENDENT NETWORK AND DATA AUGMENTATION CHAINS

SOUND EVENT LOCALIZATION AND DETECTION FOR REAL SPATIAL SOUND SCENES: EVENT-INDEPENDENT NETWORK AND DATA AUGMENTATION CHAINS

Abstract

TRACK-WISE ENSEMBLE OF CRNN MODELS WITH MULTI-TASK ADPIT FOR SOUND EVENT LOCALIZATION AND DETECTION

TRACK-WISE ENSEMBLE OF CRNN MODELS WITH MULTI-TASK ADPIT FOR SOUND EVENT LOCALIZATION AND DETECTION

Abstract

COLOC: CONDITIONED LOCALIZER AND CLASSIFIER FOR SOUND EVENT LOCALIZATION AND DETECTION

COLOC: CONDITIONED LOCALIZER AND CLASSIFIER FOR SOUND EVENT LOCALIZATION AND DETECTION

Abstract

CONVNEXT AND CONFORMER FOR SOUND EVENT LOCALIZATION AND DETECTION

CONVNEXT AND CONFORMER FOR SOUND EVENT LOCALIZATION AND DETECTION

Abstract

Data Augmentation and Squeeze-and-Excitation Network on Multiple Dimension for Sound Event Localization and Detection in Real Scenes

Data Augmentation and Squeeze-and-Excitation Network on Multiple Dimension for Sound Event Localization and Detection in Real Scenes

Abstract

SOUND EVENT LOCALIZATION AND DETECTION BASED ON CROSS-MODAL ATTENTION AND SOURCE SEPARATION

SOUND EVENT LOCALIZATION AND DETECTION BASED ON CROSS-MODAL ATTENTION AND SOURCE SEPARATION

Abstract

STARSS22: A DATASET OF SPATIAL RECORDINGS OF REAL SCENES WITH SPATIOTEMPORAL ANNOTATIONS OF SOUND EVENTS

STARSS22: A DATASET OF SPATIAL RECORDINGS OF REAL SCENES WITH SPATIOTEMPORAL ANNOTATIONS OF SOUND EVENTS

Abstract

3D CNN AND CONFORMER WITH AUDIO SPECTROGRAM TRANSFORMER FOR SOUND EVENT DETECTION AND LOCALIZATION

3D CNN AND CONFORMER WITH AUDIO SPECTROGRAM TRANSFORMER FOR SOUND EVENT DETECTION AND LOCALIZATION

Abstract

IMPROVING LOW-RESOURCE SOUND EVENT LOCALIZATION AND DETECTION VIA ACTIVE LEARNING WITH DOMAIN ADAPTATION

IMPROVING LOW-RESOURCE SOUND EVENT LOCALIZATION AND DETECTION VIA ACTIVE LEARNING WITH DOMAIN ADAPTATION

Abstract

MLP-MIXER ENHANCED CRNN FOR SOUND EVENT LOCALIZATION AND DETECTION IN DCASE 2022 TASK 3

MLP-MIXER ENHANCED CRNN FOR SOUND EVENT LOCALIZATION AND DETECTION IN DCASE 2022 TASK 3

Abstract

ENSEMBLE OF ATTENTION BASED CRNN FOR SOUND EVENT DETECTION AND LOCALIZATION

ENSEMBLE OF ATTENTION BASED CRNN FOR SOUND EVENT DETECTION AND LOCALIZATION

Abstract

SOUND EVENT LOCALIZATION AND DETECTION BASED ON CRNN USING TIME-FREQUENCY ATTENTION AND CRISS-CROSS ATTENTION

SOUND EVENT LOCALIZATION AND DETECTION BASED ON CRNN USING TIME-FREQUENCY ATTENTION AND CRISS-CROSS ATTENTION

Abstract

SOUND EVENT LOCALIZATION AND DETECTION COMBINED CONVOLUTIONAL CONFORMER STRUCTURE AND MULTI-ACCDOA STRATEGIES

SOUND EVENT LOCALIZATION AND DETECTION COMBINED CONVOLUTIONAL CONFORMER STRUCTURE AND MULTI-ACCDOA STRATEGIES

Abstract