Task description

Audio moment retrieval is the task of retrieving specific moments within long audio recordings that align with a given textual query. More detailed task description can be found in the task description page

Teams ranking

This table includes only the best performing system from each team. The ranking is based on the achieved Recall1@0.7 metric on the evaluation dataset. The metric values are for the development-testing split and the evaluation dataset.

Team Best Rank	Submission Code	System Rank	Corresponding author	Technical Report	Recall1@0.7 (eval dataset)	Recall1@0.5 (eval dataset)	Recall1@0.7 (dev-testing dataset)	Recall1@0.5 (dev-testing dataset)
1	Kibata_YCU_task6_2	1	Koki Kibata	kibata2026_t6	48.59	69.49	40.70	55.98
1	Kim_CAU_task6_3	1	Changwon Lim	kim2026_t6	48.59	63.84	45.14	58.87
1	Sugawara_YCU_task6_3	1	Haruto Sugawara	sugawara2026_t6	48.59	59.89	40.68	53.50
4	Ogawa_YCU_task6_1	6	Takumi Ogawa	ogawa2026_t6	46.89	60.45	41.13	54.19
5	Calvet_AUDIAS_task6_2	11	Oscar Calvet	calvet2026_t6	43.50	64.41	36.82	53.30
6	Usui_YCU_task6_1	12	Ren Usui	usui2026_t6	41.24	58.19	37.86	54.10
6	Choi_KAIST_task6_3	12	Seungdeok Choi	choi2026_t6	41.24	55.93	31.03	48.40
8	Nakazawa_AM_task6_3	21	Kazushi Nakazawa	nakazawa2026_t6	36.16	49.72	29.03	49.59
9	Kang_ISCT_task6_1	22	Yaozhong Kang	kang2026_t6	35.59	50.28	33.23	45.89
10	Xiao_HEU_task6_4	26	Jian Guan	xiao2026_t6	33.90	48.02	31.55	41.05
11	Khan_WPI_task6_2	28	Mohammad Nur Hossain Khan Khan	khan2026_t6	32.20	48.02	32.07	48.71
12	Chunarkar_NTHU_task6_3	32	Snehit Chunarkar	chunarkar2026_t6	29.38	52.54	25.39	43.88
13	Huang_WHU_task6_1	34	Gongping Huang	huang2026_t6	27.68	48.02	25.09	37.49
14	Nishijima_UTokyo_task6_3	40	Hiroshi Nishijima	nishijima2026_t6	22.60	32.77	21.88	30.58
15	Chen_CHT_task6_1	42	Wei-Yu Chen	chen2026_t6	22.03	37.29	20.19	31.48
16	LU_YZU_task6_1	43	Jun-Ting LU	lu2026_t6	21.47	31.64	14.40	25.61
17	Xu_GZHU_task6_1	47	Yutao Xu	xu2026_t6	15.25	31.07	16.11	29.92
18	DCASE2026_baseline_task6	48	Hokuto Munakata		13.56	28.25	13.59	25.61
18	Huck_NV_task6_3	48	Huck Yang	huck2026_t6	13.56	22.03
18	Zhang_XJTLU_task6_1	48	Xiaokai Zhang	zhang2026_t6	13.56	22.03	16.11	23.83
21	Kret_CooperUnion_task6_2	52	Meghan Kret	kret2026_t6	11.30	19.21	11.88	17.67
22	Minh_VGU_task6_1	57	Le Duc Minh	minh2026_t6	5.65	12.99	6.76	14.33

Systems ranking

This table includes all systems submitted by participating teams.

System Rank	Submission Code	Technical Report	Recall1@0.7 (eval dataset)	Recall1@0.5 (eval dataset)	Recall1@0.7 (dev-testing dataset)	Recall1@0.5 (dev-testing dataset)
1	Kibata_YCU_task6_2	kibata2026_t6	48.59	69.49	40.70	55.98
1	Kim_CAU_task6_3	kim2026_t6	48.59	63.84	45.14	58.87
1	Sugawara_YCU_task6_3	sugawara2026_t6	48.59	59.89	40.68	53.50
4	Kim_CAU_task6_2	kim2026_t6	48.02	62.15	45.14	59.02
5	Sugawara_YCU_task6_1	sugawara2026_t6	47.46	58.19	39.57	51.80
6	Ogawa_YCU_task6_1	ogawa2026_t6	46.89	60.45	41.13	54.19
7	Sugawara_YCU_task6_2	sugawara2026_t6	45.76	58.19	38.38	51.30
8	Kim_CAU_task6_1	kim2026_t6	45.20	57.63	42.91	55.23
9	Sugawara_YCU_task6_4	sugawara2026_t6	44.63	57.63	38.01	52.50
10	Kim_CAU_task6_4	kim2026_t6	44.07	61.02	41.28	54.57
11	Calvet_AUDIAS_task6_2	calvet2026_t6	43.50	64.41	36.82	53.30
12	Usui_YCU_task6_1	usui2026_t6	41.24	58.19	37.86	54.10
12	Choi_KAIST_task6_3	choi2026_t6	41.24	55.93	31.03	48.40
14	Usui_YCU_task6_2	usui2026_t6	40.68	58.76	39.68	53.95
14	Usui_YCU_task6_3	usui2026_t6	40.68	58.19	38.32	54.02
14	Calvet_AUDIAS_task6_4	calvet2026_t6	40.68	59.89	42.09	59.39
14	Choi_KAIST_task6_4	choi2026_t6	40.68	54.80	33.70	50.41
18	Usui_YCU_task6_4	usui2026_t6	40.11	58.76	40.14	54.17
19	Choi_KAIST_task6_2	choi2026_t6	37.85	51.41	29.55	47.07
20	Calvet_AUDIAS_task6_1	calvet2026_t6	37.29	59.89	40.01	56.12
21	Nakazawa_AM_task6_3	nakazawa2026_t6	36.16	49.72	29.03	49.59
22	Kang_ISCT_task6_1	kang2026_t6	35.59	50.28	33.23	45.89
22	Nakazawa_AM_task6_1	nakazawa2026_t6	35.59	49.72	30.14	49.29
24	Calvet_AUDIAS_task6_3	calvet2026_t6	35.03	57.06	37.56	54.27
25	Kibata_YCU_task6_1	kibata2026_t6	34.46	53.11	26.80	39.50
26	Xiao_HEU_task6_4	xiao2026_t6	33.90	48.02	31.55	41.05
26	Choi_KAIST_task6_1	choi2026_t6	33.90	55.93	28.36	43.06
28	Khan_WPI_task6_2	khan2026_t6	32.20	48.02	32.07	48.71
29	Kang_ISCT_task6_2	kang2026_t6	31.64	49.15	31.95	45.52
29	Nakazawa_AM_task6_2	nakazawa2026_t6	31.64	51.41	29.47	47.07
31	Xiao_HEU_task6_3	xiao2026_t6	29.94	44.07	28.36	40.31
32	Xiao_HEU_task6_1	xiao2026_t6	29.38	48.02	28.21	40.83
32	Chunarkar_NTHU_task6_3	chunarkar2026_t6	29.38	52.54	25.39	43.88
34	Huang_WHU_task6_1	huang2026_t6	27.68	48.02	25.09	37.49
35	Chunarkar_NTHU_task6_4	chunarkar2026_t6	27.12	49.72	26.28	43.50
36	Xiao_HEU_task6_2	xiao2026_t6	26.55	42.37	30.44	41.13
37	Chunarkar_NTHU_task6_2	chunarkar2026_t6	25.99	48.02	26.43	43.21
38	Chunarkar_NTHU_task6_1	chunarkar2026_t6	25.42	46.33	26.13	44.02
39	Khan_WPI_task6_1	khan2026_t6	23.73	42.37	25.32	37.27
40	Nishijima_UTokyo_task6_3	nishijima2026_t6	22.60	32.77	21.88	30.58
40	Nishijima_UTokyo_task6_4	nishijima2026_t6	22.60	32.77	21.43	29.76
42	Chen_CHT_task6_1	chen2026_t6	22.03	37.29	20.19	31.48
43	LU_YZU_task6_1	lu2026_t6	21.47	31.64	14.40	25.61
44	Nishijima_UTokyo_task6_1	nishijima2026_t6	20.90	37.29	20.91	30.36
44	LU_YZU_task6_2	lu2026_t6	20.90	35.59	12.25	23.01
46	Nishijima_UTokyo_task6_2	nishijima2026_t6	19.21	35.03	18.68	26.49
47	Xu_GZHU_task6_1	xu2026_t6	15.25	31.07	16.11	29.92
48	DCASE2026_baseline_task6		13.56	28.25	13.59	25.61
48	Huck_NV_task6_3	huck2026_t6	13.56	22.03
48	Nakazawa_AM_task6_4	nakazawa2026_t6	13.56	23.16	28.88	49.29
48	Zhang_XJTLU_task6_1	zhang2026_t6	13.56	22.03	16.11	23.83
52	Huck_NV_task6_1	huck2026_t6	11.30	20.34
52	Kret_CooperUnion_task6_2	kret2026_t6	11.30	19.21	11.88	17.67
54	Kret_CooperUnion_task6_1	kret2026_t6	10.73	16.95	13.51	18.49
55	Huck_NV_task6_2	huck2026_t6	9.04	19.21
56	Huck_NV_task6_4	huck2026_t6	6.21	13.56
57	Minh_VGU_task6_1	minh2026_t6	5.65	12.99	6.76	14.33
58	Zhang_XJTLU_task6_2	zhang2026_t6	2.26	5.08	21.97	33.04
59	Zhang_XJTLU_task6_3	zhang2026_t6	1.13	3.39	23.42	34.65
59	Zhang_XJTLU_task6_4	zhang2026_t6	1.13	2.82	23.59	35.13

System characteristics

Summary of the submitted system characteristics.

System Rank	Submission Code	Recall1@0.7 (eval)	Technical Report	Audio Model	Text Model	LLM	Loss Function	External Data Resources	Data augmentation	Ensemble	Trainable parameters	Frozen parameters	Total parameters
1	Kibata_YCU_task6_2	48.59	kibata2026_t6	M2D-CLAP	M2D-CLAP		CG-DETR, Varifocal, SIGReg		FALSE	FALSE	13370000	198500000	211870000
1	Kim_CAU_task6_3	48.59	kim2026_t6	LAION-CLAP, MS-CLAP, WavLM	LAION-CLAP, MS-CLAP	Qwen2.5-Omni-7B	QD-DETR, Quality regression		FALSE	TRUE	55600000	11130000000	11185600000
1	Sugawara_YCU_task6_3	48.59	sugawara2026_t6	MS-CLAP, M2D-CLAP	MS-CLAP		UVCOM		TRUE	TRUE	445400000	158400000	603800000
4	Kim_CAU_task6_2	48.02	kim2026_t6	LAION-CLAP, MS-CLAP, WavLM	LAION-CLAP, MS-CLAP, RoBERTa	Qwen2.5-Omni-7B	QD-DETR, Quality regression		FALSE	TRUE	55600000	11670000000	11725600000
5	Sugawara_YCU_task6_1	47.46	sugawara2026_t6	MS-CLAP, M2D-CLAP	MS-CLAP		UVCOM		TRUE	TRUE	338600000	158400000	497000000
6	Ogawa_YCU_task6_1	46.89	ogawa2026_t6	M2D-CLAP	M2D-CLAP		QD-DETR, Quality-based reranking, Distillation		FALSE	FALSE	19400000		19400000
7	Sugawara_YCU_task6_2	45.76	sugawara2026_t6	MS-CLAP, M2D-CLAP	MS-CLAP		UVCOM		TRUE	TRUE	285300000	158400000	443700000
8	Kim_CAU_task6_1	45.20	kim2026_t6	LAION-CLAP, MS-CLAP, WavLM	LAION-CLAP, MS-CLAP, RoBERTa		QD-DETR, Quality regression		FALSE	TRUE	55600000	941800000	997400000
9	Sugawara_YCU_task6_4	44.63	sugawara2026_t6	M2D-CLAP, MS-CLAP	MS-CLAP		UVCOM		TRUE	TRUE	338000000	158400000	496400000
10	Kim_CAU_task6_4	44.07	kim2026_t6	LAION-CLAP, MS-CLAP	LAION-CLAP, MS-CLAP	Qwen2.5-Omni-7B	QD-DETR, Quality regression		FALSE	TRUE	55600000	11040000000	11095600000
11	Calvet_AUDIAS_task6_2	43.50	calvet2026_t6	BEATs	RoBERTa		UVCOM	AudioCaps, WavCaps, Clotho, TACOS	FALSE	FALSE	922020000		922020000
12	Usui_YCU_task6_1	41.24	usui2026_t6	M2D-CLAP	M2D-CLAP		UVCOM, Varifocal	Clotho	TRUE	FALSE	18580000	198500000	217080000
12	Choi_KAIST_task6_3	41.24	choi2026_t6	M2D-CLAP	M2D-CLAP		QD-DETR, Span rerank, Coarse auxiliary, Boundary contrast InfoNCE, DN-DETR, Cascade		FALSE	FALSE	8000000	158400000	166400000
14	Usui_YCU_task6_2	40.68	usui2026_t6	M2D-CLAP	M2D-CLAP		UVCOM, Varifocal	Clotho	TRUE	FALSE	18580000	198500000	217080000
14	Usui_YCU_task6_3	40.68	usui2026_t6	M2D-CLAP	M2D-CLAP		UVCOM, Varifocal	Clotho	TRUE	FALSE	18580000	198500000	217080000
14	Calvet_AUDIAS_task6_4	40.68	calvet2026_t6	EAT, BEATs	RoBERTa		UVCOM	AudioCaps, WavCaps, Clotho, TACOS	FALSE	TRUE	1870000000		1870000000
14	Choi_KAIST_task6_4	40.68	choi2026_t6	M2D-CLAP	M2D-CLAP		QD-DETR, Span rerank, Coarse auxiliary, Boundary contrast InfoNCE, DN-DETR, Cascade		FALSE	TRUE	16000000	158400000	174400000
18	Usui_YCU_task6_4	40.11	usui2026_t6	M2D-CLAP	M2D-CLAP		UVCOM, Varifocal	Clotho	TRUE	FALSE	18580000	198500000	217080000
19	Choi_KAIST_task6_2	37.85	choi2026_t6	M2D-CLAP	M2D-CLAP		QD-DETR, Span rerank, Coarse auxiliary, Boundary contrast InfoNCE, DN-DETR		FALSE	FALSE	7400000	158400000	165800000
20	Calvet_AUDIAS_task6_1	37.29	calvet2026_t6	EAT	RoBERTa		UVCOM	AudioCaps, WavCaps, Clotho, TACOS	FALSE	FALSE	921300000		921300000
21	Nakazawa_AM_task6_3	36.16	nakazawa2026_t6	MS-CLAP, LAION-CLAP, BEATs, EAT, M2D-CLAP, SP-based VAD	MS-CLAP, LAION-CLAP		QD-DETR		FALSE	FALSE	9890000	587910000	597800000
22	Kang_ISCT_task6_1	35.59	kang2026_t6	OpenFLAM	FLAM text encoder	Qwen2.5-7B-Instruct	QD-DETR	AudioCaps, WavCaps	TRUE	TRUE	6990000	7780000000	7786990000
22	Nakazawa_AM_task6_1	35.59	nakazawa2026_t6	MS-CLAP, LAION-CLAP, BEATs, EAT, M2D-CLAP, SP-based VAD	MS-CLAP, LAION-CLAP		QD-DETR		FALSE	FALSE	9890000	587910000	597800000
24	Calvet_AUDIAS_task6_3	35.03	calvet2026_t6	EAT, BEATs	RoBERTa		UVCOM	AudioCaps, WavCaps, Clotho, TACOS	FALSE	FALSE	1786050000		1786050000
25	Kibata_YCU_task6_1	34.46	kibata2026_t6	MS-CLAP	MS-CLAP		CG-DETR, Varifocal, SIGReg		FALSE	FALSE	13370000	158400000	171770000
26	Xiao_HEU_task6_4	33.90	xiao2026_t6	MS-CLAP	MS-CLAP		UVCOM	AudioCaps, FSD50K	FALSE	TRUE	19000000	158000000	177000000
26	Choi_KAIST_task6_1	33.90	choi2026_t6	M2D-CLAP	M2D-CLAP		QD-DETR, Span rerank, Coarse auxiliary		FALSE	FALSE	7100000	158400000	165500000
28	Khan_WPI_task6_2	32.20	khan2026_t6	LAION-CLAP	MS-CLAP	Qwen2.5-Omni-7B	UVCOM		FALSE	TRUE	76000000	7700000000	7776000000
29	Kang_ISCT_task6_2	31.64	kang2026_t6	OpenFLAM	FLAM text encoder	Qwen2.5-7B-Instruct	QD-DETR	AudioCaps, WavCaps	TRUE	TRUE	6990000	7780000000	7786990000
29	Nakazawa_AM_task6_2	31.64	nakazawa2026_t6	MS-CLAP, LAION-CLAP, BEATs, EAT, M2D-CLAP, PaSST, SP-based VAD	MS-CLAP, LAION-CLAP, RoBERTa		QD-DETR		FALSE	FALSE	10750000	798710000	809460000
31	Xiao_HEU_task6_3	29.94	xiao2026_t6	MS-CLAP	MS-CLAP		UVCOM	AudioCaps, FSD50K	FALSE	FALSE	19000000	158000000	177000000
32	Xiao_HEU_task6_1	29.38	xiao2026_t6	MS-CLAP	MS-CLAP		UVCOM	AudioCaps, FSD50K	FALSE	FALSE	21500000	158000000	179500000
32	Chunarkar_NTHU_task6_3	29.38	chunarkar2026_t6	M2D-CLAP	M2D-CLAP		QD-DETR		FALSE	FALSE	7180000	89040000	96220000
34	Huang_WHU_task6_1	27.68	huang2026_t6	MS-CLAP	MS-CLAP		UVCOM, Boundary hard negative		TRUE	FALSE	14200000		14200000
35	Chunarkar_NTHU_task6_4	27.12	chunarkar2026_t6	M2D-CLAP, LAION-CLAP	M2D-CLAP, LAION-CLAP		QD-DETR		FALSE	TRUE	7450000	247370000	254820000
36	Xiao_HEU_task6_2	26.55	xiao2026_t6	MS-CLAP	MS-CLAP		UVCOM	AudioCaps, FSD50K	FALSE	FALSE	19000000	158000000	177000000
37	Chunarkar_NTHU_task6_2	25.99	chunarkar2026_t6	M2D-CLAP, LAION-CLAP	M2D-CLAP, LAION-CLAP		QD-DETR		FALSE	TRUE	7450000	247370000	254820000
38	Chunarkar_NTHU_task6_1	25.42	chunarkar2026_t6	M2D-CLAP	M2D-CLAP		QD-DETR		FALSE	FALSE	7180000	89040000	96220000
39	Khan_WPI_task6_1	23.73	khan2026_t6	MS-CLAP	MS-CLAP	Qwen2.5-Omni-7B	UVCOM, GRPO margin IoU reward		FALSE	TRUE	108000000	7500000000	7608000000
40	Nishijima_UTokyo_task6_3	22.60	nishijima2026_t6	Qwen2-Audio-7B-Instruct	Qwen2-Audio-7B-Instruct	Qwen2-Audio-7B-Instruct	Causal LM cross-entropy	FTAR (TimeAudio)	TRUE	TRUE	44000000	8397000000	8441000000
40	Nishijima_UTokyo_task6_4	22.60	nishijima2026_t6	Qwen2-Audio-7B-Instruct	Qwen2-Audio-7B-Instruct	Qwen2-Audio-7B-Instruct	Causal LM cross-entropy	FTAR (TimeAudio)	TRUE	TRUE	44000000	8397000000	8441000000
42	Chen_CHT_task6_1	22.03	chen2026_t6	MS-CLAP	MS-CLAP		UVCOM		FALSE	FALSE
43	LU_YZU_task6_1	21.47	lu2026_t6	MS-CLAP	MS-CLAP		QD-DETR		TRUE	FALSE	7100000		7100000
44	Nishijima_UTokyo_task6_1	20.90	nishijima2026_t6	Qwen2-Audio-7B-Instruct	Qwen2-Audio-7B-Instruct	Qwen2-Audio-7B-Instruct	Causal LM cross-entropy	FTAR (TimeAudio)	TRUE	FALSE	44000000	8397000000	8441000000
44	LU_YZU_task6_2	20.90	lu2026_t6	MS-CLAP	MS-CLAP		QD-DETR		TRUE	FALSE	7100000		7100000
46	Nishijima_UTokyo_task6_2	19.21	nishijima2026_t6	Qwen2-Audio-7B-Instruct	Qwen2-Audio-7B-Instruct	Qwen2-Audio-7B-Instruct	Causal LM cross-entropy	FTAR (TimeAudio)	TRUE	FALSE	44000000	8397000000	8441000000
47	Xu_GZHU_task6_1	15.25	xu2026_t6	MS-CLAP	MS-CLAP		QD-DETR, Focal, IoU-aware quality, Boundary auxiliary, Teacher distillation		FALSE	TRUE	7100000	158400000	165500000
48	DCASE2026_baseline_task6	13.56		MS-CLAP	MS-CLAP		QD-DETR		FALSE	FALSE	7100000	158400000	165500000
48	Huck_NV_task6_3	13.56	huck2026_t6	MS-CLAP	Audio-Flamingo				FALSE	FALSE		8000000000	8000000000
48	Nakazawa_AM_task6_4	13.56	nakazawa2026_t6	MS-CLAP, LAION-CLAP, BEATs, EAT	MS-CLAP, LAION-CLAP		QD-DETR		FALSE	FALSE	9620000	498870000	508490000
48	Zhang_XJTLU_task6_1	13.56	zhang2026_t6	MS-CLAP	MS-CLAP		Cross-entropy, Boundary classification		FALSE	FALSE	1053000	158400000	159453000
52	Huck_NV_task6_1	11.30	huck2026_t6	MS-CLAP	Audio-Flamingo				FALSE	FALSE		8000000000	8000000000
52	Kret_CooperUnion_task6_2	11.30	kret2026_t6	MS-CLAP	MS-CLAP				FALSE	FALSE
54	Kret_CooperUnion_task6_1	10.73	kret2026_t6	MS-CLAP	MS-CLAP				FALSE	FALSE
55	Huck_NV_task6_2	9.04	huck2026_t6	MS-CLAP	Audio-Flamingo				FALSE	FALSE		8000000000	8000000000
56	Huck_NV_task6_4	6.21	huck2026_t6	MS-CLAP	Audio-Flamingo				FALSE	FALSE		8000000000	8000000000
57	Minh_VGU_task6_1	5.65	minh2026_t6	MS-CLAP	MS-CLAP		QD-DETR, Focal		FALSE	FALSE	9900000		9900000
58	Zhang_XJTLU_task6_2	2.26	zhang2026_t6	MS-CLAP	MS-CLAP		Cross-entropy, Boundary classification, Boundary width hard negative, Candidate quality regression		FALSE	FALSE	1070000	158400000	159470000
59	Zhang_XJTLU_task6_3	1.13	zhang2026_t6	MS-CLAP	MS-CLAP		Cross-entropy, Boundary classification, Boundary width hard negative, Candidate quality regression, Pairwise ranking		FALSE	TRUE	2167000	158400000	160567000
59	Zhang_XJTLU_task6_4	1.13	zhang2026_t6	MS-CLAP	MS-CLAP		Cross-entropy, Boundary classification, Boundary width hard negative, Candidate quality regression, Semantic temporal risk heads, Pairwise ranking		FALSE	TRUE	2177000	158400000	160577000

Technical reports

COARSE-TO-FINE AUDIO MOMENT RETRIEVAL WITH TEMPORAL REFINEMENT AND RE-RANKING

Óscar Calvet¹, Doroteo T. Toledano²

¹AUDIAS, Escuela Politécnica Superior, Universidad Autónoma de Madrid, Madrid, Spain, ²AUDIAS, Escuela Politécnica Superior, Universidad Autónoma de Madrid

Calvet_AUDIAS_task6_1 Calvet_AUDIAS_task6_2 Calvet_AUDIAS_task6_3 Calvet_AUDIAS_task6_4

Content

Task description

Teams ranking

Systems ranking

System characteristics

Technical reports

COARSE-TO-FINE AUDIO MOMENT RETRIEVAL WITH TEMPORAL REFINEMENT AND RE-RANKING

COARSE-TO-FINE AUDIO MOMENT RETRIEVAL WITH TEMPORAL REFINEMENT AND RE-RANKING

Abstract

Audio Moment Retrieval from Long Audio for DCASE 2026 task 6

Audio Moment Retrieval from Long Audio for DCASE 2026 task 6

Abstract

MULTI-SIGNAL CASCADED GROUNDING FOR AUDIO MOMENT RETRIEVAL FROM LONG AUDIO

MULTI-SIGNAL CASCADED GROUNDING FOR AUDIO MOMENT RETRIEVAL FROM LONG AUDIO

Abstract

Exploring Pretrained Audio-Text Encoders for Audio Moment Retrieval: DCASE 2026 Task 6

Exploring Pretrained Audio-Text Encoders for Audio Moment Retrieval: DCASE 2026 Task 6

Abstract

Quality-and Boundary-Aware Cross-Modal Refinement for Long-Audio Moment Retrieval

Quality-and Boundary-Aware Cross-Modal Refinement for Long-Audio Moment Retrieval

Abstract

TEXT-SPACE IMAGINATION OF AUDIO RETRIEVAL VIA JOINT-SPACE PROJECTION

TEXT-SPACE IMAGINATION OF AUDIO RETRIEVAL VIA JOINT-SPACE PROJECTION

Abstract

FLAM-CONDITIONED QD-DETR WITH PARAPHRASE POOLING AND WEIGHTED-BOXES-FUSION ENSEMBLING FOR AUDIO MOMENT RETRIEVAL

FLAM-CONDITIONED QD-DETR WITH PARAPHRASE POOLING AND WEIGHTED-BOXES-FUSION ENSEMBLING FOR AUDIO MOMENT RETRIEVAL

Abstract

Encoder-aware Verifier Fusion with Boundary Refinement for Audio Moment Retrieval

Encoder-aware Verifier Fusion with Boundary Refinement for Audio Moment Retrieval

Abstract

ADVANCED AUDIO MOMENT RETRIEVAL VIA CG-DETR

ADVANCED AUDIO MOMENT RETRIEVAL VIA CG-DETR

Abstract

QAM-DETR SYSTEM FOR DCASE 2026 TASK 6: QUALITY-AWARE MAMBA DETR FOR QUERY-BASED AUDIO MOMENT RETRIEVAL

QAM-DETR SYSTEM FOR DCASE 2026 TASK 6: QUALITY-AWARE MAMBA DETR FOR QUERY-BASED AUDIO MOMENT RETRIEVAL

Abstract

TRAINING-FREE AUDIO MOMENT RETRIEVAL VIA BACKGROUND-CONTRASTIVE GAUSSIAN MIXTURE LOCALIZATION

TRAINING-FREE AUDIO MOMENT RETRIEVAL VIA BACKGROUND-CONTRASTIVE GAUSSIAN MIXTURE LOCALIZATION

Abstract

DCASE 2026 TASK 6: AUDIO MOMENT RETRIEVAL USING BACK-TRANSLATION AND TIME MASKING FOR DATA AUGMENTATION

DCASE 2026 TASK 6: AUDIO MOMENT RETRIEVAL USING BACK-TRANSLATION AND TIME MASKING FOR DATA AUGMENTATION

Abstract

LOCAL CONTINUITY SALIENCY DETR FOR LANGUAGE-BASED AUDIO MOMENT RETRIEVAL

LOCAL CONTINUITY SALIENCY DETR FOR LANGUAGE-BASED AUDIO MOMENT RETRIEVAL

Abstract

GATED MULTI-FEATURE FUSION FOR DCASE 2026 TASK 6

GATED MULTI-FEATURE FUSION FOR DCASE 2026 TASK 6

Abstract

TIME COMPRESSION FOR AUDIO MOMENT RETRIEVAL WITH LARGE AUDIO LANGUAGE MODELS

TIME COMPRESSION FOR AUDIO MOMENT RETRIEVAL WITH LARGE AUDIO LANGUAGE MODELS

Abstract

ENHANCED AUDIO MOMENT RETRIEVAL APPROACH FOR DCASE 2026 TASK 6

ENHANCED AUDIO MOMENT RETRIEVAL APPROACH FOR DCASE 2026 TASK 6

Abstract

YCU SUBMISSION FOR DCASE 2026 CHALLENGE TASK 6

YCU SUBMISSION FOR DCASE 2026 CHALLENGE TASK 6

Abstract

IMPROVING TEMPORAL BOUNDARY PRECISION IN AUDIO MOMENT RETRIEVAL

IMPROVING TEMPORAL BOUNDARY PRECISION IN AUDIO MOMENT RETRIEVAL

Abstract

GISP@HEU’S SUBMISSION FOR DCASE 2026 TASK 6: FREQUENCY-AWARE CROSS-MODAL FUSION FOR AUDIO MOMENT RETRIEVAL

GISP@HEU’S SUBMISSION FOR DCASE 2026 TASK 6: FREQUENCY-AWARE CROSS-MODAL FUSION FOR AUDIO MOMENT RETRIEVAL

Abstract

TEF-GUIDED AND QUALITY-AWARE DISTILLED DETR FOR LANGUAGE-BASED AUDIO MOMENT RETRIEVAL

TEF-GUIDED AND QUALITY-AWARE DISTILLED DETR FOR LANGUAGE-BASED AUDIO MOMENT RETRIEVAL

Abstract

TSEL: Temporal Semantic Evidence Learning for Language-Based Audio Moment Retrieval Xiaokai Zhang Xiang Shang Xi’an Jiaotong-Liverpool University

TSEL: Temporal Semantic Evidence Learning for Language-Based Audio Moment Retrieval Xiaokai Zhang Xiang Shang Xi’an Jiaotong-Liverpool University

Abstract