[{"data":1,"prerenderedAt":1317},["ShallowReactive",2],{"9JJStFeYqd":3,"P72sMQvZBU":758,"ob6JnlJoxV":1227,"8UodI667aj":1314},{"siteConfiguration":4,"navigations":73},{"id":5,"siteName":6,"siteDescription":7,"ieee":8,"dateFormat":9,"createdAt":10,"updatedAt":11,"url_path_id":12,"favicon":13,"header":14,"socialLinks":43,"footer":55,"seoMeta":62,"url_path":56},1,"IEEE ASRU 2025 | Honolulu, Hawaii, USA","2025 IEEE Automatic Speech Recognition and Understanding Workshop is mainly focused on bringing together academia and industry in an intimate environment to discuss new developments on the field of Automatic Speech Recognition and Understanding. This includes but is not limited to speech recognition systems, spoken dialog systems, speech analysis, paralinguistics phenomena that appear in speech, applications of automatic speech recognition and speech analysis, large language models for speech, and speech foundation models.",true,"DDD","2025-03-05T23:45:45.601Z","2025-04-08T15:41:01.901Z","21",null,{"id":5,"headerBackground":15,"siteLogo":16,"buttons":13,"affiliate":13},"base-100",{"id":17,"name":18,"alternativeText":13,"caption":13,"width":19,"height":20,"formats":21,"hash":38,"ext":23,"mime":26,"size":39,"url":40,"previewUrl":13,"provider":41,"provider_metadata":13,"createdAt":42,"updatedAt":42},55,"asru25-logo-proof_simple.png",577,174,{"small":22,"thumbnail":31},{"ext":23,"url":24,"hash":25,"mime":26,"name":27,"path":13,"size":28,"width":29,"height":30},".png","https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/small_asru25_logo_proof_simple_cd1de50298.png","small_asru25_logo_proof_simple_cd1de50298","image/png","small_asru25-logo-proof_simple.png",57.8,500,151,{"ext":23,"url":32,"hash":33,"mime":26,"name":34,"path":13,"size":35,"width":36,"height":37},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/thumbnail_asru25_logo_proof_simple_cd1de50298.png","thumbnail_asru25_logo_proof_simple_cd1de50298","thumbnail_asru25-logo-proof_simple.png",24.37,245,74,"asru25_logo_proof_simple_cd1de50298",9.42,"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/asru25_logo_proof_simple_cd1de50298.png","strapi-provider-upload-aws-s3-advanced","2025-03-16T07:25:18.431Z",[44,47,51],{"id":5,"url":45,"platform":46},"https://www.linkedin.com/company/ieee-asru","Linkedin",{"id":48,"url":49,"platform":50},2,"https://www.facebook.com/profile.php?id=61575190160130","Facebook",{"id":52,"url":53,"platform":54},3,"https://x.com/ieee_asru","Twitter",{"id":5,"prose":56,"confcatsFooter":8,"affiliatesFooter":57,"styles":58},"",false,{"id":59,"edgeTop":60,"edgeBottom":60,"background":61,"containerWidth":13},8,"None","primary",{"id":5,"eventAttendanceMode":63,"startDate":64,"endDate":65,"eventStatus":66,"previousStartDate":13,"locationName":67,"locationStreetAddress":68,"addressLocality":69,"addressRegion":70,"addressCountry":71,"registrationUrl":13,"postalCode":13,"locationUrl":72,"isEvent":8,"affiliate":13},"OfflineEventAttendanceMode","2025-12-06T06:00:00.000Z","2025-12-10T06:00:00.000Z","EventScheduled","Hyatt Regency Waikiki Resort & Spa","2424 Kalakaua Avenue","Honolulu","Hawaii","96815","https://www.hyatt.com/hyatt-regency/en-US/hnlrw-hyatt-regency-waikiki-beach-resort-and-spa?src=corp_lclb_google_seo_hnlrw&utm_source=google&utm_medium=organic&utm_campaign=lmr",{"mainNavigation":74,"footerNavigation":757},[75,121,243,433,642,680,697],{"id":48,"title":76,"menuAttached":8,"order":5,"path":77,"type":78,"uiRouterKey":79,"slug":80,"external":57,"items":81},"About","/about","WRAPPER","about","about-1",[82,104],{"id":83,"title":84,"menuAttached":8,"order":5,"path":85,"type":86,"uiRouterKey":87,"slug":88,"external":57,"related":89,"items":103},4,"Organizers","/about/organizers","INTERNAL","organizers","about-organizers",{"id":90,"heading":84,"createdAt":91,"updatedAt":92,"publishedAt":93,"url_path_id":94,"__contentType":95,"pathAlias":96,"navigationItemId":83,"createdBy":100,"updatedBy":101,"__templateName":102},12,"2025-03-14T22:35:44.978Z","2025-10-24T18:52:34.898Z","2025-03-14T23:50:43.501Z","68","api::page.page",{"id":97,"url_path":85,"generated":57,"contenttype":95,"createdAt":98,"updatedAt":99},68,"2025-03-14T22:35:44.989Z","2025-03-14T22:35:51.858Z",{},{},"Generic",[],{"id":52,"title":105,"menuAttached":8,"order":48,"path":106,"type":86,"uiRouterKey":107,"slug":108,"external":57,"related":109,"items":120},"IEEE Policies","/about/ieee-policies","ieee-policies","about-ieee-policies",{"id":59,"heading":105,"createdAt":110,"updatedAt":111,"publishedAt":112,"url_path_id":113,"__contentType":95,"pathAlias":114,"navigationItemId":52,"createdBy":118,"updatedBy":119,"__templateName":102},"2024-03-27T21:21:52.331Z","2025-03-14T23:56:41.020Z","2025-03-14T23:55:46.966Z","18",{"id":115,"url_path":106,"generated":57,"contenttype":95,"createdAt":116,"updatedAt":117},18,"2025-02-21T18:08:19.374Z","2025-03-14T21:49:55.951Z",{},{},[],{"id":122,"title":123,"menuAttached":8,"order":48,"path":124,"type":78,"uiRouterKey":125,"slug":126,"external":57,"items":127},20,"Authors","/authors","authors","authors-1",[128,147,166,185,204,224],{"id":129,"title":130,"menuAttached":8,"order":5,"path":131,"type":86,"uiRouterKey":132,"slug":133,"external":57,"related":134,"items":146},21,"Important Dates","/authors/important-dates","important-dates","authors-important-dates",{"id":135,"heading":130,"createdAt":136,"updatedAt":137,"publishedAt":138,"url_path_id":139,"__contentType":95,"pathAlias":140,"navigationItemId":129,"createdBy":144,"updatedBy":145,"__templateName":102},11,"2025-03-14T19:51:33.118Z","2025-08-12T12:34:23.713Z","2025-03-19T20:35:56.999Z","25",{"id":141,"url_path":131,"generated":57,"contenttype":95,"createdAt":142,"updatedAt":143},25,"2025-03-14T19:51:33.133Z","2025-03-25T16:23:29.315Z",{},{},[],{"id":148,"title":149,"menuAttached":8,"order":48,"path":150,"type":86,"uiRouterKey":151,"slug":152,"external":57,"related":153,"items":165},41,"Presentation Instructions","/authors/presentation-instructions","presentation-instructions","authors-presentation-instructions",{"id":154,"heading":149,"createdAt":155,"updatedAt":156,"publishedAt":157,"url_path_id":158,"__contentType":95,"pathAlias":159,"navigationItemId":148,"createdBy":163,"updatedBy":164,"__templateName":102},39,"2025-10-10T01:16:00.212Z","2025-10-16T20:58:02.242Z","2025-10-10T01:16:23.369Z","139",{"id":160,"url_path":150,"generated":57,"contenttype":95,"createdAt":161,"updatedAt":162},139,"2025-10-10T01:16:00.232Z","2025-10-10T01:16:22.182Z",{},{},[],{"id":167,"title":168,"menuAttached":8,"order":52,"path":169,"type":86,"uiRouterKey":170,"slug":171,"external":57,"related":172,"items":184},45,"Live Demo Presentation Instructions","/authors/live-demo-presentation-instructions","live-demo-presentation-instructions","authors-live-demo-presentation-instructions",{"id":173,"heading":168,"createdAt":174,"updatedAt":175,"publishedAt":176,"url_path_id":177,"__contentType":95,"pathAlias":178,"navigationItemId":167,"createdBy":182,"updatedBy":183,"__templateName":102},44,"2025-11-25T18:01:53.669Z","2025-11-26T18:40:52.645Z","2025-11-25T18:02:24.601Z","165",{"id":179,"url_path":169,"generated":57,"contenttype":95,"createdAt":180,"updatedAt":181},165,"2025-11-25T18:01:53.681Z","2025-11-25T18:02:21.105Z",{},{},[],{"id":186,"title":187,"menuAttached":8,"order":83,"path":188,"type":86,"uiRouterKey":189,"slug":190,"external":57,"related":191,"items":203},32,"Camera-Ready Paper Instructions","/authors/camera-ready-paper-instructions","camera-ready-paper-instructions","authors-camera-ready-paper-instructions",{"id":192,"heading":187,"createdAt":193,"updatedAt":194,"publishedAt":195,"url_path_id":196,"__contentType":95,"pathAlias":197,"navigationItemId":186,"createdBy":201,"updatedBy":202,"__templateName":102},31,"2025-07-30T21:28:11.956Z","2025-08-14T23:52:03.157Z","2025-07-30T21:28:15.092Z","102",{"id":198,"url_path":188,"generated":57,"contenttype":95,"createdAt":199,"updatedAt":200},102,"2025-07-30T21:28:11.970Z","2025-08-06T13:22:51.091Z",{},{},[],{"id":205,"title":206,"menuAttached":8,"order":207,"path":208,"type":86,"uiRouterKey":209,"slug":210,"external":57,"related":211,"items":223},29,"Author Instructions for Demo and Challenge Papers",5,"/authors/author-instructions-for-demo-and-challenge-papers","author-instructions-for-demo-and-challenge-papers","authors-author-instructions-for-demo-and-challenge-papers",{"id":212,"heading":206,"createdAt":213,"updatedAt":214,"publishedAt":215,"url_path_id":216,"__contentType":95,"pathAlias":217,"navigationItemId":205,"createdBy":221,"updatedBy":222,"__templateName":102},30,"2025-06-04T12:36:41.456Z","2025-06-23T18:23:54.073Z","2025-06-04T12:50:19.876Z","97",{"id":218,"url_path":208,"generated":57,"contenttype":95,"createdAt":219,"updatedAt":220},97,"2025-06-04T12:36:41.468Z","2025-06-04T12:50:16.088Z",{},{},[],{"id":225,"title":226,"menuAttached":8,"order":227,"path":228,"type":86,"uiRouterKey":229,"slug":230,"external":57,"related":231,"items":242},22,"Author Instructions",6,"/authors/author-instructions","author-instructions","authors-author-instructions",{"id":225,"heading":226,"createdAt":232,"updatedAt":233,"publishedAt":234,"url_path_id":235,"__contentType":95,"pathAlias":236,"navigationItemId":225,"createdBy":240,"updatedBy":241,"__templateName":102},"2025-03-26T00:23:31.992Z","2025-07-22T12:32:20.446Z","2025-03-26T00:49:42.096Z","79",{"id":237,"url_path":228,"generated":57,"contenttype":95,"createdAt":238,"updatedAt":239},79,"2025-03-26T00:23:32.004Z","2025-03-26T00:49:41.096Z",{},{},[],{"id":227,"title":244,"menuAttached":8,"order":52,"path":245,"type":78,"uiRouterKey":246,"slug":247,"external":57,"items":248},"Calls","/calls","calls","calls-1",[249,267,284,303,321,340,356,376,394,413],{"id":173,"title":250,"menuAttached":8,"order":5,"path":251,"type":86,"uiRouterKey":252,"slug":253,"external":57,"related":254,"items":266},"Call for Mentors","/calls/call-for-mentors","call-for-mentors","calls-call-for-mentors",{"id":255,"heading":250,"createdAt":256,"updatedAt":257,"publishedAt":258,"url_path_id":259,"__contentType":95,"pathAlias":260,"navigationItemId":173,"createdBy":264,"updatedBy":265,"__templateName":102},43,"2025-11-06T03:21:52.511Z","2025-11-06T03:22:00.847Z","2025-11-06T03:22:00.835Z","152",{"id":261,"url_path":251,"generated":57,"contenttype":95,"createdAt":262,"updatedAt":263},152,"2025-11-06T03:21:52.522Z","2025-11-06T03:21:59.476Z",{},{},[],{"id":255,"title":268,"menuAttached":8,"order":48,"path":269,"type":86,"uiRouterKey":270,"slug":271,"external":57,"related":272,"items":283},"Call for Mentees","/calls/call-for-mentees","call-for-mentees","calls-call-for-mentees",{"id":273,"heading":268,"createdAt":274,"updatedAt":275,"publishedAt":276,"url_path_id":277,"__contentType":95,"pathAlias":278,"navigationItemId":255,"createdBy":281,"updatedBy":282,"__templateName":102},42,"2025-11-06T03:20:24.881Z","2025-11-06T03:20:34.034Z","2025-11-06T03:20:34.020Z","151",{"id":30,"url_path":269,"generated":57,"contenttype":95,"createdAt":279,"updatedAt":280},"2025-11-06T03:20:24.894Z","2025-11-06T03:20:32.649Z",{},{},[],{"id":285,"title":286,"menuAttached":8,"order":52,"path":287,"type":86,"uiRouterKey":288,"slug":289,"external":57,"related":290,"items":302},35,"Call for Hackathon Participants","/calls/call-for-hackathon-participants","call-for-hackathon-participants","calls-call-for-hackathon-participants",{"id":291,"heading":286,"createdAt":292,"updatedAt":293,"publishedAt":294,"url_path_id":295,"__contentType":95,"pathAlias":296,"navigationItemId":285,"createdBy":300,"updatedBy":301,"__templateName":102},36,"2025-08-24T20:13:30.921Z","2025-09-16T14:10:00.458Z","2025-08-24T20:18:47.722Z","127",{"id":297,"url_path":287,"generated":57,"contenttype":95,"createdAt":298,"updatedAt":299},127,"2025-08-24T20:13:30.935Z","2025-08-24T20:18:46.490Z",{},{},[],{"id":192,"title":304,"menuAttached":8,"order":83,"path":305,"type":86,"uiRouterKey":306,"slug":307,"external":57,"related":308,"items":320},"Call for SPS Journal Papers","/calls/call-for-sps-journal-paper-presentations","call-for-sps-journal-papers","calls-call-for-sps-journal-paper-presentations",{"id":186,"heading":309,"createdAt":310,"updatedAt":311,"publishedAt":312,"url_path_id":313,"__contentType":95,"pathAlias":314,"navigationItemId":192,"createdBy":318,"updatedBy":319,"__templateName":102},"Call for SPS Journal Paper Presentations","2025-08-04T21:48:09.585Z","2025-08-04T21:50:16.974Z","2025-08-04T21:48:21.682Z","103",{"id":315,"url_path":305,"generated":57,"contenttype":95,"createdAt":316,"updatedAt":317},103,"2025-08-04T21:48:09.601Z","2025-08-04T21:48:19.773Z",{},{},[],{"id":90,"title":322,"menuAttached":8,"order":207,"path":323,"type":86,"uiRouterKey":324,"slug":325,"external":57,"related":326,"items":339},"Call for Papers","/calls/call-for-papers","call-for-papers","calls-call-for-papers",{"id":327,"heading":328,"createdAt":329,"updatedAt":330,"publishedAt":331,"url_path_id":332,"__contentType":95,"pathAlias":333,"navigationItemId":90,"createdBy":337,"updatedBy":338,"__templateName":102},17,"Call For Papers","2025-03-17T21:16:08.285Z","2025-04-25T22:30:18.910Z","2025-03-19T20:35:21.650Z","73",{"id":334,"url_path":323,"generated":57,"contenttype":95,"createdAt":335,"updatedAt":336},73,"2025-03-17T21:16:08.299Z","2025-03-24T13:48:46.145Z",{},{},[],{"id":135,"title":341,"menuAttached":8,"order":227,"path":342,"type":86,"uiRouterKey":343,"slug":344,"external":57,"related":345,"items":355},"Call for Tutorials","/calls/call-for-tutorials","call-for-tutorials","calls-call-for-tutorials",{"id":115,"heading":341,"createdAt":346,"updatedAt":347,"publishedAt":348,"url_path_id":349,"__contentType":95,"pathAlias":350,"navigationItemId":135,"createdBy":353,"updatedBy":354,"__templateName":102},"2025-03-17T21:27:11.031Z","2025-05-07T09:31:45.271Z","2025-03-19T20:35:33.403Z","74",{"id":37,"url_path":342,"generated":57,"contenttype":95,"createdAt":351,"updatedAt":352},"2025-03-17T21:27:11.049Z","2025-03-24T13:49:11.606Z",{},{},[],{"id":357,"title":358,"menuAttached":8,"order":359,"path":360,"type":86,"uiRouterKey":361,"slug":362,"external":57,"related":363,"items":375},13,"Call for Special Sessions",7,"/calls/call-for-special-sessions","call-for-special-sessions","calls-call-for-special-sessions",{"id":364,"heading":358,"createdAt":365,"updatedAt":366,"publishedAt":367,"url_path_id":368,"__contentType":95,"pathAlias":369,"navigationItemId":357,"createdBy":373,"updatedBy":374,"__templateName":102},19,"2025-03-17T21:33:31.075Z","2025-05-08T17:34:16.404Z","2025-03-19T20:35:26.991Z","75",{"id":370,"url_path":360,"generated":57,"contenttype":95,"createdAt":371,"updatedAt":372},75,"2025-03-17T21:33:31.087Z","2025-03-24T13:48:57.188Z",{},{},[],{"id":377,"title":378,"menuAttached":8,"order":59,"path":379,"type":86,"uiRouterKey":380,"slug":381,"external":57,"related":382,"items":393},14,"Call for Challenges","/calls/call-for-challenges","call-for-challenges","calls-call-for-challenges",{"id":122,"heading":378,"createdAt":383,"updatedAt":384,"publishedAt":385,"url_path_id":386,"__contentType":95,"pathAlias":387,"navigationItemId":377,"createdBy":391,"updatedBy":392,"__templateName":102},"2025-03-17T21:47:56.802Z","2025-06-04T15:13:20.989Z","2025-03-19T20:35:15.839Z","76",{"id":388,"url_path":379,"generated":57,"contenttype":95,"createdAt":389,"updatedAt":390},76,"2025-03-17T21:47:56.816Z","2025-03-24T13:48:35.678Z",{},{},[],{"id":141,"title":395,"menuAttached":8,"order":396,"path":397,"type":86,"uiRouterKey":398,"slug":399,"external":57,"related":400,"items":412},"Call for Satellite Workshops",9,"/calls/call-for-satellite-workshops","call-for-satellite-workshops","calls-call-for-satellite-workshops",{"id":401,"heading":395,"createdAt":402,"updatedAt":403,"publishedAt":404,"url_path_id":405,"__contentType":95,"pathAlias":406,"navigationItemId":141,"createdBy":410,"updatedBy":411,"__templateName":102},26,"2025-05-07T09:31:20.860Z","2025-06-12T13:42:50.558Z","2025-05-07T09:54:17.379Z","88",{"id":407,"url_path":397,"generated":57,"contenttype":95,"createdAt":408,"updatedAt":409},88,"2025-05-07T09:31:20.873Z","2025-05-07T09:36:18.784Z",{},{},[],{"id":401,"title":414,"menuAttached":8,"order":415,"path":416,"type":86,"uiRouterKey":417,"slug":418,"external":57,"related":419,"items":432},"Call for Demo, System and Data Papers",10,"/calls/call-for-demos","call-for-demo-system-and-data-papers","calls-call-for-demos",{"id":420,"heading":421,"createdAt":422,"updatedAt":423,"publishedAt":424,"url_path_id":425,"__contentType":95,"pathAlias":426,"navigationItemId":401,"createdBy":430,"updatedBy":431,"__templateName":102},27,"Call For Demo, System and Data Papers","2025-05-12T21:32:30.276Z","2025-06-18T12:41:20.850Z","2025-05-12T21:49:00.984Z","89",{"id":427,"url_path":416,"generated":57,"contenttype":95,"createdAt":428,"updatedAt":429},89,"2025-05-12T21:32:30.286Z","2025-05-12T21:48:59.224Z",{},{},[],{"id":207,"title":434,"menuAttached":8,"order":83,"path":435,"type":78,"uiRouterKey":436,"slug":437,"external":57,"items":438},"Program","/program","program","program-2",[439,457,464,482,500,518,536,554,573,589,607,624],{"id":440,"title":441,"menuAttached":8,"order":5,"path":442,"type":86,"uiRouterKey":443,"slug":444,"external":57,"related":445,"items":456},46,"Full Program","/program/full-program","full-program","program-full-program",{"id":167,"heading":441,"createdAt":446,"updatedAt":447,"publishedAt":448,"url_path_id":449,"__contentType":95,"pathAlias":450,"navigationItemId":440,"createdBy":454,"updatedBy":455,"__templateName":102},"2025-12-05T06:15:18.893Z","2025-12-05T06:54:44.630Z","2025-12-05T06:17:09.651Z","167",{"id":451,"url_path":442,"generated":57,"contenttype":95,"createdAt":452,"updatedAt":453},167,"2025-12-05T06:15:18.904Z","2025-12-05T06:17:06.431Z",{},{},[],{"id":458,"title":459,"menuAttached":8,"order":48,"path":460,"type":461,"uiRouterKey":462,"slug":463,"external":8},33,"Program at a Glance","https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/asru25_paag_web_02_f347eaab28.pdf","EXTERNAL","program-at-a-glance-1",{},{"id":273,"title":465,"menuAttached":8,"order":52,"path":466,"type":86,"uiRouterKey":467,"slug":468,"external":57,"related":469,"items":481},"Technical Program","/program/technical-program-schedule","technical-program-1","program-technical-program-schedule",{"id":148,"heading":470,"createdAt":471,"updatedAt":472,"publishedAt":473,"url_path_id":474,"__contentType":95,"pathAlias":475,"navigationItemId":273,"createdBy":479,"updatedBy":480,"__templateName":102},"Technical Program Schedule","2025-10-29T11:06:08.902Z","2025-12-09T18:50:47.664Z","2025-10-29T11:08:39.837Z","149",{"id":476,"url_path":466,"generated":57,"contenttype":95,"createdAt":477,"updatedAt":478},149,"2025-10-29T11:06:08.916Z","2025-10-29T11:08:35.900Z",{},{},[],{"id":420,"title":483,"menuAttached":8,"order":83,"path":484,"type":86,"uiRouterKey":485,"slug":486,"external":57,"related":487,"items":499},"Keynote Speakers","/program/keynote-speakers","keynote-speakers","program-keynote-speakers",{"id":488,"heading":483,"createdAt":489,"updatedAt":490,"publishedAt":491,"url_path_id":492,"__contentType":95,"pathAlias":493,"navigationItemId":420,"createdBy":497,"updatedBy":498,"__templateName":102},28,"2025-05-14T17:29:32.541Z","2025-08-01T14:10:06.531Z","2025-05-14T17:29:43.177Z","92",{"id":494,"url_path":484,"generated":57,"contenttype":95,"createdAt":495,"updatedAt":496},92,"2025-05-14T17:29:32.552Z","2025-05-14T17:29:41.402Z",{},{},[],{"id":501,"title":502,"menuAttached":8,"order":207,"path":503,"type":86,"uiRouterKey":504,"slug":505,"external":57,"related":506,"items":517},37,"Invited Speakers","/program/invited-speakers","invited-speakers","program-invited-speakers",{"id":501,"heading":502,"createdAt":507,"updatedAt":508,"publishedAt":509,"url_path_id":510,"__contentType":95,"pathAlias":511,"navigationItemId":501,"createdBy":515,"updatedBy":516,"__templateName":102},"2025-09-15T18:43:53.572Z","2025-10-15T18:43:44.163Z","2025-09-15T18:44:38.178Z","134",{"id":512,"url_path":503,"generated":57,"contenttype":95,"createdAt":513,"updatedAt":514},134,"2025-09-15T18:43:53.582Z","2025-09-15T18:44:36.779Z",{},{},[],{"id":415,"title":519,"menuAttached":8,"order":227,"path":520,"type":86,"uiRouterKey":521,"slug":522,"external":57,"related":523,"items":535},"Hackathon","/program/hackathon","hackathon","program-hackathon",{"id":524,"heading":519,"createdAt":525,"updatedAt":526,"publishedAt":527,"url_path_id":528,"__contentType":95,"pathAlias":529,"navigationItemId":415,"createdBy":533,"updatedBy":534,"__templateName":102},15,"2025-03-17T15:37:19.820Z","2025-11-25T21:37:14.065Z","2025-03-19T20:35:42.376Z","71",{"id":530,"url_path":520,"generated":57,"contenttype":95,"createdAt":531,"updatedAt":532},71,"2025-03-17T15:37:19.834Z","2025-03-17T15:37:30.327Z",{},{},[],{"id":524,"title":537,"menuAttached":8,"order":359,"path":538,"type":86,"uiRouterKey":539,"slug":540,"external":57,"related":541,"items":553},"Social Events","/program/social-events","social-events","program-social-events",{"id":542,"heading":537,"createdAt":543,"updatedAt":544,"publishedAt":545,"url_path_id":546,"__contentType":95,"pathAlias":547,"navigationItemId":524,"createdBy":551,"updatedBy":552,"__templateName":102},16,"2025-03-17T15:39:31.879Z","2025-03-19T20:36:02.394Z","2025-03-19T20:36:02.382Z","72",{"id":548,"url_path":538,"generated":57,"contenttype":95,"createdAt":549,"updatedAt":550},72,"2025-03-17T15:39:31.890Z","2025-03-17T22:30:46.812Z",{},{},[],{"id":555,"title":556,"menuAttached":8,"order":59,"path":557,"type":86,"uiRouterKey":558,"slug":559,"external":57,"related":560,"items":572},23,"Challenges","/program/challenges","challenges","program-challenges",{"id":561,"heading":556,"createdAt":562,"updatedAt":563,"publishedAt":564,"url_path_id":565,"__contentType":95,"pathAlias":566,"navigationItemId":555,"createdBy":570,"updatedBy":571,"__templateName":102},24,"2025-04-23T00:53:28.760Z","2025-09-10T19:51:37.789Z","2025-04-23T00:55:25.693Z","81",{"id":567,"url_path":557,"generated":57,"contenttype":95,"createdAt":568,"updatedAt":569},81,"2025-04-23T00:53:28.773Z","2025-04-23T00:55:37.063Z",{},{},[],{"id":561,"title":574,"menuAttached":8,"order":396,"path":575,"type":86,"uiRouterKey":576,"slug":577,"external":57,"related":578,"items":588},"Special Sessions","/program/special-sessions","special-sessions","program-special-sessions",{"id":141,"heading":574,"createdAt":579,"updatedAt":580,"publishedAt":13,"url_path_id":581,"__contentType":95,"pathAlias":582,"navigationItemId":561,"createdBy":586,"updatedBy":587,"__templateName":102},"2025-04-25T16:16:20.375Z","2025-09-10T18:31:16.146Z","87",{"id":583,"url_path":575,"generated":57,"contenttype":95,"createdAt":584,"updatedAt":585},87,"2025-04-25T16:16:20.385Z","2025-04-25T16:16:28.256Z",{},{},[],{"id":590,"title":591,"menuAttached":8,"order":415,"path":592,"type":86,"uiRouterKey":593,"slug":594,"external":57,"related":595,"items":606},34,"Tutorials","/program/tutorials","tutorials","program-tutorials",{"id":590,"heading":591,"createdAt":596,"updatedAt":597,"publishedAt":598,"url_path_id":599,"__contentType":95,"pathAlias":600,"navigationItemId":590,"createdBy":604,"updatedBy":605,"__templateName":102},"2025-08-22T20:55:24.608Z","2025-09-02T20:31:59.675Z","2025-08-22T21:15:44.001Z","112",{"id":601,"url_path":592,"generated":57,"contenttype":95,"createdAt":602,"updatedAt":603},112,"2025-08-22T20:55:24.624Z","2025-08-22T21:15:41.438Z",{},{},[],{"id":291,"title":608,"menuAttached":8,"order":135,"path":609,"type":86,"uiRouterKey":610,"slug":611,"external":57,"related":612,"items":623},"Satellite Workshop","/program/satellite-workshop","satellite-workshop","program-satellite-workshop",{"id":285,"heading":608,"createdAt":613,"updatedAt":614,"publishedAt":615,"url_path_id":616,"__contentType":95,"pathAlias":617,"navigationItemId":291,"createdBy":621,"updatedBy":622,"__templateName":102},"2025-08-22T23:39:32.082Z","2025-09-11T12:41:21.177Z","2025-08-22T23:52:13.537Z","126",{"id":618,"url_path":609,"generated":57,"contenttype":95,"createdAt":619,"updatedAt":620},126,"2025-08-22T23:39:32.095Z","2025-08-22T23:52:08.885Z",{},{},[],{"id":154,"title":625,"menuAttached":8,"order":90,"path":626,"type":86,"uiRouterKey":627,"slug":628,"external":57,"related":629,"items":641},"Panel","/program/panel","panel","program-panel",{"id":630,"heading":625,"createdAt":631,"updatedAt":632,"publishedAt":633,"url_path_id":634,"__contentType":95,"pathAlias":635,"navigationItemId":154,"createdBy":639,"updatedBy":640,"__templateName":102},40,"2025-10-14T19:50:21.296Z","2025-10-19T16:10:53.331Z","2025-10-14T19:50:32.477Z","145",{"id":636,"url_path":626,"generated":57,"contenttype":95,"createdAt":637,"updatedAt":638},145,"2025-10-14T19:50:21.309Z","2025-10-14T19:50:30.334Z",{},{},[],{"id":115,"title":643,"menuAttached":8,"order":207,"path":644,"type":78,"uiRouterKey":645,"slug":646,"external":57,"items":647},"Sponsors","/sponsors","sponsors","sponsors-1",[648,663],{"id":364,"title":649,"menuAttached":8,"order":5,"path":650,"type":86,"uiRouterKey":651,"slug":652,"external":57,"related":653,"items":662},"Become a Sponsor","/sponsors/become-a-sponsor","become-a-sponsor","sponsors-become-a-sponsor",{"id":415,"heading":649,"createdAt":654,"updatedAt":655,"publishedAt":13,"url_path_id":656,"__contentType":95,"pathAlias":657,"navigationItemId":364,"createdBy":660,"updatedBy":661,"__templateName":102},"2024-09-11T06:01:15.716Z","2025-07-30T17:51:03.665Z","20",{"id":122,"url_path":650,"generated":57,"contenttype":95,"createdAt":658,"updatedAt":659},"2025-02-21T18:08:19.480Z","2025-03-24T18:13:09.920Z",{},{},[],{"id":488,"title":664,"menuAttached":8,"order":48,"path":665,"type":86,"uiRouterKey":666,"slug":667,"external":57,"related":668,"items":679},"Sponsor/Exhibitor Listing","/sponsors/sponsor-exhibitor-listing","sponsor-exhibitor-listing","sponsors-sponsor-exhibitor-listing",{"id":205,"heading":664,"createdAt":669,"updatedAt":670,"publishedAt":671,"url_path_id":672,"__contentType":95,"pathAlias":673,"navigationItemId":488,"createdBy":677,"updatedBy":678,"__templateName":102},"2025-05-22T20:08:43.612Z","2025-12-03T20:04:39.305Z","2025-05-22T20:08:58.258Z","96",{"id":674,"url_path":665,"generated":57,"contenttype":95,"createdAt":675,"updatedAt":676},96,"2025-05-22T20:08:43.622Z","2025-05-22T20:08:52.289Z",{},{},[],{"id":212,"title":681,"menuAttached":8,"order":227,"path":682,"type":86,"uiRouterKey":683,"slug":684,"external":57,"related":685,"items":696},"Registration","/registration","registration","registration-1",{"id":207,"heading":681,"createdAt":686,"updatedAt":687,"publishedAt":688,"url_path_id":689,"__contentType":95,"pathAlias":690,"navigationItemId":212,"createdBy":694,"updatedBy":695,"__templateName":102},"2024-03-13T14:22:33.303Z","2025-08-22T01:13:01.225Z","2025-03-19T19:40:39.142Z","15",{"id":524,"url_path":691,"generated":57,"contenttype":95,"createdAt":692,"updatedAt":693},"/registration/registration-information","2025-02-21T18:08:19.141Z","2025-03-20T13:31:56.616Z",{},{},[],{"id":359,"title":698,"menuAttached":8,"order":359,"path":699,"type":78,"uiRouterKey":700,"slug":701,"external":57,"items":702},"Travel","/travel","travel","travel-1",[703,721,738],{"id":59,"title":704,"menuAttached":8,"order":5,"path":705,"type":86,"uiRouterKey":706,"slug":707,"external":57,"related":708,"items":720},"Accommodations","/travel/accomodations","accommodations","travel-accomodations",{"id":377,"heading":704,"createdAt":709,"updatedAt":710,"publishedAt":711,"url_path_id":712,"__contentType":95,"pathAlias":713,"navigationItemId":59,"createdBy":718,"updatedBy":719,"__templateName":102},"2025-03-17T15:13:35.786Z","2025-11-08T00:16:12.585Z","2025-03-19T20:35:07.967Z","70",{"id":714,"url_path":715,"generated":57,"contenttype":95,"createdAt":716,"updatedAt":717},70,"/travel/accommodations","2025-03-17T15:13:35.800Z","2025-03-20T13:30:59.838Z",{},{},[],{"id":396,"title":722,"menuAttached":8,"order":48,"path":723,"type":86,"uiRouterKey":724,"slug":725,"external":57,"related":726,"items":737},"Visa Information","/travel/visa-information","visa-information","travel-visa-information",{"id":357,"heading":722,"createdAt":727,"updatedAt":728,"publishedAt":729,"url_path_id":730,"__contentType":95,"pathAlias":731,"navigationItemId":396,"createdBy":735,"updatedBy":736,"__templateName":102},"2025-03-17T14:45:43.699Z","2025-03-20T13:31:12.399Z","2025-03-19T20:36:07.181Z","69",{"id":732,"url_path":723,"generated":57,"contenttype":95,"createdAt":733,"updatedAt":734},69,"2025-03-17T14:45:43.713Z","2025-03-20T13:31:12.414Z",{},{},[],{"id":327,"title":739,"menuAttached":8,"order":52,"path":740,"type":86,"uiRouterKey":741,"slug":742,"external":57,"related":743,"items":756},"Attractions","/travel/attractions","attractions","travel-attractions",{"id":129,"heading":744,"createdAt":745,"updatedAt":746,"publishedAt":747,"url_path_id":748,"__contentType":95,"pathAlias":749,"navigationItemId":327,"createdBy":754,"updatedBy":755,"__templateName":102},"Hawaiian Attractions","2025-03-17T23:13:21.220Z","2025-03-19T20:35:48.300Z","2025-03-19T20:35:48.243Z","77",{"id":750,"url_path":751,"generated":57,"contenttype":95,"createdAt":752,"updatedAt":753},77,"/travel/hawaiian-attractions","2025-03-17T23:13:21.233Z","2025-03-17T23:13:31.294Z",{},{},[],[],{"affiliates":759},{"affiliates":760},{"data":761,"meta":1225},[762,812,857,901,945,982,1020,1064,1109,1141,1180],{"id":5,"name":763,"description":56,"createdAt":764,"updatedAt":765,"publishedAt":766,"url_path_id":767,"logo":768,"website":801,"url_path":811},"JP Morgan Chase","2025-05-22T18:26:10.034Z","2025-12-05T00:04:58.448Z","2025-05-22T18:26:14.851Z","95",{"id":769,"name":770,"alternativeText":13,"caption":13,"width":771,"height":772,"formats":773,"hash":798,"ext":23,"mime":26,"size":35,"url":799,"previewUrl":13,"provider":41,"provider_metadata":13,"createdAt":800,"updatedAt":800},146,"JPMC_Logo_Standard_Black_RGB_2025-1-removebg-preview.png",1325,188,{"large":774,"small":781,"medium":786,"thumbnail":793},{"ext":23,"url":775,"hash":776,"mime":26,"name":777,"path":13,"size":778,"width":779,"height":780},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/large_JPMC_Logo_Standard_Black_RGB_2025_1_removebg_preview_432f96abbc.png","large_JPMC_Logo_Standard_Black_RGB_2025_1_removebg_preview_432f96abbc","large_JPMC_Logo_Standard_Black_RGB_2025-1-removebg-preview.png",53.73,1000,142,{"ext":23,"url":782,"hash":783,"mime":26,"name":784,"path":13,"size":785,"width":29,"height":530},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/small_JPMC_Logo_Standard_Black_RGB_2025_1_removebg_preview_432f96abbc.png","small_JPMC_Logo_Standard_Black_RGB_2025_1_removebg_preview_432f96abbc","small_JPMC_Logo_Standard_Black_RGB_2025-1-removebg-preview.png",18.99,{"ext":23,"url":787,"hash":788,"mime":26,"name":789,"path":13,"size":790,"width":791,"height":792},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/medium_JPMC_Logo_Standard_Black_RGB_2025_1_removebg_preview_432f96abbc.png","medium_JPMC_Logo_Standard_Black_RGB_2025_1_removebg_preview_432f96abbc","medium_JPMC_Logo_Standard_Black_RGB_2025-1-removebg-preview.png",35.04,750,106,{"ext":23,"url":794,"hash":795,"mime":26,"name":796,"path":13,"size":797,"width":36,"height":285},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/thumbnail_JPMC_Logo_Standard_Black_RGB_2025_1_removebg_preview_432f96abbc.png","thumbnail_JPMC_Logo_Standard_Black_RGB_2025_1_removebg_preview_432f96abbc","thumbnail_JPMC_Logo_Standard_Black_RGB_2025-1-removebg-preview.png",7.21,"JPMC_Logo_Standard_Black_RGB_2025_1_removebg_preview_432f96abbc","https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/JPMC_Logo_Standard_Black_RGB_2025_1_removebg_preview_432f96abbc.png","2025-05-22T18:25:52.977Z",{"id":561,"variation":802,"button":803},"Buttons Left",[804],{"id":488,"label":805,"size":806,"color":807,"style":13,"icon":808,"iconPosition":809,"url":810,"newWindow":8,"downloadable":13,"shape":13},"More Info","btn-sm","btn-primary","ChevronRightIcon","End","https://www.jpmorganchase.com/about/technology/research/machine-learning","-55",{"id":48,"name":813,"description":56,"createdAt":814,"updatedAt":815,"publishedAt":816,"url_path_id":817,"logo":818,"website":852,"url_path":856},"AppTek","2025-08-13T23:29:45.017Z","2025-08-13T23:42:01.472Z","2025-08-13T23:29:47.815Z","105",{"id":819,"name":820,"alternativeText":13,"caption":13,"width":821,"height":822,"formats":823,"hash":847,"ext":23,"mime":26,"size":848,"url":849,"previewUrl":13,"provider":41,"provider_metadata":13,"createdAt":850,"updatedAt":851},155,"apptekailogoblue4.png",7870,2630,{"large":824,"small":830,"medium":835,"thumbnail":841},{"ext":23,"url":825,"hash":826,"mime":26,"name":827,"path":13,"size":828,"width":779,"height":829},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/large_apptekailogoblue4_bcc724f52b.png","large_apptekailogoblue4_bcc724f52b","large_apptekailogoblue4.png",73.45,334,{"ext":23,"url":831,"hash":832,"mime":26,"name":833,"path":13,"size":834,"width":29,"height":451},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/small_apptekailogoblue4_bcc724f52b.png","small_apptekailogoblue4_bcc724f52b","small_apptekailogoblue4.png",33.74,{"ext":23,"url":836,"hash":837,"mime":26,"name":838,"path":13,"size":839,"width":791,"height":840},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/medium_apptekailogoblue4_bcc724f52b.png","medium_apptekailogoblue4_bcc724f52b","medium_apptekailogoblue4.png",54.02,251,{"ext":23,"url":842,"hash":843,"mime":26,"name":844,"path":13,"size":845,"width":36,"height":846},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/thumbnail_apptekailogoblue4_bcc724f52b.png","thumbnail_apptekailogoblue4_bcc724f52b","thumbnail_apptekailogoblue4.png",15.41,82,"apptekailogoblue4_bcc724f52b",132.71,"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/apptekailogoblue4_bcc724f52b.png","2025-08-13T23:28:21.972Z","2025-08-13T23:29:40.049Z",{"id":212,"variation":802,"button":853},[854],{"id":590,"label":805,"size":806,"color":807,"style":13,"icon":808,"iconPosition":809,"url":855,"newWindow":8,"downloadable":13,"shape":13},"https://www.apptek.com","-60",{"id":52,"name":858,"description":56,"createdAt":859,"updatedAt":860,"publishedAt":861,"url_path_id":862,"logo":863,"website":896,"url_path":900},"IEEE","2025-08-13T23:36:50.824Z","2025-08-13T23:36:52.705Z","2025-08-13T23:36:52.697Z","106",{"id":618,"name":864,"alternativeText":13,"caption":13,"width":865,"height":866,"formats":867,"hash":891,"ext":23,"mime":26,"size":892,"url":893,"previewUrl":13,"provider":41,"provider_metadata":13,"createdAt":894,"updatedAt":895},"MARKETING APPROVED IEEE LOGO.png",1772,579,{"large":868,"small":874,"medium":880,"thumbnail":885},{"ext":23,"url":869,"hash":870,"mime":26,"name":871,"path":13,"size":872,"width":779,"height":873},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/large_MARKETING_APPROVED_IEEE_LOGO_ae8aba0da4.png","large_MARKETING_APPROVED_IEEE_LOGO_ae8aba0da4","large_MARKETING APPROVED IEEE LOGO.png",39.05,327,{"ext":23,"url":875,"hash":876,"mime":26,"name":877,"path":13,"size":878,"width":29,"height":879},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/small_MARKETING_APPROVED_IEEE_LOGO_ae8aba0da4.png","small_MARKETING_APPROVED_IEEE_LOGO_ae8aba0da4","small_MARKETING APPROVED IEEE LOGO.png",16.35,163,{"ext":23,"url":881,"hash":882,"mime":26,"name":883,"path":13,"size":884,"width":791,"height":36},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/medium_MARKETING_APPROVED_IEEE_LOGO_ae8aba0da4.png","medium_MARKETING_APPROVED_IEEE_LOGO_ae8aba0da4","medium_MARKETING APPROVED IEEE LOGO.png",27.65,{"ext":23,"url":886,"hash":887,"mime":26,"name":888,"path":13,"size":889,"width":36,"height":890},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/thumbnail_MARKETING_APPROVED_IEEE_LOGO_ae8aba0da4.png","thumbnail_MARKETING_APPROVED_IEEE_LOGO_ae8aba0da4","thumbnail_MARKETING APPROVED IEEE LOGO.png",7.38,80,"MARKETING_APPROVED_IEEE_LOGO_ae8aba0da4",13.25,"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/MARKETING_APPROVED_IEEE_LOGO_ae8aba0da4.png","2025-04-04T20:31:00.820Z","2025-08-13T23:36:34.247Z",{"id":192,"variation":802,"button":897},[898],{"id":285,"label":805,"size":806,"color":807,"style":13,"icon":808,"iconPosition":809,"url":899,"newWindow":8,"downloadable":13,"shape":13},"https://www.ieee.org/","-61",{"id":83,"name":902,"description":56,"createdAt":903,"updatedAt":904,"publishedAt":905,"url_path_id":906,"logo":907,"website":940,"url_path":944},"SPS","2025-08-13T23:37:19.507Z","2025-08-13T23:37:21.693Z","2025-08-13T23:37:21.688Z","107",{"id":427,"name":908,"alternativeText":13,"caption":13,"width":909,"height":910,"formats":911,"hash":936,"ext":23,"mime":26,"size":937,"url":938,"previewUrl":13,"provider":41,"provider_metadata":13,"createdAt":939,"updatedAt":939},"ieee_sps.png",1531,959,{"large":912,"small":918,"medium":924,"thumbnail":930},{"ext":23,"url":913,"hash":914,"mime":26,"name":915,"path":13,"size":916,"width":779,"height":917},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/large_ieee_sps_61718e1f7b.png","large_ieee_sps_61718e1f7b","large_ieee_sps.png",202.02,626,{"ext":23,"url":919,"hash":920,"mime":26,"name":921,"path":13,"size":922,"width":29,"height":923},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/small_ieee_sps_61718e1f7b.png","small_ieee_sps_61718e1f7b","small_ieee_sps.png",80.4,313,{"ext":23,"url":925,"hash":926,"mime":26,"name":927,"path":13,"size":928,"width":791,"height":929},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/medium_ieee_sps_61718e1f7b.png","medium_ieee_sps_61718e1f7b","medium_ieee_sps.png",138.26,470,{"ext":23,"url":931,"hash":932,"mime":26,"name":933,"path":13,"size":934,"width":36,"height":935},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/thumbnail_ieee_sps_61718e1f7b.png","thumbnail_ieee_sps_61718e1f7b","thumbnail_ieee_sps.png",33.4,153,"ieee_sps_61718e1f7b",53.46,"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/ieee_sps_61718e1f7b.png","2025-03-17T22:13:13.179Z",{"id":186,"variation":802,"button":941},[942],{"id":291,"label":805,"size":806,"color":807,"style":13,"icon":808,"iconPosition":809,"url":943,"newWindow":8,"downloadable":13,"shape":13},"https://signalprocessingsociety.org/","-62",{"id":207,"name":946,"description":56,"createdAt":947,"updatedAt":948,"publishedAt":949,"url_path_id":950,"logo":951,"website":977,"url_path":981},"Apple","2025-09-08T20:33:51.287Z","2025-10-02T13:49:03.686Z","2025-09-08T20:33:53.159Z","128",{"id":952,"name":953,"alternativeText":13,"caption":13,"width":779,"height":779,"formats":954,"hash":973,"ext":956,"mime":959,"size":974,"url":975,"previewUrl":13,"provider":41,"provider_metadata":13,"createdAt":976,"updatedAt":976},157,"AppleLogo.jpg",{"small":955,"medium":962,"thumbnail":967},{"ext":956,"url":957,"hash":958,"mime":959,"name":960,"path":13,"size":961,"width":29,"height":29},".jpg","https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/small_Apple_Logo_bac3107bfe.jpg","small_Apple_Logo_bac3107bfe","image/jpeg","small_AppleLogo.jpg",5.06,{"ext":956,"url":963,"hash":964,"mime":959,"name":965,"path":13,"size":966,"width":791,"height":791},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/medium_Apple_Logo_bac3107bfe.jpg","medium_Apple_Logo_bac3107bfe","medium_AppleLogo.jpg",8.58,{"ext":956,"url":968,"hash":969,"mime":959,"name":970,"path":13,"size":971,"width":972,"height":972},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/thumbnail_Apple_Logo_bac3107bfe.jpg","thumbnail_Apple_Logo_bac3107bfe","thumbnail_AppleLogo.jpg",1.41,156,"Apple_Logo_bac3107bfe",12.81,"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/Apple_Logo_bac3107bfe.jpg","2025-09-08T20:33:14.571Z",{"id":291,"variation":802,"button":978},[979],{"id":154,"label":805,"size":806,"color":807,"style":13,"icon":808,"iconPosition":809,"url":980,"newWindow":8,"downloadable":13,"shape":13},"https://machinelearning.apple.com/","-80",{"id":227,"name":983,"description":56,"createdAt":984,"updatedAt":985,"publishedAt":986,"url_path_id":987,"logo":988,"website":1015,"url_path":1019},"Google","2025-09-08T20:44:50.045Z","2025-10-02T13:48:45.294Z","2025-09-08T20:44:52.007Z","129",{"id":989,"name":990,"alternativeText":13,"caption":13,"width":991,"height":992,"formats":993,"hash":1011,"ext":23,"mime":26,"size":1012,"url":1013,"previewUrl":13,"provider":41,"provider_metadata":13,"createdAt":1014,"updatedAt":1014},158,"Googlelogo.png",832,280,{"small":994,"medium":1000,"thumbnail":1006},{"ext":23,"url":995,"hash":996,"mime":26,"name":997,"path":13,"size":998,"width":29,"height":999},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/small_Googlelogo_5c3bf95ff9.png","small_Googlelogo_5c3bf95ff9","small_Googlelogo.png",27.79,168,{"ext":23,"url":1001,"hash":1002,"mime":26,"name":1003,"path":13,"size":1004,"width":791,"height":1005},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/medium_Googlelogo_5c3bf95ff9.png","medium_Googlelogo_5c3bf95ff9","medium_Googlelogo.png",45.74,252,{"ext":23,"url":1007,"hash":1008,"mime":26,"name":1009,"path":13,"size":1010,"width":36,"height":846},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/thumbnail_Googlelogo_5c3bf95ff9.png","thumbnail_Googlelogo_5c3bf95ff9","thumbnail_Googlelogo.png",12.43,"Googlelogo_5c3bf95ff9",6.75,"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/Googlelogo_5c3bf95ff9.png","2025-09-08T20:44:23.970Z",{"id":501,"variation":802,"button":1016},[1017],{"id":630,"label":805,"size":806,"color":807,"style":13,"icon":808,"iconPosition":809,"url":1018,"newWindow":8,"downloadable":13,"shape":13},"https://www.google.com/","-81",{"id":359,"name":1021,"description":56,"createdAt":1022,"updatedAt":1023,"publishedAt":1024,"url_path_id":1025,"logo":1026,"website":1058,"url_path":1063},"DataForce by TransPerfect","2025-09-09T18:43:45.315Z","2025-10-30T20:27:46.218Z","2025-09-09T18:43:47.084Z","130",{"id":1027,"name":1028,"alternativeText":13,"caption":13,"width":1029,"height":1030,"formats":1031,"hash":1054,"ext":23,"mime":26,"size":1055,"url":1056,"previewUrl":13,"provider":41,"provider_metadata":13,"createdAt":1057,"updatedAt":1057},181,"DataForce Logo Black+Blue.png",3751,695,{"large":1032,"small":1038,"medium":1044,"thumbnail":1049},{"ext":23,"url":1033,"hash":1034,"mime":26,"name":1035,"path":13,"size":1036,"width":779,"height":1037},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/large_Data_Force_Logo_Black_Blue_405c2fcb45.png","large_Data_Force_Logo_Black_Blue_405c2fcb45","large_DataForce Logo Black+Blue.png",28.9,185,{"ext":23,"url":1039,"hash":1040,"mime":26,"name":1041,"path":13,"size":1042,"width":29,"height":1043},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/small_Data_Force_Logo_Black_Blue_405c2fcb45.png","small_Data_Force_Logo_Black_Blue_405c2fcb45","small_DataForce Logo Black+Blue.png",13.76,93,{"ext":23,"url":1045,"hash":1046,"mime":26,"name":1047,"path":13,"size":1048,"width":791,"height":160},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/medium_Data_Force_Logo_Black_Blue_405c2fcb45.png","medium_Data_Force_Logo_Black_Blue_405c2fcb45","medium_DataForce Logo Black+Blue.png",21.52,{"ext":23,"url":1050,"hash":1051,"mime":26,"name":1052,"path":13,"size":1053,"width":36,"height":167},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/thumbnail_Data_Force_Logo_Black_Blue_405c2fcb45.png","thumbnail_Data_Force_Logo_Black_Blue_405c2fcb45","thumbnail_DataForce Logo Black+Blue.png",5.97,"Data_Force_Logo_Black_Blue_405c2fcb45",29.7,"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/Data_Force_Logo_Black_Blue_405c2fcb45.png","2025-10-30T20:27:40.732Z",{"id":1059,"variation":802,"button":1060},38,[1061],{"id":148,"label":805,"size":806,"color":807,"style":13,"icon":808,"iconPosition":809,"url":1062,"newWindow":8,"downloadable":13,"shape":13},"https://www.dataforce.ai/","-82",{"id":59,"name":1065,"description":56,"createdAt":1066,"updatedAt":1067,"publishedAt":1068,"url_path_id":1069,"logo":1070,"website":1104,"url_path":1108},"University of Hawaii at Manoa","2025-09-11T12:44:49.562Z","2025-09-11T12:44:51.344Z","2025-09-11T12:44:51.339Z","131",{"id":1071,"name":1072,"alternativeText":13,"caption":13,"width":1073,"height":1074,"formats":1075,"hash":1100,"ext":23,"mime":26,"size":1101,"url":1102,"previewUrl":13,"provider":41,"provider_metadata":13,"createdAt":1103,"updatedAt":1103},161,"left.png",1036,363,{"large":1076,"small":1082,"medium":1088,"thumbnail":1094},{"ext":23,"url":1077,"hash":1078,"mime":26,"name":1079,"path":13,"size":1080,"width":779,"height":1081},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/large_left_068308058a.png","large_left_068308058a","large_left.png",129.95,350,{"ext":23,"url":1083,"hash":1084,"mime":26,"name":1085,"path":13,"size":1086,"width":29,"height":1087},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/small_left_068308058a.png","small_left_068308058a","small_left.png",48.71,175,{"ext":23,"url":1089,"hash":1090,"mime":26,"name":1091,"path":13,"size":1092,"width":791,"height":1093},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/medium_left_068308058a.png","medium_left_068308058a","medium_left.png",85.73,263,{"ext":23,"url":1095,"hash":1096,"mime":26,"name":1097,"path":13,"size":1098,"width":36,"height":1099},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/thumbnail_left_068308058a.png","thumbnail_left_068308058a","thumbnail_left.png",18.23,86,"left_068308058a",24.62,"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/left_068308058a.png","2025-09-11T12:44:34.918Z",{"id":630,"variation":802,"button":1105},[1106],{"id":255,"label":805,"size":806,"color":807,"style":13,"icon":808,"iconPosition":809,"url":1107,"newWindow":8,"downloadable":13,"shape":13},"https://manoa.hawaii.edu/","-83",{"id":396,"name":1110,"description":56,"createdAt":1111,"updatedAt":1112,"publishedAt":1113,"url_path_id":1114,"logo":1115,"website":1136,"url_path":1140},"Podonos","2025-10-02T13:41:05.509Z","2025-10-02T13:41:07.938Z","2025-10-02T13:41:07.928Z","135",{"id":879,"name":1116,"alternativeText":13,"caption":13,"width":1117,"height":1118,"formats":1119,"hash":1132,"ext":23,"mime":26,"size":1133,"url":1134,"previewUrl":13,"provider":41,"provider_metadata":13,"createdAt":1135,"updatedAt":1135},"podonoscilogohorizontalrgb.png",600,114,{"small":1120,"thumbnail":1126},{"ext":23,"url":1121,"hash":1122,"mime":26,"name":1123,"path":13,"size":1124,"width":29,"height":1125},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/small_podonoscilogohorizontalrgb_02455dc2ad.png","small_podonoscilogohorizontalrgb_02455dc2ad","small_podonoscilogohorizontalrgb.png",22.21,95,{"ext":23,"url":1127,"hash":1128,"mime":26,"name":1129,"path":13,"size":1130,"width":36,"height":1131},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/thumbnail_podonoscilogohorizontalrgb_02455dc2ad.png","thumbnail_podonoscilogohorizontalrgb_02455dc2ad","thumbnail_podonoscilogohorizontalrgb.png",7.99,47,"podonoscilogohorizontalrgb_02455dc2ad",5.87,"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/podonoscilogohorizontalrgb_02455dc2ad.png","2025-10-02T13:40:22.628Z",{"id":148,"variation":802,"button":1137},[1138],{"id":173,"label":805,"size":806,"color":807,"style":13,"icon":808,"iconPosition":809,"url":1139,"newWindow":8,"downloadable":13,"shape":13},"https://www.podonos.com","-86",{"id":415,"name":1142,"description":56,"createdAt":1143,"updatedAt":1144,"publishedAt":1145,"url_path_id":1146,"logo":1147,"website":1175,"url_path":1179},"Magic Data","2025-11-05T15:25:33.803Z","2025-11-05T15:25:43.961Z","2025-11-05T15:25:43.950Z","150",{"id":1148,"name":1149,"alternativeText":13,"caption":13,"width":1150,"height":1151,"formats":1152,"hash":1171,"ext":23,"mime":26,"size":1172,"url":1173,"previewUrl":13,"provider":41,"provider_metadata":13,"createdAt":1174,"updatedAt":1174},183,"20251104152637384.png",812,184,{"small":1153,"medium":1159,"thumbnail":1165},{"ext":23,"url":1154,"hash":1155,"mime":26,"name":1156,"path":13,"size":1157,"width":29,"height":1158},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/small_20251104152637384_d8c518db79.png","small_20251104152637384_d8c518db79","small_20251104152637384.png",25.49,113,{"ext":23,"url":1160,"hash":1161,"mime":26,"name":1162,"path":13,"size":1163,"width":791,"height":1164},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/medium_20251104152637384_d8c518db79.png","medium_20251104152637384_d8c518db79","medium_20251104152637384.png",40.95,170,{"ext":23,"url":1166,"hash":1167,"mime":26,"name":1168,"path":13,"size":1169,"width":36,"height":1170},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/thumbnail_20251104152637384_d8c518db79.png","thumbnail_20251104152637384_d8c518db79","thumbnail_20251104152637384.png",11.05,56,"20251104152637384_d8c518db79",6.6,"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/20251104152637384_d8c518db79.png","2025-11-05T15:25:14.629Z",{"id":255,"variation":802,"button":1176},[1177],{"id":440,"label":805,"size":806,"color":807,"style":13,"icon":808,"iconPosition":809,"url":1178,"newWindow":8,"downloadable":13,"shape":13},"https://www.magicdatatech.com/","-97",{"id":135,"name":1181,"description":56,"createdAt":1182,"updatedAt":1183,"publishedAt":1184,"url_path_id":1185,"logo":1186,"website":1219,"url_path":1224},"ByteDance","2025-12-03T19:32:55.984Z","2025-12-03T19:32:57.913Z","2025-12-03T19:32:57.905Z","166",{"id":1187,"name":1188,"alternativeText":13,"caption":13,"width":1189,"height":1190,"formats":1191,"hash":1215,"ext":23,"mime":26,"size":1216,"url":1217,"previewUrl":13,"provider":41,"provider_metadata":13,"createdAt":1218,"updatedAt":1218},195,"ByteDance-logo-RGB-fullcolor.png",4553,1640,{"large":1192,"small":1198,"medium":1204,"thumbnail":1210},{"ext":23,"url":1193,"hash":1194,"mime":26,"name":1195,"path":13,"size":1196,"width":779,"height":1197},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/large_Byte_Dance_logo_RGB_fullcolor_779b5e2458.png","large_Byte_Dance_logo_RGB_fullcolor_779b5e2458","large_ByteDance-logo-RGB-fullcolor.png",26.2,360,{"ext":23,"url":1199,"hash":1200,"mime":26,"name":1201,"path":13,"size":1202,"width":29,"height":1203},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/small_Byte_Dance_logo_RGB_fullcolor_779b5e2458.png","small_Byte_Dance_logo_RGB_fullcolor_779b5e2458","small_ByteDance-logo-RGB-fullcolor.png",12.75,180,{"ext":23,"url":1205,"hash":1206,"mime":26,"name":1207,"path":13,"size":1208,"width":791,"height":1209},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/medium_Byte_Dance_logo_RGB_fullcolor_779b5e2458.png","medium_Byte_Dance_logo_RGB_fullcolor_779b5e2458","medium_ByteDance-logo-RGB-fullcolor.png",19.31,270,{"ext":23,"url":1211,"hash":1212,"mime":26,"name":1213,"path":13,"size":1214,"width":36,"height":407},"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/thumbnail_Byte_Dance_logo_RGB_fullcolor_779b5e2458.png","thumbnail_Byte_Dance_logo_RGB_fullcolor_779b5e2458","thumbnail_ByteDance-logo-RGB-fullcolor.png",5.72,"Byte_Dance_logo_RGB_fullcolor_779b5e2458",26.84,"https://confcats-siteplex.s3.us-east-1.amazonaws.com/asru25/Byte_Dance_logo_RGB_fullcolor_779b5e2458.png","2025-12-03T19:32:42.345Z",{"id":440,"variation":802,"button":1220},[1221],{"id":1222,"label":805,"size":806,"color":807,"style":13,"icon":808,"iconPosition":809,"url":1223,"newWindow":8,"downloadable":13,"shape":13},49,"https://www.bytedance.com/","-110",{"pagination":1226},{"page":5,"pageSize":141,"pageCount":5,"total":135},{"id":148,"heading":470,"pageHeader":1228,"sections":1229},{"id":148,"description":13,"showPageHeader":8,"backgroundColor":61,"image":13},[1230,1242,1252,1259,1268,1280,1290,1295,1305],{"id":1231,"__component":1232,"componentVariation":1233,"styles":13,"header":1234,"body":1239},132,"content.content","Content Image Left",{"id":1235,"heading":1236,"prose":56,"lead":1237,"eyebrow":13,"badge":13,"componentVariation":1238,"containerWidth":13,"image":13},178,"Poster Session 1","December 7 | 10:30-12:00","Heading Left",{"id":1240,"title":13,"body":1241,"containerWidth":13,"buttonGroup":13,"media":13},99,"\u003Cfigure class=\"table\">\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>Paper ID\u003C/th>\u003Cth>Paper Title\u003C/th>\u003Cth>Authors\u003C/th>\u003C/tr>\u003C/thead>\u003Ctbody>\u003Ctr>\u003Ctd>29\u003C/td>\u003Ctd>SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition\u003C/td>\u003Ctd>Ming-Hao Hsu (National Taiwan University)*; Hung-yi Lee (National Taiwan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>35\u003C/td>\u003Ctd>Unifying model and layer fusion for Speech Foundation Models\u003C/td>\u003Ctd>Yi-Jen Shih (The University of Texas at Austin)*; David Harwath (The University of Texas at Austin)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>36\u003C/td>\u003Ctd>Analysis of Domain Shift across ASR Architectures via TTS-Enabled Separation of Target Domain and Acoustic Conditions\u003C/td>\u003Ctd>Tina Raissi (RWTH Aachen University)*; Nick Rossenbach (RWTH Aachen University); Ralf Schlüter (RWTH Aachen University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>81\u003C/td>\u003Ctd>Enhancing Fully Formatted End-to-End Speech Recognition with Knowledge Distillation via Multi-Codebook Vector Quantization\u003C/td>\u003Ctd>Jian You (Cisco Systems)*; Xiangfeng Li (Cisco Systems); Erwan Zerhouni (Cisco Systems)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>85\u003C/td>\u003Ctd>Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction\u003C/td>\u003Ctd>Yangui Fang (Huazhong University of Science and Technology)*; Baixu Chen (Huazhong University of Science and Technology); Jing Peng (MoE Key Lab of Artificial Intelligence, AI Institute, X-LANCE Lab, Shanghai Jiao Tong University, Shanghai, China); Xu Li (AISpeech Ltd, Suzhou); Yu Xi (MoE Key Lab of Artificial Intelligence, AI Institute, X-LANCE Lab, Shanghai Jiao Tong University, Shanghai, China); Chengwei Zhang (Huazhong University of Science and Technology); Guohui Zhong (Huazhong University of Science and Technology)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>99\u003C/td>\u003Ctd>Omni-Router: Sharing Routing Decisions in Sparse Mixture-of-Experts for Speech Recognition\u003C/td>\u003Ctd>Zijin Gu (Apple)*; Tatiana Likhomanenko (Apple); Navdeep Jaitly (Apple)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>116\u003C/td>\u003Ctd>Revealing the Role of Audio Channels in ASR Performance Degradation\u003C/td>\u003Ctd>Kuan-Tang Huang (National Taiwan Normal University)*; Li-Wei Chen (National Tsing Hua University); Hung-Shin Lee (United Link Co., Ltd.); Berlin Chen (National Taiwan Normal University); Hsin-Min Wang (Academia Sinica)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>120\u003C/td>\u003Ctd>Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning\u003C/td>\u003Ctd>Yangui Fang (Huazhong University of Science and Technology)*; Jing Peng (Shanghai Jiao Tong University); Xu Li (AISpeech Ltd, Suzhou, China); Yu Xi (Shanghai Jiao Tong University); Chengwei Zhang (Huazhong University of Science and Technology); Guohui Zhong (Huazhong University of Science and Technology); Kai Yu (Shanghai Jiao Tong University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>145\u003C/td>\u003Ctd>Benchmarking Rotary Position Embeddings for Automatic Speech Recognition\u003C/td>\u003Ctd>Shucong Zhang (Samsung)*; Titouan Parcollet (Samsung); Rogier van Dalen (Samsung); Sourav Bhattacharya (Samsung)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>185\u003C/td>\u003Ctd>PRIME: Novel Prompting Strategies for Effective Biasing Word Recognition in Contextualized ASR\u003C/td>\u003Ctd>Yu-Chun Liu (National Taiwan Normal University)*; Li-Ting Pai (National Taiwan Normal University); Yi-Cheng Wang (National Taiwan Normal University); Bi-Cheng Yan (National Taiwan Normal University); Hsin-Wei Wang (National Taiwan Normal University); Chi-Han Lin (E.SUN Financial Holding Co., Ltd.); Juan-Wei Xu (E.SUN Financial Holding Co., Ltd.); Berlin Chen (National Taiwan Normal University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>208\u003C/td>\u003Ctd>A Neural Model for Contextual Biasing Score Learning and Filtering\u003C/td>\u003Ctd>Wanting Huang (University of Iowa); Weiran Wang (University of Iowa)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>245\u003C/td>\u003Ctd>Non-Autoregressive Multi-Speaker ASR with Decoupled Speaker Change Detection\u003C/td>\u003Ctd>Yingke Zhu (Fano)*; Lahiru Samarakoon (Fano)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>257\u003C/td>\u003Ctd>Hybrid Decoding: Rapid Pass and Selective Detailed Correction for Sequence Models\u003C/td>\u003Ctd>Yunkyu Lim (42dot)*; Jihwan Park (42dot); Hyung Yong Kim (42dot); Hanbin Lee (42dot); Byeong-Yeol Kim (42dot)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>261\u003C/td>\u003Ctd>Evaluation of LLMs in Speech is Often Flawed: Test Set Contamination in Large Language Models for Speech Recognition\u003C/td>\u003Ctd>Yuan Tseng (Samsung AI Center-Cambridge)*; Titouan Parcollet (Samsung AI Center-Cambridge); Rogier van Dalen (Samsung AI Center-Cambridge); Shucong Zhang (Samsung AI Center-Cambridge); Sourav Bhattacharya (Samsung AI Center-Cambridge)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>10\u003C/td>\u003Ctd>Sinba: Singing-to-Accompaniment Generation with Pitch Guidance via Mamba-Based Language Model\u003C/td>\u003Ctd>Jianwei Cui (University of Science and Technology of China)*; Shihao Chen (University of Science and Technology of China); Yu Gu (Tencent); Jie Zhang (University of Science and Technology of China); Liping Chen (University of Science and Technology of China); Na Li (Tencent); Chengxing Li (Tencent); Shan Yang (Tencent); Lirong Dai (University of Science and Technology of China)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>40\u003C/td>\u003Ctd>Analysing the Language of Neural Audio Codecs\u003C/td>\u003Ctd>Joonyong Park (The University of Tokyo)*; Shinnosuke Takamichi (Keio University, The University of Tokyo); David M. Chan (University of California, Berkeley); Shunsuke Kando (The University of Tokyo); Yuki Saito (The University of Tokyo); Hiroshi Saruwatari (The University of Tokyo)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>199\u003C/td>\u003Ctd>L2 Vowel Acquisition Analysis at the Inventory Level\u003C/td>\u003Ctd>Shuju Shi (University of Illinois Urbana-Champaign)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>275\u003C/td>\u003Ctd>Benchmarking Fast Domain Adaptation for Unsupervised Speech Units\u003C/td>\u003Ctd>Robin San Roman (Meta)*; Manel Khentout (ENS); Tu anh Nguyen (ENS); Paul Michel (ENS); Yossi Adi (Hebrew University of Jerusalem); Emmanuel Dupoux (ENS)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>324\u003C/td>\u003Ctd>On the Difficulty of Token-Level Modeling of Dysfluency and Fluency Shaping Artifacts\u003C/td>\u003Ctd>Kashaf Gulzar (Technische Hochschule Nürnberg Georg Simon Ohm)*; Dominik Wagner (Technische Hochschule Nürnberg Georg Simon Ohm); Sebastian P. Bayerl (Technische Hochschule Rosenheim); Florian Hönig (KST Institut GmbH); Tobias Bocklet (Technische Hochschule Nürnberg Georg Simon Ohm); Korbinian Riedhammer (Technische Hochschule Nürnberg Georg Simon Ohm)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>351\u003C/td>\u003Ctd>Reliability of Lexical Richness Measures for ASR-Based Children’s Speech Assessment\u003C/td>\u003Ctd>Imen Talbi (Leibniz University Hannover)*; Christopher Gebauer (Leibniz University Hannover ); Lars Rumberg (Leibniz Universität Hannover); Edith Beaulac (Leibniz Universität Hannover); Hanna Ehlert (Leibniz Universität Hannover); Jörn Ostermann (Leibniz Universität Hannover)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>360\u003C/td>\u003Ctd>LLM-Based Dictation Detection from Doctor-Patient Conversations\u003C/td>\u003Ctd>Siyuan Chen (Solventum Health Information Systems); Mojtaba Kadkhodaie Elyaderani (Solventum Health Information Systems); Jing Su (Solventum Health Information Systems); Susanne Burger (Solventum Health Information Systems); Thomas Schaaf (Solventum Health Information Systems)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>395\u003C/td>\u003Ctd>Acoustic to Articulatory Speech Inversion for Children with Velopharyngeal Insufficiency\u003C/td>\u003Ctd>Saba Tabatabaee (University of Maryland)*; Suzanne Boyce (University of Cincinnati); Liran Oren (University of Cincinnati); Mark Tiede (Yale University); Carol Espy-Wilson (University of Maryland)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>443\u003C/td>\u003Ctd>Text-Guided Speech Representations for Language Acquisition Assessment\u003C/td>\u003Ctd>Ilja Baumann (Technische Hochschule Nürnberg Georg Simon Ohm)*; Dominik Wagner (Technische Hochschule Nürnberg Georg Simon Ohm); Philipp Seeberger (Technische Hochschule Nürnberg Georg Simon Ohm); Korbinian Riedhammer (Technische Hochschule Nürnberg Georg Simon Ohm); Tobias Bocklet (Technische Hochschule Nürnberg Georg Simon Ohm)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>96\u003C/td>\u003Ctd>OOQ: Outlier-Oriented Quantization for Efficient Large Language Models\u003C/td>\u003Ctd>Haoyu Wang (Shanghai Jiao Tong University)*; Bei Liu (Shanghai Jiao Tong University); Hang Shao (Shanghai Jiao Tong University); Bo Xiao ( Meituan); Ke Zeng ( Meituan); Guanglu Wan (Meituan); Yanmin Qian ( Shanghai Jiao Tong University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>42\u003C/td>\u003Ctd>CLAIRA: Leveraging Large Language Models to Judge Audio Captions\u003C/td>\u003Ctd>Tsung-Han Wu (UC Berkeley); Joseph E Gonzalez (UC Berkeley); Trevor Darrell (UC Berkeley); David Chan (University of California, Berkeley)*\u003C/td>\u003C/tr>\u003C/tbody>\u003C/table>\u003C/figure>",{"id":512,"__component":1232,"componentVariation":1233,"styles":1243,"header":1245,"body":1249},{"id":1118,"edgeTop":60,"edgeBottom":60,"background":1244,"containerWidth":13},"base-50",{"id":1246,"heading":1247,"prose":56,"lead":1248,"eyebrow":13,"badge":13,"componentVariation":1238,"containerWidth":13,"image":13},179,"Special Sessions 1 & 2","December 7 | 14:00-15:30",{"id":1250,"title":13,"body":1251,"containerWidth":13,"buttonGroup":13,"media":13},101,"\u003Cfigure class=\"table\">\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>Paper ID\u003C/th>\u003Cth>Paper Title\u003C/th>\u003Cth>Authors\u003C/th>\u003C/tr>\u003C/thead>\u003Ctbody>\u003Ctr>\u003Ctd>12\u003C/td>\u003Ctd>EMO-Debias: Benchmarking Gender De-biasing Techniques in Multi-Label Speech Emotion Recognition\u003C/td>\u003Ctd>Yi-Cheng Lin (National Taiwan University)*; Huang-Cheng Chou (Independent Researcher); Yu-Hsuan Li Liang (National Taiwan University); Hung-yi Lee (National Taiwan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>32\u003C/td>\u003Ctd>CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition\u003C/td>\u003Ctd>Yun-Shao Tsai (National Taiwan University)*; Yi-Cheng Lin (National Taiwan University); Huang-Cheng Chou (Independent Researcher); Hung-yi Lee (National Taiwan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>55\u003C/td>\u003Ctd>Efficient Speech Watermarking for Speech Synthesis via Progressive Knowledge Distillation\u003C/td>\u003Ctd>Yang Cui (Microsoft)*; Lei He (Microsoft); Peter Pan (Microsoft); Sheng Zhao (Microsoft)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>144\u003C/td>\u003Ctd>StellarTTS: Sparse Temporal Embedding for Low-Latency and Robust Speech Synthesis\u003C/td>\u003Ctd>Kaicheng Luo (Honor Device Co., Ltd.)*; Xuefei Gong (Honor Device Co., Ltd.); Yutao Sun (Honor Device Co., Ltd.); Jinling He (Honor Device Co., Ltd.); Yujie Hou (Honor Device Co., Ltd.); Xiaoyang Xing (Honor Device Co., Ltd.); Huiyan Li (Honor Device Co., Ltd.); Bing Han (Shanghai Jiao Tong University); Yanmin Qian (Shanghai Jiao Tong University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>230\u003C/td>\u003Ctd>Advancing Controllable Music Generation with Latent Rectified Flow Guided by Rhythm and Harmony\u003C/td>\u003Ctd>Haibin Yu (Shanghai Jiao Tong University)*; Jiayi Zhou (Ant Group); Wei Wang (Shanghai Jiao Tong University); Zhiming Wang (Ant Group); Huijia Zhu (Ant Group); Yanmin Qian (Shanghai Jiao Tong Univerisity)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>333\u003C/td>\u003Ctd>Improving Streaming ASR via Differentially Private Fusion of Data from Multiple Sources\u003C/td>\u003Ctd>Virat Shejwalkar (Google)*; Om Thakkar (OpenAI); Steve Chien (Google); Nicole Rafidi (Google); Arun Narayanan (Google )\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>503\u003C/td>\u003Ctd>HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids\u003C/td>\u003Ctd>Dyah A. M. G. Wisnu (Academia Sinica); Stefano Rini (National Yang Ming Chiao Tung University); Ryandhimas E. Zezario (Academia Sinica); Hsin-Min Wang (Academia Sinica); Yu Tsao (Academia Sinica)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>57\u003C/td>\u003Ctd>Acoustic Phonetic Temporal Speech Representation\u003C/td>\u003Ctd>Yunbin Deng (MIT)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>76\u003C/td>\u003Ctd>Token-based Attractors and Cross-attention in Spoof Diarization\u003C/td>\u003Ctd>kyo-won koo (University of Seoul)*; Chan-yeong Lim (University of Seoul); Jee-weon Jung (Carnegie Mellon University); Hye-jin Shim (Carnegie Mellon University); Ha-Jin Yu (University of Seoul)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>173\u003C/td>\u003Ctd>Rapidly Adapting to New Voice Spoofing: Few-Shot Detection of Synthesized Speech Under Distribution Shifts\u003C/td>\u003Ctd>Ashi Garg (Johns Hopkins University)*; Zexin Cai (Johns Hopkins University); Henry Li (Johns Hopkins Universtiy); Paola Garcia (Johns Hopkins University); Kevin Duh (Johns Hopkins University); Sanjeev Khudanpur (Johns Hopkins University); Matthew Wiesner (Johns Hopkins University); Nicholas Andrews (Johns Hopkins University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>211\u003C/td>\u003Ctd>MoLEx: Mixture of LoRA Experts in Speech Self-Supervised Models for Audio Deepfake Detection\u003C/td>\u003Ctd>Zihan Pan (Institute for Infocomm Research (I2R), A*STAR, Singapore)*; Hardik Sailor (Institute for Infocomm Research (I2R), A*STAR, Singapore); Jinyang Wu (Institute for Infocomm Research (I2R), A*STAR, Singapore)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>215\u003C/td>\u003Ctd>Towards Generalized Source Tracing for Codec-Based Deepfake Speech\u003C/td>\u003Ctd>I-Ming Lin (National Taiwan University); XUANJUN CHEN (National Taiwan University)*; Lin Zhang (Johns Hopkins University); Haibin Wu (National Taiwan University); Hung-yi Lee (National Taiwan University); Jyh-Shing Roger Jang (National Taiwan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>241\u003C/td>\u003Ctd>Post-training for Deepfake Speech Detection\u003C/td>\u003Ctd>Wanying Ge (National Institute of Informatics)*; Xin Wang (National Institute of Informatics); Xuechen Liu (National Institute of Informatics); Junichi Yamagishi (National Institute of Informatics)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>334\u003C/td>\u003Ctd>Multilingual Dataset Integration Strategies for Robust Audio Deepfake Detection: A SAFE Challenge System\u003C/td>\u003Ctd>Hashim Ali (University of Michigan)*; Surya Subramani (University of Michigan); Lekha Bollinani (University of Michigan); Nithin Sai Adupa (University of Michigan); Hafiz Malik (University of Michigan); Sali El-Loh (University of Michigan-Dearborn)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>419\u003C/td>\u003Ctd>Fake-Mamba: Real-Time Speech Deepfake Detection Using Bidirectional Mamba as Self-Attention Alternative\u003C/td>\u003Ctd>Xi Xuan (University of Eastern Finland)*; Zimo Zhu (University of California, Santa Barbara); Wenxin Zhang (University of Chinese Academy of Science); Yi-Cheng Lin (National Taiwan University); Tomi Kinnunen (University of Eastern Finland)\u003C/td>\u003C/tr>\u003C/tbody>\u003C/table>\u003C/figure>",{"id":1253,"__component":1232,"componentVariation":1233,"styles":13,"header":1254,"body":1257},135,{"id":1203,"heading":1255,"prose":56,"lead":1256,"eyebrow":13,"badge":13,"componentVariation":1238,"containerWidth":13,"image":13},"Poster Session 2","December 7 | 16:00-17:30",{"id":198,"title":13,"body":1258,"containerWidth":13,"buttonGroup":13,"media":13},"\u003Cfigure class=\"table\">\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>Paper ID\u003C/th>\u003Cth>Paper Title\u003C/th>\u003Cth>Authors\u003C/th>\u003C/tr>\u003C/thead>\u003Ctbody>\u003Ctr>\u003Ctd>26\u003C/td>\u003Ctd>SincQDR-VAD: A Noise-Robust Voice Activity Detection Framework Leveraging Learnable Filters and Ranking-Aware Optimization\u003C/td>\u003Ctd>Chien-Chun Wang (National Taiwan Normal University)*; En-Lun Yu (National Taiwan Normal University); Jeih-Weih Hung (National Chi Nan University); Shih-Chieh Huang (Realtek Semiconductor Corp.); Berlin Chen (National Taiwan Normal University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>59\u003C/td>\u003Ctd>PhysMVNet: Physics-Informed End-to-End MVDR Beamformer with Residual Spectral Mapping for Multichannel Speech Enhancement\u003C/td>\u003Ctd>Xingyu Shen (Concordia University); Wei-Ping Zhu (Concordia University)*; Benoit Champagne (McGill University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>65\u003C/td>\u003Ctd>LauraTSE: Target Speaker Extraction using Auto-Regressive Decoder-Only Language Models\u003C/td>\u003Ctd>Beilong Tang (Duke Kunshan University)*; Bang Zeng (Duke Kunshan University); Ming Li (Duke Kunshan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>80\u003C/td>\u003Ctd>Lightweight Wasserstein Audio-Visual Model for Unified Speech Enhancement and Separation\u003C/td>\u003Ctd>Jisoo Park (Chung-Ang University); Seonghak Lee (Chung-Ang University); Guisik Kim (Korea Electronics Technology Institute (KETI)); Taewoo Kim (Korea Electronics Technology Institute (KETI)); Junseok Kwon (Chung-Ang University)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>114\u003C/td>\u003Ctd>MBENet: Bone-conduction and Air-conduction Fusion Network for Target Speaker Extraction\u003C/td>\u003Ctd>Chen Zhang (School of Marine Science and Technology, Northwestern Polytechnical University); Linfeng Feng (School of Marine Science and Technology, Northwestern Polytechnical University); Zhi Liu (Shenzhen Huangli Techonogies Company Ltd., Shenzhen, China); Xiao-Lei Zhang (Research &amp; Development Institute of Northwestern Polytechnical University in Shenzhen)*; Xuelong Li (Institute of Artificial intelligence (TeleAl), China Telecom Corporation Ltd., Beiing, China)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>136\u003C/td>\u003Ctd>Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction\u003C/td>\u003Ctd>Amartya Veer (Indian Institute of Science)*; Murali Kadambi (Indian Institute of Science); Chandra Mohan Sharma (Center for Artificial Intelligence and Robotics, DRDO); Anupam Mondal (Center for Artificial Intelligence and Robotics, DRDO); Prasanta Kumar Ghosh (Indian Institute of Science)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>154\u003C/td>\u003Ctd>Time-Frequency-Based Attention Cache Memory Model for Real-Time Speech Separation\u003C/td>\u003Ctd>Guo Chen (Tsinghua University); Kai Li (Tsinghua University)*; Runxuan Yang (Tsinghua University); Xiaolin Hu (Tsinghua University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>162\u003C/td>\u003Ctd>A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References\u003C/td>\u003Ctd>Simon Jepsen (Aalborg University)*; Mads Græsbøll Christensen (Aalborg University); Jesper Rindom Jensen (Aalborg University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>187\u003C/td>\u003Ctd>Deep Audio Zooming: Creating a Sound Barrier with Microphone Array Processing\u003C/td>\u003Ctd>Meng Yu (Tencent)*; Dong Yu (Tencent )\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>226\u003C/td>\u003Ctd>EchoFree: Towards Ultra Lightweight and Efficient Neural Acoustic Echo Cancellation\u003C/td>\u003Ctd>Xingchen Li (Northwestern Polytechnical University)*; Boyi Kang ( Northwestern Polytechnical University); Ziqian Wang (Northwestern Polytechnical University); Zihan Zhang (Northwestern Polytechnical University); Mingshuai Liu (Northwestern Polytechnical University); Zhonghua Fu (Northwestern Polytechnical University); Lei Xie (Northwestern Polytechnical University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>286\u003C/td>\u003Ctd>Geometry-Agnostic Acoustic Processing: A Dynamic Spatial Network for Joint Echo Cancellation and Noise Suppression\u003C/td>\u003Ctd>kangqi jing (Southeast University)*; wenbin zhang (midea); jun du (University of Science and Technology of China); qing wang (University of Science and Technology of China); yu gao (midea)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>296\u003C/td>\u003Ctd>AdaBit-TasNet: Speech Separation with Inference Adaptable Precision\u003C/td>\u003Ctd>Mohamed Elminshawi (International Audio Laboratories Erlangen)*; Srikanth Raj Chetupalli (Indian Institute of Technology Bombay); Emanuël Habets (AudioLabs)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>310\u003C/td>\u003Ctd>Improving Speech Enhancement with Multi-Metric Supervision from Learned Quality Assessment\u003C/td>\u003Ctd>Wei Wang (Shanghai Jiao Tong University)*; Wangyou Zhang (Shanghai Jiao Tong University); Chenda Li (Shanghai Jiao Tong University); JiaTong Shi (Carnegie Mellon University); Shinji Watanabe (Carnegie Mellon University); Yanmin Qian (Shanghai Jiao Tong University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>319\u003C/td>\u003Ctd>URGENT-PK: Perceptually-Aligned Ranking Model Designed for Speech Enhancement Competition\u003C/td>\u003Ctd>Jiahe Wang (Shanghai Jiao Tong University); Chenda Li (Shanghai Jiao Tong University)*; Wei Wang (Shanghai Jiao Tong University); Wangyou Zhang (Shanghai Jiao Tong University); Samuele Cornell (Carnegie Mellon University); Marvin Sach (Technische Universität Braunschweig); Robin Scheibler (Google Deepmind); Kohei Saijo (Waseda University); Yihui Fu (Technische Universität Braunschweig ); Zhaoheng Ni (Meta AI); Anurag Kumar (Meta AI); Tim Fingscheidt (Technische Universität Braunschweig ); Shinji Watanabe (Carnegie Mellon University); Yanmin Qian (Shanghai Jiao Tong University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>332\u003C/td>\u003Ctd>Less is More: Data Curation Matters in Scaling Speech Enhancement\u003C/td>\u003Ctd>Chenda Li (Shanghai Jiao Tong University)*; Wangyou Zhang (Shanghai Jiao Tong University); Wei Wang (Shanghai Jiao Tong University); Robin Scheibler (Google Deepmind); Kohei Saijo (Waseda University); Samuele Cornell (Carnegie Mellon University ); Yihui Fu (Technische Universität Braunschweig); Marvin Sach (Technische Universität Braunschweig); Zhaoheng Ni (Meta AI); Anurag Kumar (Meta AI); Tim Fingscheidt (Technische Universität Braunschweig); Shinji Watanabe (Carnegie Mellon University); Yanmin Qian (Shanghai Jiao Tong University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>383\u003C/td>\u003Ctd>Improving Resource-Efficient Speech Enhancement via Neural Differentiable DSP Vocoder Refinement\u003C/td>\u003Ctd>Heitor Guimarães (Institut National de la Recherche Scientifique)*; Ke Tan (Meta Reality Labs); Juan Azcarreta (Meta Reality Labs ); Jesus M. Alvarez (Meta Reality Labs ); Prabhav Agrawal (Meta AI); Ashutosh Pandey (Meta Reality Labs ); Buye Xu (Meta Reality Labs )\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>25\u003C/td>\u003Ctd>KAN-AST: Kolmogorov-Arnold Network based Audio Spectrogram Transformer for Audio Classification\u003C/td>\u003Ctd>Tuan Dat Phuong (Hanoi University of Science and Technology )*; Huy Dat Tran (Institute for Infocomm Research, Agency for Science, Technology and Research)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>256\u003C/td>\u003Ctd>Learning Marmoset Vocal Patterns with a Masked Autoencoder for Robust Call Segmentation, Classification, and Caller Identification\u003C/td>\u003Ctd>BIN WU (RIKEN AIP)*; Shinnosuke Takamichi (RIKEN AIP/Keio University); Sakriani Sakti (RIKEN AIP/NAIST); Satoshi Nakamura (RIKEN AIP/NAIST/CUHK-Shenzhen)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>71\u003C/td>\u003Ctd>Enhancing Code-switched Text-to-Speech Synthesis Capability in Large Language Models with only Monolingual Corpora\u003C/td>\u003Ctd>Jing Xu (The Chinese University of Hong Kong)*; Daxin Tan (Huawei Noah's Ark Lab); Jiaqi Wang (The Chinese Unviersity of Hong Kong); Xiao Chen (Huawei Noah's Ark Lab)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>44\u003C/td>\u003Ctd>Lightweight Prompt Biasing for Contextualized End-to-End ASR Systems\u003C/td>\u003Ctd>Bo Ren (Microsoft)*; Yu Shi (Microsoft); Jinyu Li (Microsoft)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>142\u003C/td>\u003Ctd>TurboBias: Universal ASR Context-Biasing powered by GPU-accelerated Phrase-Boosting Tree\u003C/td>\u003Ctd>Andrei Andrusenko (NVIDIA)*; Vladimir Bataev (NVIDIA); Lilit Grigoryan (NVIDIA); Vitaly Lavrukhin (NVIDIA); Boris Ginsburg (NVIDIA)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>224\u003C/td>\u003Ctd>Efficient ASR Domain Adaptation with Long Noun Phrases: Harnessing the Linguistic Characteristics of Japanese\u003C/td>\u003Ctd>Shusuke Komatsu (mocomoco inc. / Nara Institute of Science and Technology / RIKEN Guardian Robot Project)*; Kazuyo Onishi ( mocomoco inc. / Nara Institute of Science and Technology / RIKEN Guardian Robot Project); Kouki Tanaka (mocomoco inc. / Nara Institute of Science and Technology); Dohyun Kim (mocomoco inc. / Nara Institute of Science and Technology); Koichiro Yoshino (Institute of Science Tokyo / RIKEN Guardian Robot Project / Nara Institute of Science and Technology)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>408\u003C/td>\u003Ctd>Customizing Speech Recognition Model with Large Language Model Feedback\u003C/td>\u003Ctd>Shaoshi Ling (Microsoft)*; Guoli Ye (Microsoft)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>254\u003C/td>\u003Ctd>From Simulation to Strategy: Automating Personalized Interaction Planning for Conversational Agents\u003C/td>\u003Ctd>Wen Yu Chang (National Taiwan University)*; Tzu-Hung Huang (National Taiwan University); Chih-Ho Chen (National Taiwan University); Yun-Nung Chen (National Taiwan University)\u003C/td>\u003C/tr>\u003C/tbody>\u003C/table>\u003C/figure>",{"id":1260,"__component":1232,"componentVariation":1233,"styles":1261,"header":1263,"body":1266},136,{"id":1262,"edgeTop":60,"edgeBottom":60,"background":1244,"containerWidth":13},115,{"id":1027,"heading":1264,"prose":56,"lead":1265,"eyebrow":13,"badge":13,"componentVariation":1238,"containerWidth":13,"image":13},"Poster Session 3","December 8 | 10:30-12:00",{"id":315,"title":13,"body":1267,"containerWidth":13,"buttonGroup":13,"media":13},"\u003Cfigure class=\"table\">\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>Paper ID\u003C/th>\u003Cth>Paper Title\u003C/th>\u003Cth>Authors\u003C/th>\u003C/tr>\u003C/thead>\u003Ctbody>\u003Ctr>\u003Ctd>301\u003C/td>\u003Ctd>Graph Connectionist Temporal Classification for Phoneme Recognition\u003C/td>\u003Ctd>Henry Grafé (KU Leuven)*; Hugo Van hamme (KU Leuven)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>313\u003C/td>\u003Ctd>A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data\u003C/td>\u003Ctd>Cheng Kang Chou (National Taiwan University)*; Chan-Jan Hsu (National Taiwan University); Ho-Lam Chung ( National Taiwan University); Liang-Hsuan Tseng (National Taiwan University); Hsi-Chun Cheng (National Taiwan University); Yu-Kuan Fu (National Taiwan University); Kuan Po Huang (National Taiwan University); Hung-Yi Lee (National Taiwan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>325\u003C/td>\u003Ctd>CAMÕES: A Comprehensive Automatic Speech Recognition Benchmark for European Portuguese\u003C/td>\u003Ctd>Carlos Carvalho (INESC-ID/Instituto Superior Técnico, Universidade de Lisboa)*; Francisco Teixeira (INESC-ID); Catarina Botelho (INESC-ID); Anna Pompili (INESC-ID); Rubén Solera-Ureña (INESC-ID); Sérgio Paulo (INESC-ID); Mariana Julião (INESC-ID/Instituto Superior Técnico, Universidade de Lisboa); Thomas Rolland (INESC-ID); John Mendonça (INESC-ID/Instituto Superior Técnico, Universidade de Lisboa); Diogo Pereira (INESC-ID/Instituto Superior Técnico, Universidade de Lisboa); Isabel Trancoso (INESC-ID/Instituto Superior Técnico, Universidade de Lisboa); Alberto Abad (INESC-ID/Instituto Superior Técnico, Universidade de Lisboa)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>337\u003C/td>\u003Ctd>Whisper Has an Internal Word Aligner\u003C/td>\u003Ctd>Sung-Lin Yeh (University of Edinburgh)*; Yen Meng (University of Edinburgh); Hao Tang (University of Edinburgh)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>355\u003C/td>\u003Ctd>SSVD: Structured SVD for Parameter-Efficient Fine-Tuning and Benchmarking under Domain Shift in ASR\u003C/td>\u003Ctd>Pu Wang (KU LEUVEN)*; Shinji Watanabe (Carnegie Mellon University); Hugo Van hamme (KU Leuven)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>412\u003C/td>\u003Ctd>WST: Weakly Supervised Transducer for Automatic Speech Recognition\u003C/td>\u003Ctd>Dongji Gao (Johns Hopkins University)*; Chenda Liao (Microsoft); Changliang Liu (Microsoft); Matthew Wiesner (Johns Hopkins University); Leibny Paola Garcia (Johns Hopkins University); Daniel Povey (Xiaomi); Sanjeev Khudanpur (Johns Hopkins University); Jian Wu (Microsoft)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>433\u003C/td>\u003Ctd>Bridging the Modality Gap: Softly Discretizing Audio Representation for LLM-based Automatic Speech Recognition\u003C/td>\u003Ctd>Mu Yang (University of Texas at Dallas)*; Szu-Jui Chen (University of Texas at Dallas); Jiamin Xie (University of Texas at Dallas); John Hansen (University of Texas at Dallas)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>453\u003C/td>\u003Ctd>Evaluating Self-Supervised Speech Models via Text-based LLMs\u003C/td>\u003Ctd>Takashi Maekaku (LY Corporation)*; Keita Goto (LY Corporation); Jinchuan Tian (carnegie mellon university); Yusuke Shinohara (LY Corporation); Shinji Watanabe (carnegie mellon university)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>502\u003C/td>\u003Ctd>Aggregation-Free Uncertainty Estimation for CTC-Based Automatic Speech Recognition\u003C/td>\u003Ctd>Lars Rumberg (Leibniz Universität Hannover)*; Christopher Gebauer (Leibniz Universität Hannover); Jörn Ostermann (Leibniz Universität Hannover)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>28\u003C/td>\u003Ctd>Masked Self-distilled Transducer-based Keyword Spotting with Semi-autoregressive Decoding\u003C/td>\u003Ctd>Yu Xi (Shanghai Jiao Tong University)*; Xiaoyu Gu (Shanghai Jiao Tong University); Haoyu Li (Shanghai Jiao Tong University); Jun Song (Alibaba); Bo Zheng (Alibaba); Kai Yu (Shanghai Jiao Tong University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>73\u003C/td>\u003Ctd>Serialized Output Prompting for Large Language Model-based Multi-Talker Speech Recognition\u003C/td>\u003Ctd>Hao Shi (SB Intuitions)*; Yusuke Fujita (SB Intuitions); Tomoya Mizumoto (SB Intuitions); Lianbo Liu (SB Intuitions); Atsushi Kojima ( SB Intuitions); Yui Sudo ( SB Intuitions)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>103\u003C/td>\u003Ctd>SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR\u003C/td>\u003Ctd>Wei-Ping Huang (National Taiwan University)*; Guan-Ting Lin (National Taiwan University); Hung-yi Lee (National Taiwan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>122\u003C/td>\u003Ctd>Identifying and Calibrating Overconfidence in Noisy Speech Recognition\u003C/td>\u003Ctd>Mingyue Huo (University of Illinois at Urbana-Champaign)*; Yuheng Zhang (University of Illinois at Urbana-Champaign); Yan Tang (University of Illinois at Urbana-Champaign)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>269\u003C/td>\u003Ctd>DeCRED: Decoder-Centric Regularization for Encoder-Decoder Based Speech Recognition\u003C/td>\u003Ctd>Alexander Polok (Brno University of Technology)*; Santosh Kesiraju (Brno University of Technology); Karel Beneš (Brno University of Technology); Bolaji Yusuf ( Brno University of Technology); Lukáš Burget (Brno University of Technology); Jan Černocký (Brno University of Technology)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>416\u003C/td>\u003Ctd>Group Relative Policy Optimization for Speech Recognition\u003C/td>\u003Ctd>Prashanth Gurunath Shivakumar (Amazon)*; Yile Gu (Amazon); Ankur Gandhe (Amazon); Ivan Bulyko (Amazon)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>462\u003C/td>\u003Ctd>A Front-End Adaptation Network for Improving Speech Recognition Performance in Packet Loss and Noisy Environments\u003C/td>\u003Ctd>Yehoshua Dissen (Technion - Israel Institute of Technology)*; Israel Cohen (Technion - Israel Institute of Technology); Shiry Yonash (Technion - Israel Institute of Technology); Joseph Keshet (Technion - Israel Institute of Technology)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>320\u003C/td>\u003Ctd>Spiralformer: Low Latency Encoder for Streaming Speech Recognition with Circular Layer Skipping and Early Exiting\u003C/td>\u003Ctd>Emiru Tsunoo (Sony Group Corporation)*; Hayato Futami (Sony Group Corporation); Yosuke Kashiwagi (Sony Group Corporation); Siddhant Arora (Carnegie Mellon University); Shinji Watanabe (Carnegie Mellon University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>283\u003C/td>\u003Ctd>A Momentum-Based Framework with Contrastive Data Generation for Robust Sound Source Localization\u003C/td>\u003Ctd>Hyun-Soo Kim (Hanyang University); Da-Hee Yang (Hanyang University); Joon-Hyuk Chang (Hanyang University)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>23\u003C/td>\u003Ctd>MMW: Side Talk Rejection Multi-Microphone Whisper on Smart Glasses\u003C/td>\u003Ctd>Yang Liu (Meta)*; Li Wan (Meta); Yiteng Huang (Meta); Yong Xu (Meta); yangyang shi (Meta); Saurabh Adya (Meta); ming sun (meta); Florian Metze (Meta)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>75\u003C/td>\u003Ctd>SV-Mixer: Replacing the Transformer Encoder with Lightweight MLPs for Self-Supervised model compresison in Speaker Verification\u003C/td>\u003Ctd>Jungwoo Heo (University of Seoul)*; Hyun-seo Shin (University of Seoul); Chan-yeong Lim (University of Seoul); kyo-won koo (University of Seoul); Seung-bin KIM (University of Seoul); Ji-soo SON (University of Seoul); Ha-Jin YU (University of Seoul)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>195\u003C/td>\u003Ctd>Multi-Target Backdoor Attacks Against Speaker Recognition\u003C/td>\u003Ctd>Alexandrine Fortier (École de technologie supérieure (ÉTS))*; Sonal Joshi (Johns Hopkins University); Thomas Thebaud (Johns Hopkins University); Jesus Villalba Lopez (Johns Hopkins University); Najim Dehak (Johns Hopkins University); Patrick Cardinal (École de technologie supérieure (ÉTS))\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>364\u003C/td>\u003Ctd>State-of-the-art Embeddings with Video-free Segmentation of the Source VoxCeleb Data\u003C/td>\u003Ctd>Sara Barahona (AUDIAS Research Group, Universidad Autónoma de Madrid)*; Ladislav Mošner (Brno University of Technology); Themos Stafylakis (Athens University of Economics and Business | Omilia | Archimedes AI/Athena RC); Oldřich Plchot (Brno University of Technology); Junyi Peng (Brno University of Technology); Lukáš Burget (Brno University of Technology); Jan Černocký (Brno University of Technology)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>378\u003C/td>\u003Ctd>The JHU-MIT Speaker Recognition System for NIST SRE24: Post-Evaluation Analysis\u003C/td>\u003Ctd>Jesus Villalba (Johns Hopkins University)*; Jonas Borgstrom (MIT Lincoln Laboratory); Prabhav Singh (Johns Hopkins University); Leibny Paola Garcia Perera (Johns Hopkins University); Pedro Torres-Carrasquillo (Johns Hopkins University); Najim Dehak (Johns Hopkins University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>404\u003C/td>\u003Ctd>Geolocation-Aware Robust Spoken Language Identification\u003C/td>\u003Ctd>Qingzheng Wang (Carnegie Mellon University)*; Hye-jin Shim (Carnegie Mellon University); Jiancheng Sun (Carnegie Mellon University); Shinji Watanabe (Carnegie Mellon University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>409\u003C/td>\u003Ctd>CoLMbo: Speaker Language Model for Descriptive Profiling\u003C/td>\u003Ctd>Massa Baali (CMU)*; Shuo Han (CMU); Syed Abdul Hannan (CMU); Purusottam Samal (CMU); Karan Veer Singh (FPrime AI); Soham Deshmukh (CMU); Rita Singh (CMU); Bhiksha Raj (CMU)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>45\u003C/td>\u003Ctd>Speech in-context learning of paralinguistic tasks\u003C/td>\u003Ctd>Jeremy Wong (Institute for Infocomm Research)*; Muhammad Huzaifah (Institute for Infocomm Research); Nancy Chen ( Institute for Infocomm Research); Ai Ti Aw (Institute for Infocomm Research)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>58\u003C/td>\u003Ctd>Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs\u003C/td>\u003Ctd>Umberto Cappellazzo (University of Trento)*; Minsu Kim (Meta AI); Stavros Petridis (Imperial College London)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>431\u003C/td>\u003Ctd>Pitch-Assistant Harmonic Recovery for Efficient Speech Enhancement\u003C/td>\u003Ctd>Biao Liu (Institute of Acoustics Chinese Academy of Sciences)*; Zengqiang Shang (Institute of Acoustics Chinese Academy of Sciences); Haoyuan Xie (Institute of Acoustics Chinese Academy of Sciences); Mou Wang (Hardware Engineering System, OPPO); Xin Liu (Hardware Engineering System, OPPO); Pengyuan Zhang (Institute of Acoustics Chinese Academy of Sciences)\u003C/td>\u003C/tr>\u003C/tbody>\u003C/table>\u003C/figure>",{"id":1269,"__component":1232,"componentVariation":1233,"styles":1270,"header":1273,"body":1277},137,{"id":1271,"edgeTop":60,"edgeBottom":60,"background":1272,"containerWidth":13},116,"transparent",{"id":1274,"heading":1275,"prose":56,"lead":1276,"eyebrow":13,"badge":13,"componentVariation":1238,"containerWidth":13,"image":13},182,"Poster Session 4","December 8 | 14:00-15:30",{"id":1278,"title":13,"body":1279,"containerWidth":13,"buttonGroup":13,"media":13},104,"\u003Cfigure class=\"table\">\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>Paper ID\u003C/th>\u003Cth>Paper Title\u003C/th>\u003Cth>Authors\u003C/th>\u003C/tr>\u003C/thead>\u003Ctbody>\u003Ctr>\u003Ctd>172\u003C/td>\u003Ctd>Granite-speech: open-source speech-aware LLMs with strong English ASR capabilities\u003C/td>\u003Ctd>George Saon (IBM)*; Avihu Dekel (IBM); Alexander Brooks (IBM); Tohru Nagano (IBM); Abraham Daniels (IBM); Aharon Satt (IBM); Ashish Mittal (IBM); Brian Kingsbury (IBM); David Haws (IBM); Edmilson Morais (IBM); Gakuto Kurata (IBM); Hagai Aronowitz (IBM); Ibrahim Ibrahim (IBM); Jeff Kuo (IBM); Kate Soule (IBM); Luis Lastras (IBM); Masayuki Suzuki (IBM); Ron Hoory (IBM); Samuel Thomas (IBM); Sashi Novitasari (IBM); Takashi Fukuda (IBM); Vishal Sunder (IBM); Xiaodong Cui (IBM); Zvi Kons (IBM)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>285\u003C/td>\u003Ctd>All-in-One ASR: Unifying Encoder-Decoder Models of CTC, Attention, and Transducer in Dual-Mode ASR\u003C/td>\u003Ctd>Takafumi Moriya (NTT Corporation)*; Masato Mimura (NTT); Tomohiro Tanaka (NTT); Hiroshi Sato (NTT); Ryo Masumura (NTT); Atsunori Ogawa (NTT)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>64\u003C/td>\u003Ctd>AsyncSwitch: Asynchronous Text-Speech Adaptation for Code-Switched ASR\u003C/td>\u003Ctd>Tuan Nguyen (Institute for Infocomm Research, A*STAR)*; Huy-Dat Tran (Institute for Infocomm Research, A*STAR)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>178\u003C/td>\u003Ctd>PARCO: Phoneme-Augmented Robust Contextual ASR via Contrastive Entity Disambiguation\u003C/td>\u003Ctd>Jiajun He (Nagoya University)*; Naoki Sawada (CyberAgent); Koichi Miyazaki (CyberAgent); Tomoki Tomoki (Nagoya University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>190\u003C/td>\u003Ctd>JOOCI: a Novel Method for Learning Comprehensive Speech Representations\u003C/td>\u003Ctd>Hemant Yadav (IIIT Delhi)*; Sunayana Sitaram (Microsoft research); Rajiv ratn shah (IIIT Delhi)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>237\u003C/td>\u003Ctd>Efficient Scaling for LLM-based ASR\u003C/td>\u003Ctd>Bingshen Mu (Northwestern Polytechnical University)*; Yiwen Shao (Tencent AI Lab); Kun Wei (Tencent AI Lab); Dong Yu (Tencent AI Lab); Lei Xie (Northwestern Polytechnical University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>270\u003C/td>\u003Ctd>Whispering Context: Distilling Syntax and Semantics for Long Speech Transcripts\u003C/td>\u003Ctd>DUYGU ALTINOK (Deepgram)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>292\u003C/td>\u003Ctd>Training and Inference Efficiency of Encoder-Decoder Speech Models\u003C/td>\u003Ctd>Piotr Żelasko (NVIDIA)*; Kunal Dhawan (NVIDIA); Daniel Galvez (NVIDIA); Krishna Puvvada (NVIDIA); Ankita Pasad (NVIDIA); Travis Bartley (NVIDIA); Nithin Koluguri (NVIDIA); Ke Hu (NVIDIA); Vitaly Lavrukhin (NVIDIA); Jagadeesh Balam (NVIDIA); Boris Ginsburg (NVIDIA)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>397\u003C/td>\u003Ctd>Phoneme Overlapping-Aware Pre-Training with External Text Resources for Multi-Talker ASR\u003C/td>\u003Ctd>Ryo Masumura (NTT Corporation)*; Tomohiro Tanaka (NTT Corporation); Naoki Makishima (NTT Corporation); Mana Ihori (NTT Corporation); Shota Orihashi (NTT Corporation); Naotaka Kawata (NTT Corporation); Taiga Yamane (NTT Corporation); Satoshi Suzuki (NTT Corporation); Takafumi Moriya (NTT Corporation)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>399\u003C/td>\u003Ctd>Unifying Diarization, Separation, and ASR with Multi-Speaker Encoder\u003C/td>\u003Ctd>Muhammad Shakeel (Honda Research Institute Japan)*; Yui Sudo (Honda Research Institute Japan); Yifan Peng (Carnegie Mellon University); Chyi-Jiunn Lin (Carnegie Mellon University); Shinji Watanabe (Carnegie Mellon University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>429\u003C/td>\u003Ctd>ZO-ASR: Zeroth-Order Fine-Tuning of Speech Foundation Models without Back-Propagation\u003C/td>\u003Ctd>Yuezhang PENG (Shanghai Jiao Tong University)*; Yuxin Liu (Shanghai Jiao Tong University); Yao Li (AVIC); Sheng Wang (Shanghai Jiao Tong University ); Fei Wen (Shanghai Jiao Tong University); Xie Chen (Shanghai Jiao Tong University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>43\u003C/td>\u003Ctd>Flow-SLM: Joint Learning of Linguistic and Acoustic Information for Spoken Language Modeling\u003C/td>\u003Ctd>Ju-Chieh Chou (TTIC)*; Jiawei Zhou (Stony); Karen Livescu (TTIC)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>125\u003C/td>\u003Ctd>AudioLens: A Closer Look at Auditory Attribute Perception of Large Audio-Language Models\u003C/td>\u003Ctd>Chih-Kai Yang (National Taiwan University)*; Neo Ho (National Taiwan University); Yi-Jyun Lee (National Taiwan University); Hung-yi Lee (National Taiwan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>290\u003C/td>\u003Ctd>Joint Multimodal Contrastive Learning for Robust Spoken Term Detection and Keyword Spotting\u003C/td>\u003Ctd>Ramesh Gundluru (Indian Institute of Technology , Hyderabad, India)*; Shubham Gupta (Indian Institute of Technology, Hyderabad, India); Sri Rama Murty Kodukula (Indian Institute of Technology, Hyderabad, India )\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>291\u003C/td>\u003Ctd>TokenVerse++: Towards Flexible Multitask Learning with Dynamic Task Activation\u003C/td>\u003Ctd>Shashi Kumar (Idiap Research Institute, Martigny)*; Srikanth Madikeri (University of Zurich); Esaú Villatoro-Tello (Idiap Research Institute); Sergio Burdisso (Idiap Research Institute); Pradeep Rangappa ( Idiap Research Institute); Andrés Carofilis (Idiap Research Institute); Petr Motlicek (Idiap Research Institute); Karthik Pandia (Uniphore); Shankar Venkatesan (Uniphore); Kadri Hacioğlu (Uniphore); Andreas Stolcke (Uniphore)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>300\u003C/td>\u003Ctd>Reducing Object Hallucination in Large Audio-Language Models via Audio-Aware Decoding\u003C/td>\u003Ctd>Tzu-wen Hsu (Purdue University)*; Ke-Han Lu (National Taiwan University); Cheng-Han Chiang (National Taiwan University); Hung-yi Lee (National Taiwan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>406\u003C/td>\u003Ctd>Robot Confirmation Generation and Action Planning Using Long-context Q-Former Integrated with Multimodal LLM\u003C/td>\u003Ctd>Chiori Hori (Mitsubishi Electric Research Laboratories (MERL))*; Yoshiki Masuyama (Mitsubishi Electric Research Laboratories (MERL)); Diego Romeres (Mitsubishi Electric Research Laboratories (MERL)); Devesh Jha (Mitsubishi Electric Research Laboratories (MERL)); Radu Corcodel (Mitsubishi Electric Research Laboratories (MERL) ); Siddarth Jain (Mitsubishi Electric Research Laboratories (MERL) ); Jonathan Le Roux (Mitsubishi Electric Research Laboratories (MERL))\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>407\u003C/td>\u003Ctd>Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model\u003C/td>\u003Ctd>Haibin Wu (National Taiwan University)*; Yuxuan Hu (Microsoft); Ruchao Fan (Microsoft); Xiaofei Wang (Microsoft); Kenichi Kumatani (Microsoft); Bo Ren (Microsoft); Jianwei Yu (Microsoft); Heng Lu (Microsoft); Lijuan Wang (Microsoft); Yao Qian (Microsoft); Jinyu Li (Microsoft)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>104\u003C/td>\u003Ctd>Balancing Speech Understanding and Generation Using Continual Pre-training for Codec-based Speech LLM\u003C/td>\u003Ctd>Jiatong Shi (Carnegie Mellon University)*; Chunlei Zhang (Bytedance); Jinchuan Tian (Carnegie Mellon University); Junrui Ni (UIUC); Hao Zhang (Tencent AI Lab); Shinji Watanabe (Carnegie Mellon University); Dong Yu (Tencent AI Lab)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>402\u003C/td>\u003Ctd>SLM-S2ST: A multimodal language model for direct speech-to-speech translation\u003C/td>\u003Ctd>Yuxuan Hu (Microsoft); Haibin Wu (National Taiwan University)*; Ruchao Fan (Microsoft); Xiaofei Wang (Microsoft); Heng Lu (Microsoft); Yao Qian (Microsoft); Jinyu Li (Microsoft)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>422\u003C/td>\u003Ctd>Evaluating Japanese Dialect Robustness across Speech and Text-based Large Language Models\u003C/td>\u003Ctd>Tomoya Mizumoto (SB Intuitions Corp.)*; Yusuke Fujita (SB Intuitions Corp.); Hao Shi (SB Intuitions Corp.); Lianbo Liu (SB Intuitions Corp.); Atsushi Kojima (SB Intuitions Corp.); Yui Sudo (SB Intuitions Corp.)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>192\u003C/td>\u003Ctd>Streaming Endpointer for Spoken Dialogue using Neural Audio Codecs and Label-Delayed Training\u003C/td>\u003Ctd>Sathvik Udupa (Brno University of technology)*; Shinji Watanabe (Carnegie Mellon University); Petr Schwarz (Brno University of technology); Jan Cernocky (Brno University of technology)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>236\u003C/td>\u003Ctd>Predictive ASR and Turn-taking Prediction at Once: Towards More Responsive Spoken Dialog System\u003C/td>\u003Ctd>Ryo Fukuda (NTT Corporation)*; Takatomo Kano (NTT Corporation); Naohiro Tawara (NTT Corporation); Marc Delcroix (NTT Corporation); Atsunori Ogawa (NTT Corporation); Yuya Chiba (NTT Corporation); Atsushi Ando (NTT Corporation)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>198\u003C/td>\u003Ctd>Expressive Speech Retrieval using Natural Language Descriptions of Speaking Style\u003C/td>\u003Ctd>Wonjune Kang (Massachusetts Institute of Technology)*; Deb Roy (Massachusetts Institute of Technology)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>127\u003C/td>\u003Ctd>WhisperNER: Unified Open Named Entity and Speech Recognition\u003C/td>\u003Ctd>Gil Ayache (aiOla); Menahem Pirchi (aiOla); Aviv Navon (aiOla); Aviv Shamsian (aiOla)*; Gill Hetz (aiOla); Joseph Keshet (aiOla)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>175\u003C/td>\u003Ctd>Do Self-Supervised Speech Models Exhibit the Critical Period Effects in Language Acquisition?\u003C/td>\u003Ctd>Yurie Koga (The University of Tokyo)*; Shunsuke Kando (The University of Tokyo); Yusuke Miyao (The University of Tokyo, NII LLMC)\u003C/td>\u003C/tr>\u003C/tbody>\u003C/table>\u003C/figure>",{"id":1281,"__component":1232,"componentVariation":1233,"styles":1282,"header":1284,"body":1287},138,{"id":1283,"edgeTop":60,"edgeBottom":60,"background":1244,"containerWidth":13},117,{"id":1148,"heading":1285,"prose":56,"lead":1286,"eyebrow":13,"badge":13,"componentVariation":1238,"containerWidth":13,"image":13},"Poster Session 5","December 8 | 16:00-17:30",{"id":1288,"title":13,"body":1289,"containerWidth":13,"buttonGroup":13,"media":13},105,"\u003Cfigure class=\"table\">\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>Paper ID\u003C/th>\u003Cth>Paper Title\u003C/th>\u003Cth>Authors\u003C/th>\u003C/tr>\u003C/thead>\u003Ctbody>\u003Ctr>\u003Ctd>38\u003C/td>\u003Ctd>Emotional Styles Hide in Deep Speaker Embeddings: Disentangle Deep Speaker Embeddings for Speaker Clustering\u003C/td>\u003Ctd>Chaohao Lin (Florida International University)*; Xu Zheng (Florida International University); Kaida Wu (Florida International University); Peihao Xiang ( Florida International University); Ou Bai (Florida International University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>298\u003C/td>\u003Ctd>ASR for Affective Speech: Investigating Impact of Emotion and Speech Generative Strategy\u003C/td>\u003Ctd>Ya-Tse Wu (Department of Electrical Engineering, National Tsing Hua University)*; Chi-Chun Lee (National Tsing Hua University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>181\u003C/td>\u003Ctd>On the use of self-supervised representation learning for speaker diarization and separation\u003C/td>\u003Ctd>Séverin BAROUDI (LIS)*; Hervé BREDIN (IRIT); Joseph RAZIK (LIS); Ricard MARXER (LIS)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>253\u003C/td>\u003Ctd>Can We Really Repurpose Multi-Speaker ASR Corpus for Speaker Diarization?\u003C/td>\u003Ctd>Shota Horiguchi (NTT, Inc.)*; Naohiro Tawara (NTT, Inc.); Takanori Ashihara (NTT, Inc.); Atsushi Ando (NTT, Inc.); Marc Delcroix (NTT, Inc.)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>338\u003C/td>\u003Ctd>Utilizing Kolmogorov-Arnold Network in Self-Supervised Learning for Speaker Diarization\u003C/td>\u003Ctd>Minh Vu (Hanoi University of Science and Technology)*; Tuan Dat Phuong (Hanoi University of Science and Technology); Kah Kuan Teh (Institute for Infocomm Research (I2R)); Van Tuan Nguyen ( Institute for Infocomm Research (I2R)); Huy Dat Tran (Institute for Infocomm Research (I2R))\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>152\u003C/td>\u003Ctd>XEmoRAG: Cross-Lingual Emotion Transfer with Controllable Intensity Using Retrieval-Augmented Generation\u003C/td>\u003Ctd>Tianlun Zuo (Northwestern Polytechnical University)*; Jingbin Hu (Northwestern Polytechnical University); Yuke Li (Northwestern Polytechnical University); Xinfa Zhu (Northwestern Polytechnical University); Hai Li (iQIYI, Inc.); Ying Yan (iQIYI, Inc.); Junhui Liu (iQIYI, Inc.); Danming Xie (iQIYI, Inc.); Lei Xie (Northwestern Polytechnical University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>4\u003C/td>\u003Ctd>Scalable Controllable Accented TTS\u003C/td>\u003Ctd>Henry Li Xinyuan (Johns Hopkins University)*; Zexin Cai (Johns Hopkins University); Ashi Garg (Johns Hopkins University); Kevin Duh (Johns Hopkins University); Leibny Paola García-Perera (Johns Hopkins University); Sanjeev Khudanpur (Johns Hopkins University); Nicholas Andrews (Johns Hopkins University); Mathew Wiesner (Johns Hopkins University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>33\u003C/td>\u003Ctd>GenVC: Self-Supervised Zero-Shot Voice Conversion\u003C/td>\u003Ctd>Zexin Cai (Johns Hopkins University)*; Henry Li (johns hopkins university); Ashi Grag (Johns Hopkins University); Paola Garcia (Johns Hopkins University); Kevin Duh (Johns Hopkins University); Sanjeev Khudanpur (Johns Hopkins University); Matthew Wiesner (Johns Hopkins University); Nicholas Andrews (Johns Hopkins University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>78\u003C/td>\u003Ctd>REF-VC: Robust, Expressive and Fast Zero-Shot Voice Conversion with Diffusion Transformers\u003C/td>\u003Ctd>Yuepeng Jiang (Northwestern Polytechnical University)*; Ziqian Ning (Northwestern Polytechnical University); Shuai Wang (School of Intelligence Science and Technology, Nanjing University, Suzhou, China); Chengjia Wang (Fuxi AI Lab, NetEase Inc.); Mengxiao Bi (Fuxi AI Lab, NetEase Inc.); Pengcheng Zhu (Fuxi AI Lab, NetEase Inc.); Zhonghua Fu (Northwestern Polytechnical University); Lei Xie (Northwestern Polytechnical University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>107\u003C/td>\u003Ctd>Conan: A Chunkwise Online Network for Zero-shot Adaptive Voice Conversion\u003C/td>\u003Ctd>Yu Zhang (Zhejiang University)*; Baotong Tian (University of Rochester); Zhiyao Duan (University of Rochester)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>110\u003C/td>\u003Ctd>Layer-wise Analysis for Quality of Multilingual Synthesized Speech\u003C/td>\u003Ctd>Erica Cooper (National Institute of Information and Communications Technology )*; Takuma Okamoto (National Institute of Information and Communications Technology); Yamato Ohtani (National Institute of Information and Communications Technology); Tomoki Toda (Nagoya University); Hisashi Kawai (NICT)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>129\u003C/td>\u003Ctd>Confidence-Based Self-Training for EMG-to-Speech: Leveraging Synthetic EMG for Robust Modeling\u003C/td>\u003Ctd>Xiaodan Chen (Institute for Infocomm Research (I2R), A*STAR)*; Xiaoxue Gao (Institute for Infocomm Research (I2R), A*STAR); Mathias Quoy (CY Cergy Paris University); Alexandre Pitti (CY Cergy Paris University); Nancy F. Chen ( Institute for Infocomm Research (I2R), A*STAR)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>143\u003C/td>\u003Ctd>A Universal Harmonic Discriminator for High-quality GAN-based Vocoder\u003C/td>\u003Ctd>Nan Xu (Alibaba Digital Media &amp; Entertainment Group)*; Zhaolong Huang (Alibaba Digital Media &amp; Entertainment Group); Xiao Zeng (Alibaba Digital Media &amp; Entertainment Group)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>150\u003C/td>\u003Ctd>Diffrhythm+: Controllable and Flexible Full-Length Song Generation with Preference Optimization\u003C/td>\u003Ctd>Huakang Chen (Northwestern Polytechnical University); Yuepeng Jiang (Northwestern Polytechnical University); Guobin Ma (Northwestern Polytechnical University); Chunbo Hao (Northwestern Polytechnical University); Shuai Wang (School of Intelligence Science and Technology, Nanjing University, Suzhou, China); Jixun Yao (Northwestern Polytechnical University); Ziqian Ning (Northwestern Polytechnical University); Meng Meng (MiLM Plus, Xiaomi Inc.); Jian Luan (MiLM Plus, Xiaomi Inc.); Lei Xie (Northwestern Polytechnical University)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>225\u003C/td>\u003Ctd>DarkStream: real-time speech anonymization with low latency\u003C/td>\u003Ctd>Waris Quamer (Texas A&amp;M University)*; Ricardo Gutierrez-Osuna (Texas A&amp;M University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>267\u003C/td>\u003Ctd>SEF-MK: Speaker-Embedding-Free Voice Anonymization through Multi-k-means Quantization\u003C/td>\u003Ctd>Beilong Tang (Duke Kunshan University)*; Xiaoxiao Miao (Duke Kunshan University); Xin Wang (National Institute of Informatics); Ming Li (Duke Kunshan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>289\u003C/td>\u003Ctd>Speech Synthesis From Continuous Features Using Per-Token Latent Diffusion\u003C/td>\u003Ctd>Arnon Turetzky (Hebrew University of Jerusalem)*; Nimrod Shabtay (IBM); Slava Shechtman (IBM); David Haws (IBM); Hagai Aronowitz (IBM); Ron Hoory (IBM); Yossi Adi (Hebrew University of Jerusalem); avihu dekel (IBM)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>295\u003C/td>\u003Ctd>Mel-Refine: A Plug-and-Play Approach to Refine Mel-Spectrogram in Audio Generation\u003C/td>\u003Ctd>Hongming Guo (Beijing University of Posts and Telecommunications); Ruibo Fu (Institute of Automation，Chinese Academy of Sciences)*; Yizhong Geng (Beijing University of Posts and Telecommunications); Shuchen Shi (Shanghai Polytechnic University); Tao Wang (Institute of Automation, Chinese Academy of Sciences); Chunyu Qiang (Tianjin University); Ya Li (Beijing University of Posts and Telecommunications); Zhengqi Wen (Tsinghua University); Yukun Liu (UCAS); Xuefei Liu (Qiyuan Lab); Chenxing Li (Tencent, AI lab)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>348\u003C/td>\u003Ctd>Enhancing In-the-Wild Speech Emotion Conversion with Resynthesis-based Duration Modeling\u003C/td>\u003Ctd>Navin Raj Prabhu (University of Hamburg, Signal Processign Lab)*; Danilo de Oliveira (University of Hamburg, Signal Processign Lab); Nale Lehmann-Willenbrock (University of Hamburg); Timo Gerkmann (University of Hamburg, Signal Processign Lab)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>384\u003C/td>\u003Ctd>Can self-supervised models of speech predict the perceived acceptability in prosodic variation?\u003C/td>\u003Ctd>Sarenne Wallbridge (University of Edinburgh)*; Adaeze Adigwe (University of Edinburgh); Peter Bell (University of Edinburgh)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>386\u003C/td>\u003Ctd>Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody\u003C/td>\u003Ctd>Jinsung Yoon (POSTECH); Wooyeol Jeong (POSTECH)*; Young-Joo Suh (POSTECH); Jio Gim (POSTECH)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>400\u003C/td>\u003Ctd>Robust Training of Singing Voice Synthesis Using Prior and Posterior Uncertainty\u003C/td>\u003Ctd>Yiwen Zhao (Carnegie Mellon University)*; Jiatong Shi (Carnegie Mellon University); Yuxun Tang (Renmin University of China); William Chen (Carnegie Mellon University); Shinji Watanabe (Carnegie Mellon University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>430\u003C/td>\u003Ctd>ZipVoice: Fast and High-Quality Zero-Shot Text-to-Speech with Flow Matching\u003C/td>\u003Ctd>Han Zhu (Xiaomi Corp.)*; Wei Kang (Xiaomi Corp.); Zengwei Yao (Xiaomi Corp.); Liyong Guo (Xiaomi Corp.); Fangjun Kuang (Xiaomi Corp.); Zhaoqing Li (Xiaomi Corp.); Weiji Zhuang (Xiaomi Corp.); Long Lin (Xiaomi Corp.); Daniel Povey (Xiaomi Corp.)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>450\u003C/td>\u003Ctd>EmoBiMamba-TTS: Bidirectional State Space Models for Emotion-Intensity Controllable Text-to-Speech\u003C/td>\u003Ctd>INSUNG HAM (Korea-Univ)*; BONWHA KU (Korea-Univ); HANSEOK KO (Korea-Univ); HANSEOK KO (catholic unviersity of america)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>458\u003C/td>\u003Ctd>Controllable Singing Voice Synthesis using Phoneme-Level Energy Sequence\u003C/td>\u003Ctd>Yerin Ryu (Korea University)*; Inseop Shin (Korea University); Chanwoo Kim (Korea University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>46\u003C/td>\u003Ctd>Obtaining objective labels and analysing annotator subjectivity by using a Rasch model for ordinal speech processing\u003C/td>\u003Ctd>Jeremy Wong (Institute for Infocomm Research)*; Nancy Chen (Institute for Infocomm Research)\u003C/td>\u003C/tr>\u003C/tbody>\u003C/table>\u003C/figure>",{"id":160,"__component":1232,"componentVariation":1233,"styles":13,"header":1291,"body":1293},{"id":1151,"heading":1292,"prose":56,"lead":1265,"eyebrow":13,"badge":13,"componentVariation":1238,"containerWidth":13,"image":13},"Poster Session 6",{"id":792,"title":13,"body":1294,"containerWidth":13,"buttonGroup":13,"media":13},"\u003Cfigure class=\"table\">\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>Paper ID\u003C/th>\u003Cth>Paper Title\u003C/th>\u003Cth>Authors\u003C/th>\u003C/tr>\u003C/thead>\u003Ctbody>\u003Ctr>\u003Ctd>169\u003C/td>\u003Ctd>Selection of Layers from Self-supervised Learning Models for Predicting Mean-Opinion-Score of Speech\u003C/td>\u003Ctd>Xinyu Liang (HCLTech)*; Fredrik Cumlin (KTH Royal Institute of Technology); Victor Ungureanu (Google); Chandan K.A. Reddy (Google); Christian Schuldt (Google); Saikat Chatterjee (KTH Royal Institute of Technology)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>18\u003C/td>\u003Ctd>Diversity and complementarity of speech encoders across diverse tasks in a multi-modal large language model\u003C/td>\u003Ctd>Jeremy Wong (Institute for Infocomm Research)*; Muhammad Huzaifah (Institute for Infocomm Research); Hardik Sailor (Institute for Infocomm Research); Shuo Sun (Institute for Infocomm Research); Kye Min Tan (Institute for Infocomm Research); Bin Wang (MiroMind); Qiongqiong Wang (Institute for Infocomm Research); Wenyu Zhang ( Institute for Infocomm Research); Xunlong Zou (Institute for Infocomm Research); Nancy Chen (Institute for Infocomm Research); Ai Ti Aw ( Institute for Infocomm Research)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>31\u003C/td>\u003Ctd>Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model\u003C/td>\u003Ctd>Ziyang Ma (Shanghai Jiao Tong University)*; Zhuo Chen (ByteDance Inc.); Yuping Wang (ByteDance Inc.); Eng-Siong Chng (Nanyang Technological University); Xie Chen (Shanghai Jiao Tong University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>54\u003C/td>\u003Ctd>Competitive Audio-Language Models with Data-Efficient Single-Stage Training on Public Data\u003C/td>\u003Ctd>Gokul Karthik Kumar (Technology Innovation Institute)*; Rishabh Saraf ( Technology Innovation Institute); Ludovick Lepauloux (Technology Innovation Institute); Abdul Muneer (Technology Innovation Institute); Billel Mokeddem (Technology Innovation Institute); Hakim Hacid (Technology Innovation Institute)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>133\u003C/td>\u003Ctd>Improving Noise Robust Audio-Visual Speech Recognition via Router-Gated Cross-Modal Feature Fusion\u003C/td>\u003Ctd>Donghoon Lim (Hanyang University); Youngchae Kim (Hanyang University); Dong-Hyun Kim (Hanyang University); Da-Hee Yang (Hanyang University); Joon-Hyuk Chang (Hanyang University)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>167\u003C/td>\u003Ctd>Improving Multimodal Speech-To-Slide Alignment for Academic Lectures with Vision LLMs\u003C/td>\u003Ctd>Thomas Ranzenberger (Technische Hochschule Nürnberg Georg Simon Ohm)*; Dominik Wagner (Technische Hochschule Nürnberg Georg Simon Ohm); Steffen Freisinger (Technische Hochschule Nürnberg Georg Simon Ohm); Tobias Bocklet (Technische Hochschule Nürnberg Georg Simon Ohm); Korbinian Riedhammer (Technische Hochschule Nürnberg Georg Simon Ohm)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>262\u003C/td>\u003Ctd>Beyond Modality Limitations: A Unified MLLM Approach to Automated Speaking Assessment with Effective Curriculum Learning\u003C/td>\u003Ctd>Yu Hsuan Fang (National Taiwan Normal University)*; Tien Hong Lo (National Taiwan Normal University); Yao Ting Sung (National Taiwan Normal University); Berlin Chen (National Taiwan Normal University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>273\u003C/td>\u003Ctd>Interpreting the Role of Visemes in Audio-Visual Speech Recognition\u003C/td>\u003Ctd>Aristeidis Papadopoulos (Trinity College Dublin)*; Naomi Harte (Trinity College Dublin)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>311\u003C/td>\u003Ctd>MEAN-RIR: Multi-Modal Environment-Aware Network for Robust Room Impulse Response Estimation\u003C/td>\u003Ctd>Jiajian Chen (University of Science and Technology of China); Jiakang Chen (University of Science and Technology of China); Hang Chen (University of Science and Technology of China); Qing Wang (University of Science and Technology of China)*; Yu Gao (AI Research Center, Midea Group (Shanghai) Co.,Ltd., Shanghai 201702, China); Jun Du (University of Science and Technology of China)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>398\u003C/td>\u003Ctd>Transcribe, translate, or transliterate: An investigation of intermediate representations in spoken language models\u003C/td>\u003Ctd>Tolulope Ogunremi (Stanford)*; Christopher Manning (Stanford); Dan Jurafsky (Stanford); Karen Livescu (TTIC)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>438\u003C/td>\u003Ctd>Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models\u003C/td>\u003Ctd>Qiongqiong Wang (A*STAR )*; Hardik Sailor (A*STAR); Jeremy Wong (A*STAR); Tianchi Liu (A*STAR); Shuo Sun (A*STAR); Wenyu Zhang (A*STAR); Muhammad Huzaifah (A*STAR); Nancy Chen (A*STAR); Ai Ti Aw (A*STAR)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>321\u003C/td>\u003Ctd>mSTEB: Massively Multilingual Evaluation of LLMs on Speech and Text Tasks\u003C/td>\u003Ctd>Luel Hagos Beyene (African Institute for Mathematical Sciences Research and Innovation Center)*; Vivek Verma (Université de Montréal); Min Ma (Google); Jesujoba O. Alabi (Saarland University); Fabian Schmidt (University of Würzburg); Joyce Nakatumba Nabende (Makerere University); David Ifeoluwa Adelani (McGill University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>13\u003C/td>\u003Ctd>Qieemo: Multimodal Emotion Recognition Based on the ASR Backbone\u003C/td>\u003Ctd>jinming chen (Qifu Technology)*; jingyi fang (Qifu Technology); yuanzhong zheng (Qifu Technology); yaoxuan wang (Qifu Technology); haojun fei (Qifu Technology)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>41\u003C/td>\u003Ctd>Recognizing Dementia from Neuropsychological Tests with State Space Models\u003C/td>\u003Ctd>Liming Wang (Massachusetts Institute of Technology)*; Saurabhchand Bhati (Massachusetts Institute of Technology); Cody Karjadi (Boston University); Rhoda Au (Boston University); James Glass (Massachusetts Institute of Technology)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>91\u003C/td>\u003Ctd>Intermediate-Selective Feature Enhancement for Speech Emotion Recognition\u003C/td>\u003Ctd>li yangbiao (South China University of Technology)*; Xing Xiaofen (South China University of Technology); Mai Jialong (South China University of Technology); Xing Jingyuan (South China University of Technology); Xu Xiangmin (South China University of Technology)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>299\u003C/td>\u003Ctd>RE-LLM: Refining Empathetic Speech-LLM Responses by Integrating Emotion Nuance\u003C/td>\u003Ctd>Jing-Han Chen (National Tsing Hua University); Bo-Hao Su (National Tsing Hua University); Ya-Tse Wu (National Tsing Hua University); Chi-Chun Lee (National Tsing Hua University)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>302\u003C/td>\u003Ctd>SPEAKER STYLE-AWARE PHONEME ANCHORING FOR IMPROVED CROSS-LINGUAL SPEECH EMOTION RECOGNITION\u003C/td>\u003Ctd>Shreya Upadhyay (National Tsing Hua University ); Carlos Busso (Carnegie Mellon University); Chi-Chun Lee (National Tsing Hua University)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>336\u003C/td>\u003Ctd>Enhancing Dialogue Annotation with Speaker Characteristics Leveraging a Frozen LLM\u003C/td>\u003Ctd>Thomas Thebaud (Johns Hopkins University)*; Yen-Ju Lu (Johns Hopkins University); Matthew Wiesner (Johns Hopkins University); Peter Viechnicki (Johns Hopkins University); Najim Dehak (Johns Hopkins University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>341\u003C/td>\u003Ctd>Joint ASR and Speech Attribute Prediction for Conversational Dysarthric Speech Analysis with Multimodal Language Models\u003C/td>\u003Ctd>Dominik Wagner (Technische Hochschule Nuernberg Georg Simon Ohm)*; Ilja Baumann (Technische Hochschule Nuernberg Georg Simon Ohm); Natalie Engert (Technische Hochschule Nuernberg Georg Simon Ohm); Elmar Nöth (Friedrich-Alexander-Universität Erlangen-Nürnberg); Korbinian Riedhammer (Technische Hochschule Nuernberg Georg Simon Ohm); Tobias Bocklet (Technische Hochschule Nuernberg Georg Simon Ohm)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>367\u003C/td>\u003Ctd>More Similar than Dissimilar: Modeling Annotators for Cross-Corpus Speech Emotion Recognition\u003C/td>\u003Ctd>James Tavernor (University of Michigan)*; Emily Mower Provost (University of Michigan)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>387\u003C/td>\u003Ctd>Few-shot Personalization via In-Context Learning for Speech Emotion Recognition based on Speech-Language Model\u003C/td>\u003Ctd>Mana Ihori (NTT Corporation)*; Taiga Yamane (NTT Corporation); Naotaka Kawata (NTT Corporation); Naoki Makishima (NTT Corporation); Tomohiro Tanaka (NTT Corporation); Satoshi Suzuki (NTT Corporation); Shota Orihashi (NTT Corporation); Ryo Masumura (NTT Corporation)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>428\u003C/td>\u003Ctd>Robust Speech Emotion Recognition via Classifier Retraining on Mixup-Augmented Representations\u003C/td>\u003Ctd>Shi-wook Lee (National Institute of Avanced Industrial Science and Technology)*\u003C/td>\u003C/tr>\u003C/tbody>\u003C/table>\u003C/figure>",{"id":1296,"__component":1232,"componentVariation":1233,"styles":1297,"header":1299,"body":1302},140,{"id":1298,"edgeTop":60,"edgeBottom":60,"background":1244,"containerWidth":13},118,{"id":1037,"heading":1300,"prose":56,"lead":1301,"eyebrow":13,"badge":13,"componentVariation":1238,"containerWidth":13,"image":13},"Poster Session 7","December 10 | 10:30-12:00",{"id":1303,"title":13,"body":1304,"containerWidth":13,"buttonGroup":13,"media":13},107,"\u003Cfigure class=\"table\">\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>Paper ID\u003C/th>\u003Cth>Paper Title\u003C/th>\u003Cth>Authors\u003C/th>\u003C/tr>\u003C/thead>\u003Ctbody>\u003Ctr>\u003Ctd>124\u003C/td>\u003Ctd>Full-Duplex-Bench: A Benchmark to Evaluate Full-Duplex Spoken Dialogue Models on Turn-taking Capabilities\u003C/td>\u003Ctd>Guan-Ting Lin (National Taiwan University)*; Jiachen Lian (UC Berkeley); Tingle Li (UC Berkeley); Qirui Wang (University of Washington); Gopala Anumanchipalli (UC Berkeley); Alexander H. Liu (Massachusetts Institute of Technology); Hung-yi Lee (National Taiwan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>147\u003C/td>\u003Ctd>EmoTale: An Enacted Speech-emotion Dataset in Danish\u003C/td>\u003Ctd>Maja Jønck Hjuler (University Grenoble Alpes)*; Harald Vilhelm Skat-Rørdam (Technical University of Denmark); Line Clemmensen (Technical University of Denmark); Sneha Das (Technical University of Denmark)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>189\u003C/td>\u003Ctd>FlexCTC: GPU-powered CTC Beam Decoding With Advanced Contextual Abilities\u003C/td>\u003Ctd>Lilit Grigoryan (NVIDIA)*; Vladimir Bataev (NVIDIA); Nikolay Karpov (NVIDIA); Andrei Andrusenko (NVIDIA); Vitaly Lavrukhin (NVIDIA); Boris Ginsburg (NVIDIA)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>191\u003C/td>\u003Ctd>SENSE models: an open source solution for multilingual and multimodal semantic-based tasks\u003C/td>\u003Ctd>Salima Mdhaffar (LIA - University of Avignon)*; Haroun Elleuch (Elyadata/LIA); Chaimae Chellaf (LIA); Ha Nguyen (Oracle); Yannick Estève (LIA - University of Avignon)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>196\u003C/td>\u003Ctd>EMO-Reasoning: Benchmarking Emotional Reasoning Capabilities in Spoken Dialogue Systems\u003C/td>\u003Ctd>Jingwen Liu (Zhejiang University); Kan Jen Cheng (UC Berkeley)*; Jiachen Lian (UC Berkeley); Tingle Li (UC Berkeley); Akshay Anand (UC Berkeley); Rishi Jain (UC Berkeley); Faith Qiao (UC Berkeley); Robbie Netzorg (UC Berkeley); Huang-Cheng Chou (National Tsing Hua University); Guan-Ting Lin (National Taiwan University); Gopala Anumanchipalli (UC Berkeley)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>277\u003C/td>\u003Ctd>Benchmarking Prosody Encoding in Discrete Speech Tokens\u003C/td>\u003Ctd>Kentaro Onda (The University of Tokyo)*; Satoru Fukayama (National Institute of Advanced Industrial Science and Technology (AIST)); Daisuke Saito (The University of Tokyo); Nobuaki Minematsu (The University of Tokyo)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>282\u003C/td>\u003Ctd>MNSC: Advancing Singlish Speech Understanding with Carefully Curated Corpora\u003C/td>\u003Ctd>Bin Wang (National University of Singapore)*; Xunlong Zou (A*STAR); Shuo Sun (A*STAR ); Wenyu Zhang (A*STAR ); Yingxu He (A*STAR ); Zhuohan Liu (A*STAR ); Chengwei Wei (A*STAR ); Nancy F. Chen (A*STAR ); AiTi Aw (A*STAR )\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>316\u003C/td>\u003Ctd>Meta Audiobox Aesthetics: Unified Automatic Assessment for Speech, Music and Sound\u003C/td>\u003Ctd>Andros Tjandra (Meta AI)*; Yi-Chiao Wu (Meta AI); Baishan Guo (Meta AI); John Hoffman (Meta AI); Brian Ellis (Meta AI); Apoorv Vyas (Meta AI); Bowen Shi (Meta AI); Sanyuan Chen (Meta AI); Matt Le (Meta AI); Nick Zacharov (Meta AI); Carleigh Wood (Meta AI); Ann Lee (Meta AI); Wei-Ning Hsu (Meta AI)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>356\u003C/td>\u003Ctd>CASPER: A Large Scale Spontaneous Speech Dataset\u003C/td>\u003Ctd>Cihan Xiao (Johns Hopkins University)*; Ruixing Liang (Johns Hopkins University); Xiangyu Zhang (Johns Hopkins University); Mehmet Emre Tiryaki (Johns Hopkins University); Veronica Bae (Johns Hopkins University); Lavanya Shankar (Johns Hopkins University); Rong Yang (Johns Hopkins University); Ethan Poon (Edison Academy Magnet School); Emmanuel Dupoux (Meta); Sanjeev Khudanpur (Johns Hopkins University); Leibny Paola Garcia Perera (Johns Hopkins University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>444\u003C/td>\u003Ctd>Towards General Discrete Speech Codec for Complex Acoustic Environments: A Study of Reconstruction and Downstream Task Consistency\u003C/td>\u003Ctd>Haoran Wang (Shanghai Jiao Tong University)*; Guanyu Chen (Shanghai Jiao Tong University); Bohan Li (Shanghai Jiao Tong University); Hankun Wang (Shanghai Jiao Tong University); Yiwei Guo (Shanghai Jiao Tong University); Zhihan Li (Shanghai Jiao Tong University); Xie Chen (Shanghai Jiao Tong University); Kai Yu (Shanghai Jiao Tong University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>47\u003C/td>\u003Ctd>Multi-Distillation from Speech and Music Representation Models\u003C/td>\u003Ctd>Jui-Chiang Wei (National Taiwan University); Yi-Cheng Lin (National Taiwan University)*; Fabian Ritter-Gutierrez (Nanyang Technological University); Hung-yi Lee (National Taiwan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>60\u003C/td>\u003Ctd>A correlation-permutation approach for speech-music encoders model merging\u003C/td>\u003Ctd>Fabian Ritter-Gutierrez (Nanyang Technological University)*; Yi-Cheng Lin (National Taiwan University); Jeremy H.M Wong (Institute for Infocomm Research); Hung-yi Lee (National Taiwan University); Eng Siong Chng (Nanyang Technological University); Nancy F. Chen ( Institute for Infocomm Research)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>108\u003C/td>\u003Ctd>Emphasis Sensitivity in Speech Representations\u003C/td>\u003Ctd>Shaun Cassini (University of Sheffield)*; Thomas Hain (University of Sheffield); Anton Ragni (University of Sheffield)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>112\u003C/td>\u003Ctd>Is Smaller Always Faster? Tradeoffs in Compressing Self-Supervised Speech Transformers\u003C/td>\u003Ctd>Tzu-Quan Lin (Graduate Institute of Communication Engineering, National Taiwan University)*; Tsung-Huan Yang (Academia Sinica); Chun-Yao Chang (University of California, Los Angeles); Kuang-Ming Chen (University of Washington); Tzu-hsun Feng (National Taiwan University); Hung-yi Lee (Graduate Institute of Communication Engineering, National Taiwan University); Hao Tang (The University of Edinburgh)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>158\u003C/td>\u003Ctd>Llasa+: Free Lunch for Accelerated and Streaming Llama-Based Speech Synthesis\u003C/td>\u003Ctd>Wenjie Tian (Northwestern Polytechnical University)*; Xinfa Zhu (Northwestern Polytechnical University); Hanke Xie (Northwestern Polytechnical University); Zhen Ye (Hong Kong University of Science and Technology); Wei Xue (Hong Kong University of Science and Technology); Lei Xie (Northwestern Polytechnical University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>160\u003C/td>\u003Ctd>An Effective Strategy for Modeling Score Ordinality and Non-uniform Intervals in Automated Speaking Assessment\u003C/td>\u003Ctd>Tien-Hong Lo (National Taiwan Normal University)*; Szu-Yu Chen (National Taiwan Normal University); Yao-Ting Sung (National Taiwan Normal University); Berlin Chen (National Taiwan Normal University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>193\u003C/td>\u003Ctd>Codec2Vec: Self-Supervised Speech Representation Learning Using Neural Speech Codecs\u003C/td>\u003Ctd>Wei-Cheng Tseng (The University of Texas at Austin)*; David Harwath (The University of Texas at Austin)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>258\u003C/td>\u003Ctd>ProtoCLAP – Prototypical Contrastive Language-Audio Pretraining\u003C/td>\u003Ctd>Adria Mallol-Ragolta (Technical University of Munich)*; Björn Schuller (Technical University of Munich)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>281\u003C/td>\u003Ctd>Personalized Federated Learning with Fuzzy Clustering for Dysarthric Speech Recognition\u003C/td>\u003Ctd>Jie-Shiang Yang (National Tsing Hua University); Jing-Tong Tzeng (National Tsing Hua University); Chi-Chun Lee (National Tsing Hua University)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>318\u003C/td>\u003Ctd>Iterative Feedback in the Online Active Learning Paradigm\u003C/td>\u003Ctd>Mark Lindsey (Probity, Inc.)*; Francis Kubala (Probity Inc.); Richard M. Stern (Carnegie Mellon University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>359\u003C/td>\u003Ctd>PURE Codec: Progressive Unfolding of Residual Entropy for Speech Codec Learning\u003C/td>\u003Ctd>Jiatong Shi (Carnegie Mellon University)*; Haoran Wang (Shanghai Jiaotong University); William Chen (Carnegie Mellon University); Chenda Li (Shanghai Jiaotong University); Wangyou Zhang (Shanghai Jiaotong University); Jinchuan Tian (Carnegie Mellon University); Shinji Watanabe (Carnegie Mellon University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>361\u003C/td>\u003Ctd>USAD: Universal Speech and Audio Representation via Distillation\u003C/td>\u003Ctd>Heng-Jui Chang (Massachusetts Institute of Technology)*; Saurabhchand Bhati (Massachusetts Institute of Technology); James Glass (Massachusetts Institute of Technology); Alexander Liu (Massachusetts Institute of Technology)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>426\u003C/td>\u003Ctd>ULTRAS - Unified Learning of Transformer Representations for Audio and Speech Signals\u003C/td>\u003Ctd>Ameenudeen PE (IISc Bangalore)*; Charumathi Narayanan (IISc Bangalore); Sriram Ganapathy (IISc Bangalore)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>20\u003C/td>\u003Ctd>Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?\u003C/td>\u003Ctd>Andrew Rouditchenko (MIT CSAIL)*; Saurabhchand Bhati (MIT CSAIL); Edson Araujo (Goethe University of Frankfurt); Samuel Thomas (IBM Research AI); Rogerio Feris (MIT-IBM Watson AI Lab); Hilde Kuehne (Tuebingen AI Center); James Glass (MIT CSAIL)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>205\u003C/td>\u003Ctd>LCS-CTC: Leveraging Soft Alignments to Enhance Phonetic Transcription Robustness\u003C/td>\u003Ctd>Zongli Ye (Zhejiang University)*; Jiachen Lian (University of California, Berkeley); Akshaj Gupta (University of California, Berkeley); Xuanru Zhou (Zhejiang University); Haodong Li (Southern University of Science and Technology); Krish Patel (University of California, Berkeley); Hwi Joo Park (University of California, Berkeley); Dingkun Zhou ( University of California, Berkeley); Chenxu Guo (Zhejiang University); Shuhe Li (Zhejiang University); Sam Wang (University of California, Berkeley); Iris Zhou (University of California, Berkeley); Cheol Jun Cho (University of California, Berkeley); Zoe Ezzes (University of California, San Francisco); Jet M.J. Vonk (University of California, San Francisco); Brittany T. Morin ( University of California, San Francisco); Rian Bogley (University of California, San Francisco); Lisa Wauters (University of California, San Francisco); Zachary A. Miller (University of California, San Francisco); Maria Luisa Gorno-Tempini (University of California, San Francisco); Gopala Anumanchipalli (University of California, Berkeley)\u003C/td>\u003C/tr>\u003C/tbody>\u003C/table>\u003C/figure>",{"id":1306,"__component":1232,"componentVariation":1233,"styles":13,"header":1307,"body":1311},141,{"id":1308,"heading":1309,"prose":56,"lead":1310,"eyebrow":13,"badge":13,"componentVariation":1238,"containerWidth":13,"image":13},186,"Demos/Challenges","December 9 | 4:00 - 5:30",{"id":1312,"title":13,"body":1313,"containerWidth":13,"buttonGroup":13,"media":13},108,"\u003Cfigure class=\"table\">\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>Paper ID\u003C/th>\u003Cth>Paper Title\u003C/th>\u003Cth>Authors\u003C/th>\u003C/tr>\u003C/thead>\u003Ctbody>\u003Ctr>\u003Ctd>465\u003C/td>\u003Ctd>Audio Aesthetics Prediction System QAM16k Based on Pre-trained Audio Encoder\u003C/td>\u003Ctd>Linping Xu (bytedance)*; Ziqian Wu (bytedance); Dejun Zhang (bytedance)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>466\u003C/td>\u003Ctd>QAMRO: Quality-aware Adaptive Margin Ranking Optimization for Human-aligned Assessment of Audio Generation Systems\u003C/td>\u003Ctd>\"Chien-Chun Wang (National Taiwan Normal University)*; Kuan-Tang Huang (National Taiwan Normal University ); Cheng-Yeh Yang (National Taiwan Normal University); Hung-Shin Lee (United Link Co., Ltd.); Hsin-Min Wang (Academia Sinica); Berlin Chen (National Taiwan Normal University)\"\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>469\u003C/td>\u003Ctd>Multi-Sampling-Frequency Naturalness MOS Prediction Using Self-Supervised Learning Model with Sampling-Frequency-Independent Layer\u003C/td>\u003Ctd>Gou Nishikawa (The University of Tokyo); Wataru Nakata (The University of Tokyo)*; Yuki Saito (The University of Tokyo); Kanami Imamura (The University of Tokyo); Hiroshi Saruwatari (The University of Tokyo); Tomohiko Nakamura (The University of Tokyo)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>473\u003C/td>\u003Ctd>The T12 System for AudioMOS Challenge 2025: Audio Aesthetics Score Prediction System Using KAN- and VERSA-based Models\u003C/td>\u003Ctd>Katsuhiko Yamamoto (CyberAgent)*; Koichi Miyazaki (CyberAgent); Shogo Seki (CyberAgent)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>475\u003C/td>\u003Ctd>DyMEvalNet: Dynamic Text-Audio-Personalization Fusion for Multimodal Music Quality Assessment\u003C/td>\u003Ctd>Xiaoxun Wu (Ningbo University); Kailai Shen (Juphoon System Software Co., Ltd.); Yuheng Huang (Ningbo University); Naiyuan Li (Ningbo University); Diqun Yan (Ningbo University of Finance and Economics)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>476\u003C/td>\u003Ctd>ASTAR-NTU solution to AudioMOS Challenge 2025 Track1\u003C/td>\u003Ctd>Fabian Ritter-Gutierrez (Nanyang Technological University)*; Yi-Cheng Lin (National Taiwan University); Jui-Chiang Wei (National Taiwan University); Jeremy H.M Wong (Institute for Infocomm Research); Nancy F. Chen (Institute for Infocomm Research); Hung-yi Lee (National Taiwan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>477\u003C/td>\u003Ctd>Improving Perceptual Audio Aesthetic Assessment via Triplet Loss and Self-Supervised Embeddings\u003C/td>\u003Ctd>Dyah Wisnu (Academia Sinica)*; Ryandhimas Zezario (Academia Sinica); Stefano Rini (National Yang Ming Chiao Tung University); Hsin-Min Wang (Academia Sinica); Yu Tsao (Academia Sinica)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>479\u003C/td>\u003Ctd>WhisQ: Cross-Modal Representation Learning for Text-to-Music MOS Prediction\u003C/td>\u003Ctd>Jakaria &nbsp;Emon (Hokkaido Denshikiki Co., Ltd.)*; Md Abu &nbsp;Salek (Hokkaido Denshikiki Co., Ltd.)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>481\u003C/td>\u003Ctd>KyotoMOS2: MOS Prediction for Speech Across Multiple Sampling Rates\u003C/td>\u003Ctd>Wangjin Zhou (Kyoto University)*; Yizhou Zhang (Kyoto University); Tatsuya Kawahara (Kyoto University); Keisuke Imoto (Kyoto University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>483\u003C/td>\u003Ctd>The AudioMOS Challenge 2025\u003C/td>\u003Ctd>Wen-Chin Huang (Nagoya University)*; Hui Wang (Nankai University); Cheng Liu (Nankai University); Yi-Chiao Wu (Meta); Andros &nbsp;Tjandra (Meta); Wei-Ning Hsu (Meta); Erica Cooper (National Institute of Information and Communications Technology); Yong Qin (Nankai University); Tomoki Toda (Nagoya University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>485\u003C/td>\u003Ctd>HighRateMOS: Sampling-Rate Aware Modeling for Speech Quality Assessment\u003C/td>\u003Ctd>Wenze Ren (National Taiwan University)*; Yi-Cheng Lin (National Taiwan University); Wen-Chin Huang (Nagoya University); Ryandhimas Zezario (Academia Sinica); &nbsp;Szu-Wei Fu (Nvidia); Sung-Feng Huang (Nvidia); Erica Cooper (NICT); Haibin Wu (Independent researcher); Hung-Yu Wei (National Taiwan University); &nbsp;Hsin-Min Wang (Academia Sinica); Hung-yi Lee (National Taiwan University); Yu Tsao (Academia Sinica)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>497\u003C/td>\u003Ctd>MMMOS: Muli-domain Multi-axis Audio Quality Assessment\u003C/td>\u003Ctd>Yi-Cheng Lin (National Taiwan University)*; Jia-Hung Chen (National Taiwan University); Hung-yi Lee (National Taiwan University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>471\u003C/td>\u003Ctd>Towards Scalable and Robust Multilingual ASR for Indian Languages with MixLoRA-Whisper\u003C/td>\u003Ctd>Yeseul Park (Inha University)*; Bowon Lee (Inha University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>474\u003C/td>\u003Ctd>MADASR 2.0: Multi-Lingual Multi-Dialect ASR Challenge in 8 Indian Languages\u003C/td>\u003Ctd>Saurabh Kumar (IISc Bengaluru)*; Sumit Sharma (IISc Bengaluru); Deekshitha G (IISc Bengaluru); Abhayjeet Singh (IISc Bengaluru); Amartya veer (IISc Bengaluru); Sathvik Udupa (IISc Bengaluru); Sandhya Badiger (IISc Bengaluru); Sanjeev Khudanpur (John Hopkins University); Sunayana Sitaram (Microsoft Research); Srinivasan Umesh (Indian Institute of Technology, Madras); Bhuvana Ramabhadran (Google DeepMind); Brian Kingsbury (IBM Research); Hema A. Murthy (Indian Institute of Technology, Madras); Srikanth S Narayanan (University of Southern California); Howard Lakougna (Gates Foundation); Prasanta Kumar Ghosh (Indian Institute of Science, Bangalore)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>470\u003C/td>\u003Ctd>Voice Factor Control Using FIR-Based Fast Neural Vocoder for Speech Generation Applications\u003C/td>\u003Ctd>Yamato Ohtani (NICT)*; Takuma Okamoto (NICT); Tomoki Toda (Nagoya University); Hisashi Kawai (NICT)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>492\u003C/td>\u003Ctd>Open Full-duplex Voice Agent with Speech-to-Speech Language Model\u003C/td>\u003Ctd>Zhehuai Chen (NVIDIA)*; Edresson &nbsp;Casanova (NVIDIA); Chen &nbsp;Chen (NVIDIA); Kevin &nbsp;Hu (NVIDIA); Ankita &nbsp;Pasad (NVIDIA); Elena &nbsp;Rastorgueva (NVIDIA); Seelan Lakshmi &nbsp;Narasimhan (NVIDIA); Slyne &nbsp;Deng (NVIDIA); Ehsan &nbsp;Hosseini Asl (NVIDIA); Piotr Zelasko (NVIDIA); Valentin &nbsp;Mendelev (NVIDIA); Subhankar &nbsp;Ghosh (NVIDIA); Yifan &nbsp;Peng (NVIDIA); Jason &nbsp;Li (NVIDIA); Jagadeesh &nbsp;Balam (NVIDIA); Vitaly &nbsp;Lavrukhin (NVIDIA); Boris &nbsp;Ginsburg (NVIDIA)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>496\u003C/td>\u003Ctd>Speech Masking System Based on Spatially Separated Multiple TTS Maskers With A Compact Circular Loudspeaker Array\u003C/td>\u003Ctd>Takuma Okamoto (National Institute of Information and Communications Technology)*\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>490\u003C/td>\u003Ctd>AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning\u003C/td>\u003Ctd>Yueqian Lin (Duke University)*; Zhengmian Hu ( Adobe Research); Jayakumar Subramanian (Adobe Research); Qinsi Wang (Duke University); Nikos Vlassis (Adobe Research); Hai Li (Duke University); Yiran Chen (Duke University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>493\u003C/td>\u003Ctd>CAVIARES: Corpus for Audio-Visual Expressive Voice Agent\u003C/td>\u003Ctd>Jinsheng Chen (The University of Tokyo)*; Yuki Saito (The University of Tokyo); Dong Yang (The University of Tokyo); Naoko Tanji (The University of Tokyo); Hironori Doi (LY Corporation); Byeongseon Park (LY Corporation); Yuma Shirahata (LY Corporation); Kentaro Tachibana (LY Corporation); Hiroshi Saruwatari (The University of Tokyo)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>489\u003C/td>\u003Ctd>AURA: Agent for Understanding, Reasoning, and Automated Tool Use in Voice-Driven Tasks\u003C/td>\u003Ctd>Leander Maben (Carnegie Mellon University)*; Gayathri Lakshmy (Carnegie Mellon University); Srijith Radhakrishnan (Carnegie Mellon University); Siddhant Arora (Carnegie Mellon University); Shinji Watanabe (Carnegie Mellon University)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>491\u003C/td>\u003Ctd>ChipChat: Low-Latency Cascaded Conversational Agent in MLX\u003C/td>\u003Ctd>Tatiana Likhomanenko (Apple)*; Luke Carlson (Thinking Machines Lab); He Bai (Apple); Zijin Gu (Apple); Han Tran (Apple); Zakaria Aldeneh (Apple); Yizhe Zhang (Apple); Ruixiang Zhang (Apple); Huangjie Zheng (Apple); Navdeep Jaitly (Apple)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>501\u003C/td>\u003Ctd>Long-Form Fuzzy Speech-to-Text Alignment for 1000+ Languages\u003C/td>\u003Ctd>Ruizhe Huang (Meta)*; Xiaohui Zhang (Meta); Zhaoheng Ni (Meta); Moto Hira (Meta); Jeff Hwang (Meta); Vineel Pratap (Meta); Ju Lin (Meta); Ming Sun (Meta); Florian Metze (Meta)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>467\u003C/td>\u003Ctd>Efficient Deployment of Large Speech Recognition Models on GPU\u003C/td>\u003Ctd>Yuekai Zhang (Nvidia)*; Shuang Yu (Nvidia); Junjie Lai (Nvidia)\u003C/td>\u003C/tr>\u003Ctr>\u003Ctd>478\u003C/td>\u003Ctd>VERSA-v2: A Modular and Scalable Toolkit for Speech and Audio Evaluation with Expanded Metrics, Visualization, and LLM Integration\u003C/td>\u003Ctd>Jiatong Shi (Carnegie Mellon University)*; Bo-Hao Su (Carnegie Mellon University); Shikhar Bharadwaj (Carnegie Mellon University); Yiwen Zhao (Carnegie Mellon University); Shih-Heng Wang (University of Southern California); Jionghao Han (Carnegie Mellon University); Haoran Wang (Shanghai JIaotong University); Wei Wang (Shanghai Jiaotong University); Wenhao Feng (Renmin University of China); Yuxun Tang (Renmin University of China); Nezih Topaloğlu (Yeditepe University); Siddhant Arora (Carnegie Mellon University); Jinchuan Tian (Carnegie Mellon University); William Chen (Carnegie Mellon University); Hye-jin Shim (Carnegie Mellon University); Wangyou Zhang (Shanghai Jiaotong University); Wen-Chin Huang (Nagoya University); Shinji Watanabe (Carnegie Mellon University)\u003C/td>\u003C/tr>\u003C/tbody>\u003C/table>\u003C/figure>",{"data":1315,"meta":1316},{"id":148,"heading":470,"createdAt":471,"updatedAt":472,"publishedAt":473,"url_path_id":474,"url_path":466,"contentType":95},{},1778851853257]