Reducing Transformer Key-Value Cache Size With Cross-Layer Attention Arxiv Papers podcast

Artwork

Science Igor Melnyk

Innhold levert av Igor Melnyk. Alt podcastinnhold, inkludert episoder, grafikk og podcastbeskrivelser, lastes opp og leveres direkte av Igor Melnyk eller deres podcastplattformpartner. Hvis du tror at noen bruker det opphavsrettsbeskyttede verket ditt uten din tillatelse, kan du følge prosessen skissert her https://no.player.fm/legal.

Arxiv Papers « »
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention

25d ago 18:08

Del

MP3•Episoder hjem

Innhold levert av Igor Melnyk. Alt podcastinnhold, inkludert episoder, grafikk og podcastbeskrivelser, lastes opp og leveres direkte av Igor Melnyk eller deres podcastplattformpartner. Hvis du tror at noen bruker det opphavsrettsbeskyttede verket ditt uten din tillatelse, kan du følge prosessen skissert her https://no.player.fm/legal.

Key-value caching in large language models is crucial for decoding speed. Multi-Query Attention (MQA) and Cross-Layer Attention (CLA) reduce memory usage while maintaining accuracy, enabling larger models.

https://arxiv.org/abs//2405.12981

YouTube: https://www.youtube.com/@ArxivPapers

TikTok: https://www.tiktok.com/@arxiv_papers

Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016

Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers

--- Support this podcast: https://podcasters.spotify.com/pod/show/arxiv-papers/support

… continue reading

1166 episoder

#Science #Igor Melnyk

Artwork

Reducing Transformer Key-Value Cache Size with Cross-Layer Attention

published 25d ago

Del

MP3•Episoder hjem

Innhold levert av Igor Melnyk. Alt podcastinnhold, inkludert episoder, grafikk og podcastbeskrivelser, lastes opp og leveres direkte av Igor Melnyk eller deres podcastplattformpartner. Hvis du tror at noen bruker det opphavsrettsbeskyttede verket ditt uten din tillatelse, kan du følge prosessen skissert her https://no.player.fm/legal.

Key-value caching in large language models is crucial for decoding speed. Multi-Query Attention (MQA) and Cross-Layer Attention (CLA) reduce memory usage while maintaining accuracy, enabling larger models.

https://arxiv.org/abs//2405.12981

YouTube: https://www.youtube.com/@ArxivPapers

TikTok: https://www.tiktok.com/@arxiv_papers

Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016

Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers

--- Support this podcast: https://podcasters.spotify.com/pod/show/arxiv-papers/support

… continue reading

1166 episoder

#Science #Igor Melnyk

All episodes

×

Velkommen til Player FM!

Player FM scanner netter for høykvalitets podcaster som du kan nyte nå. Det er den beste podcastappen og fungerer på Android, iPhone og internett. Registrer deg for å synkronisere abonnement på flere enheter.

Lytt til 500+ tema