IA Generativa: Custo de processamento pode despencar mais de 90% até 2030

Destaques
- •Gartner prevê queda superior a 90% no custo de inferência para LLMs com 1 trilhão de parâmetros até 2030.
- •A redução será impulsionada por avanços em semicondutores, arquitetura de modelos e silício especializado.
- •Apesar da queda no custo por token, o aumento no volume de uso e a complexidade das aplicações podem pressionar os gastos totais.
Atenção, nerds de IA! O Gartner soltou uma projeção que pode mudar o jogo: o custo para rodar modelos de linguagem gigantes (aqueles com 1 trilhão de parâmetros) pode cair mais de 90% até 2030, comparado a 2025.
Essa queda é resultado de uma combinação de fatores, tipo avanços em semicondutores, modelos mais espertos e o uso de chips específicos para IA. A consultoria ainda estima que esses modelos podem ficar até 100 vezes mais baratos em custo por inferência até o fim da década.
Mas ó, nem tudo são flores. O Gartner alerta que essa redução no preço por unidade de processamento (o tal do token) não vai ser totalmente repassada. Com aplicações cada vez mais complexas e o uso massivo de IA generativa, o gasto total com processamento pode acabar subindo.
O segredo, segundo eles, estará nas plataformas que souberem orquestrar diferentes modelos de IA de forma eficiente. A ideia é usar modelos menores para tarefas simples e os gigantes só quando o raciocínio for realmente complexo. Assim, a gente pode ter o melhor dos dois mundos: eficiência e poder de processamento. 💰




