{"id":1302,"date":"2026-01-07T17:29:20","date_gmt":"2026-01-07T20:29:20","guid":{"rendered":"https:\/\/www.tachyonix.io\/br\/?p=1302"},"modified":"2026-01-07T18:33:59","modified_gmt":"2026-01-07T21:33:59","slug":"as-implicacoes-do-sap-rpt-1-para-ia-de-negocios-e-cientistas-de-dados","status":"publish","type":"post","link":"https:\/\/www.tachyonix.io\/br\/as-implicacoes-do-sap-rpt-1-para-ia-de-negocios-e-cientistas-de-dados\/","title":{"rendered":"As implica\u00e7\u00f5es do SAP-RPT-1 para IA de neg\u00f3cios e cientistas de dados"},"content":{"rendered":"\n<p>Esta semana, nossa equipe participou do SAP TechEd em Berlim, onde a SAP apresentou seu mais recente modelo fundamental, o SAP-RPT-1 (pronuncia-se &#8220;Rapid-1&#8221;). Mais informa\u00e7\u00f5es sobre este an\u00fancio podem ser encontradas em &#8220;Um Novo Paradigma para IA Empresarial: Aprendizado Contextual para Dados Relacionais&#8221;, bem como no artigo oficial publicado na confer\u00eancia NeurIPS deste ano, &#8220;ConTextTab: Um Aprendizado Tabular Contextual com Consci\u00eancia Sem\u00e2ntica&#8221;. O modelo est\u00e1 dispon\u00edvel para explora\u00e7\u00e3o no SAP-RPT-1 Playground.<\/p>\n\n\n\n<p>Come\u00e7aremos com um breve contexto: IA &#8220;estreita&#8221; \u00e9 o termo usado pela SAP para modelos de Machine Learning (ML) treinados com dados espec\u00edficos do cliente para realizar uma tarefa espec\u00edfica (&#8220;prever minhas vendas para o pr\u00f3ximo trimestre com base na evolu\u00e7\u00e3o hist\u00f3rica&#8221;), em contraste com os modelos fundamentais, que oferecem aprendizado por transfer\u00eancia pronto para uso e, portanto, s\u00e3o aplic\u00e1veis \u200b\u200ba uma ampla gama de tarefas. Assim, a introdu\u00e7\u00e3o do RPT-1 se encaixa perfeitamente na vis\u00e3o da SAP de introduzir solu\u00e7\u00f5es de baixo c\u00f3digo para permitir que usu\u00e1rios de neg\u00f3cios ou n\u00e3o especialistas em ci\u00eancia de dados se familiarizem rapidamente com solu\u00e7\u00f5es de neg\u00f3cios baseadas em IA que v\u00e3o al\u00e9m das capacidades de modelos de aprendizado de m\u00e1quina de baixo c\u00f3digo.<\/p>\n\n\n\n<p>A mensagem estrat\u00e9gica \u00e9 clara: modelos de IA personalizados ou espec\u00edficos n\u00e3o s\u00e3o mais necess\u00e1rios, pois os modelos b\u00e1sicos podem desempenhar a fun\u00e7\u00e3o t\u00e3o bem ou melhor. Mas ser\u00e1 que isso \u00e9 realmente verdade?<\/p>\n\n\n\n<p>Neste post do blog, tentaremos fornecer um contexto importante sobre esse an\u00fancio, com base em nossa vasta experi\u00eancia com SAP e IA. Na pr\u00f3xima se\u00e7\u00e3o, abordaremos tr\u00eas quest\u00f5es-chave:<\/p>\n\n\n\n<p>Quais s\u00e3o as implica\u00e7\u00f5es estrat\u00e9gicas para os clientes SAP e cientistas de dados?<\/p>\n\n\n\n<p>Quais s\u00e3o algumas das principais defici\u00eancias dessa abordagem que as empresas e os cientistas de dados precisam conhecer?<\/p>\n\n\n\n<p>O que o SAP-RPT-1 significa para mim como cientista de dados e quando devo (ou n\u00e3o) us\u00e1-lo?<\/p>\n\n\n\n<p><strong>Modelos B\u00e1sicos para Dados Textuais vs. Dados Relacionais\/Tabulares<\/strong><\/p>\n\n\n\n<p>Vamos come\u00e7ar com alguns conceitos b\u00e1sicos. Assim como os Modelos de Linguagem de Grande Porte (LLMs) s\u00e3o &#8220;modelos de base&#8221; pr\u00e9-treinados para gerar texto com base em blocos de texto anteriores (&#8220;prompts&#8221;) em terabytes de dados textuais, o RPT-1 \u00e9 um &#8220;modelo de base&#8221; pr\u00e9-treinado em milh\u00f5es de conjuntos de dados relacionais diferentes para gerar valores para uma ou mais c\u00e9lulas, dadas as c\u00e9lulas circundantes.<\/p>\n\n\n\n<p>A ideia n\u00e3o \u00e9 nova, visto que bibliotecas como o TabPFN t\u00eam atra\u00eddo cada vez mais aten\u00e7\u00e3o no \u00faltimo ano, apresentando resultados promissores. De fato, o RPT-1 parece ser uma vers\u00e3o aprimorada da arquitetura TabPFN, especialmente expandida com recursos que permitem (a) compreender nomes de colunas e (b) aprender com valores de texto dentro das c\u00e9lulas do conjunto de dados. Coincidentemente, o TabPFN anunciou ontem a vers\u00e3o 2.5, alegando ser o estado da arte (SOTA) em alguns benchmarks tamb\u00e9m \u2013 infelizmente, o relat\u00f3rio t\u00e9cnico n\u00e3o permite uma compara\u00e7\u00e3o direta entre os dois.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"886\" height=\"341\" src=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image.png\" alt=\"\" class=\"wp-image-1303\" srcset=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image.png 886w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-300x115.png 300w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-768x296.png 768w\" sizes=\"auto, (max-width: 886px) 100vw, 886px\" \/><\/figure>\n<\/div>\n\n\n<p><em>Uma breve compara\u00e7\u00e3o entre IA restrita, IA generativa (LLMs) e modelos de funda\u00e7\u00e3o tabular.<\/em><\/p>\n\n\n\n<p>A vantagem inerente disso \u00e9 clara: da mesma forma que um LLM aprende regras b\u00e1sicas da linguagem natural e conhecimento comum a partir de suas vastas quantidades de dados (textuais) durante o treinamento, o RPT-1 aprende conceitos importantes de dados tabulares: depend\u00eancias entre diferentes colunas e valores de c\u00e9lulas, a import\u00e2ncia dos nomes das colunas e, mais importante, provavelmente tamb\u00e9m j\u00e1 entendeu o que \u00e9 um pedido de venda ou de servi\u00e7o, e que o pre\u00e7o geralmente depende da quantidade e dos tipos de itens. A ideia \u00e9 simples: podemos mascarar qualquer c\u00e9lula em uma tabela e fazer com que o RPT-1 preveja seu valor, exigindo apenas algumas linhas de exemplo como contexto.<\/p>\n\n\n\n<p>Dessa forma, o RPT-1 pode ser entendido de maneira semelhante a uma abordagem de instru\u00e7\u00e3o &#8220;com poucos exemplos&#8221; para LLM. Se voc\u00ea pedir a um LLM para atribuir tarefas aos destinat\u00e1rios corretos com base em seus conte\u00fados textuais, voc\u00ea incluiria alguns exemplos do mundo real e seus destinat\u00e1rios desejados como exemplos com poucos exemplos. Isso &#8220;ensinaria&#8221; ao LLM quais pessoas existem e qual pessoa \u00e9 respons\u00e1vel por qu\u00ea \u2013 tudo dentro de um \u00fanico exemplo, sem exigir nenhuma etapa de treinamento.<\/p>\n\n\n\n<p>Para o RPT-1, as poucas linhas de &#8220;contexto&#8221; que voc\u00ea fornece assumem o papel dos exemplos acima, dando ao RPT-1 uma ideia de como seus dados tabulares se parecem e estabelecendo limites para sua tarefa. Em seguida, voc\u00ea pede que ele preveja resultados (por exemplo, o tempo que um cliente levar\u00e1 para pagar sua fatura, a categoria de um ticket, etc.).<\/p>\n\n\n\n<p><strong>A Vis\u00e3o Estrat\u00e9gica do SAP-RPT-1<\/strong><\/p>\n\n\n\n<p>As vantagens s\u00e3o \u00f3bvias<strong>. Em um cen\u00e1rio ideal, n\u00e3o precisar\u00edamos mais criar modelos complexos de IA manualmente<\/strong>, gastando semanas iterando diferentes abordagens, executando varreduras de hiperpar\u00e2metros e assim por diante. Isso significaria tamb\u00e9m que n\u00e3o precisar\u00edamos mais de cientistas de dados trabalhando em Python para empacotar seus modelos em APIs REST, apenas para que possam ser consumidos por nossos aplicativos de neg\u00f3cios executados no CAP no Cloud Foundry. Em vez disso, os &#8220;novos&#8221; cientistas de dados se concentrariam em entender a demanda das partes interessadas, preparar conjuntos de dados e recursos-chave e, em seguida, implementar o pipeline de previs\u00e3o no CAP, simplesmente acessando o modelo RPT-1 dispon\u00edvel por meio do SAP Generative AI Hub.<\/p>\n\n\n\n<p>Al\u00e9m disso, isso possibilitaria cen\u00e1rios de previs\u00e3o sem uma grande quantidade de dados de treinamento \u2013 algo que antes era imposs\u00edvel, pois a rotulagem manual de dados \u00e9 demorada e cara.<\/p>\n\n\n\n<p>No entanto, um fator crucial permanece: os cen\u00e1rios de IA precisar\u00e3o de uma justificativa de neg\u00f3cios, o que exige compreender a confiabilidade das previs\u00f5es de IA, o valor que elas criam e os custos associados. Na nossa vis\u00e3o, ainda precisamos de Cientistas de Dados que consigam traduzir requisitos de neg\u00f3cios e conhecimento do dom\u00ednio em entradas para modelos fundamentais e, mais importante, avaliar\/testar o desempenho desses modelos para um determinado caso de uso, traduzindo-os em KPIs que as partes interessadas do neg\u00f3cio possam entender. Se as partes interessadas estiverem satisfeitas com a precis\u00e3o medida, n\u00e3o precisamos mais gastar meses desenvolvendo manualmente um modelo de IA espec\u00edfico. Mas, se por algum motivo o modelo n\u00e3o funcionar bem, precisamos conhecer suas limita\u00e7\u00f5es antes de implement\u00e1-lo em produ\u00e7\u00e3o. Da mesma forma que as solu\u00e7\u00f5es de IA generativa para texto exigem uma estrat\u00e9gia de avalia\u00e7\u00e3o para medir sua efic\u00e1cia, o RPT-1 requer um conjunto de dados de exemplo para garantir que atenda \u00e0s demandas do neg\u00f3cio.<\/p>\n\n\n\n<p><strong>Quais s\u00e3o as limita\u00e7\u00f5es e peculiaridades dos modelos de base tabular?<\/strong><\/p>\n\n\n\n<p>No entanto, \u00e9 importante entender que isso tamb\u00e9m traz consigo algumas das falhas inerentes a outros modelos de base (como os LLMs). \u00c9 importante notar que algumas dessas &#8220;falhas&#8221; n\u00e3o s\u00e3o um problema espec\u00edfico do RPT-1, mas sim resultado do paradigma de aprendizado contextual que tamb\u00e9m afetou modelos relacionados, como o TabPFN.<\/p>\n\n\n\n<p>Em primeiro lugar, a falta de explicabilidade. Com a Lei de IA da UE impondo regras r\u00edgidas para \u00e1reas de alto risco \u2013 como classifica\u00e7\u00f5es de cr\u00e9dito em um contexto financeiro ou banc\u00e1rio \u2013 at\u00e9 mesmo modelos tradicionais de IA restritos (Gradient Boosting) eram frequentemente chamados de &#8220;caixa preta&#8221; ou &#8220;imposs\u00edveis de explicar&#8221;. Sim, seria poss\u00edvel usar pacotes como o SHAP para calcular os impactos de recursos locais, mas estes forneceriam apenas uma aproxima\u00e7\u00e3o. Com modelos de base relacionais como o RPT-1, isso se torna ainda mais invi\u00e1vel: n\u00e3o temos como entender como uma previs\u00e3o espec\u00edfica \u00e9 gerada. Isso provavelmente inviabilizar\u00e1 qualquer aplica\u00e7\u00e3o em \u00e1reas onde IA explic\u00e1vel, resultados probabil\u00edsticos calibrados ou modelagem bayesiana s\u00e3o atualmente utilizados. Felizmente, a SAP j\u00e1 incluiu esses itens em seu planejamento estrat\u00e9gico, e estamos curiosos para saber como etapas de p\u00f3s-processamento e outras podem ser usadas para solucionar essas preocupa\u00e7\u00f5es.<\/p>\n\n\n\n<p>Em segundo lugar, a falta de reprodutibilidade e a sensibilidade \u00e0 ordem dos dados. Sim, o RPT-1 fornecer\u00e1 as mesmas sa\u00eddas duas vezes se o contexto e a tarefa forem exatamente os mesmos. No entanto, devido ao seu design baseado em aten\u00e7\u00e3o espacial, alterar a ordem das colunas geralmente \u2014 mantendo-se tudo o mais constante \u2014 altera a previs\u00e3o! O mesmo se aplica \u00e0s linhas: de repente, faz diferen\u00e7a se eu classificar meus dados de contexto por data ou pelo ID do usu\u00e1rio associado. Como efeito colateral disso, ter duas amostras com todos os recursos equivalentes n\u00e3o garante mais que suas previs\u00f5es ser\u00e3o as mesmas. Veja um exemplo abaixo.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"886\" height=\"389\" src=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-1.png\" alt=\"\" class=\"wp-image-1304\" srcset=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-1.png 886w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-1-300x132.png 300w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-1-768x337.png 768w\" sizes=\"auto, (max-width: 886px) 100vw, 886px\" \/><\/figure>\n<\/div>\n\n\n<p><em>Previs\u00e3o com amostras em ordem cronol\u00f3gica<\/em><\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"886\" height=\"395\" src=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-2.png\" alt=\"\" class=\"wp-image-1305\" srcset=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-2.png 886w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-2-300x134.png 300w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-2-768x342.png 768w\" sizes=\"auto, (max-width: 886px) 100vw, 886px\" \/><\/figure>\n<\/div>\n\n\n<p><em>Previs\u00e3o ligeiramente alterada ap\u00f3s pequena reorganiza\u00e7\u00e3o das mesmas linhas.<\/em><\/p>\n\n\n\n<p>What\u2019s even more important to note \u2013 The&nbsp;<strong>column names have a huge impact on the forecasted values<\/strong>, as their name and description is a direct input to RPT-1. While this allows transfer learning and capturing concepts about what a \u201cprice\u201d column means, it also requires Data Scientists to accurately name their columns, ideally similar to the description used by SAP systems. In that sense, Data Scientists will also need to do&nbsp;<strong>\u201cprompt engineering\u201d on column names<\/strong>&nbsp;to find what delivers best results. In our experiences, it was&nbsp;<strong>not possible to inject domain knowledge<\/strong>&nbsp;(\u201cless scooters will be rented at night\u201d) into the forecast (yet). Maybe in the future we will get some type of system prompt for relational transformers in the future?<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"886\" height=\"389\" src=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-3.png\" alt=\"\" class=\"wp-image-1306\" srcset=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-3.png 886w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-3-300x132.png 300w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-3-768x337.png 768w\" sizes=\"auto, (max-width: 886px) 100vw, 886px\" \/><\/figure>\n<\/div>\n\n\n<p><em>Grandes mudan\u00e7as apenas com a mudan\u00e7a dos nomes das colunas.<\/em><\/p>\n\n\n\n<p><em>Mais importante ainda, o RPT-1 incorpora valores em colunas categ\u00f3ricas e textuais. Isso significa que ele deve ser capaz de capturar a &#8220;sem\u00e2ntica&#8221; por tr\u00e1s dos valores das c\u00e9lulas, melhorando, espera-se, a precis\u00e3o em tarefas que dependem (em parte) de dados textuais. No entanto, isso significa que os cientistas de dados agora tamb\u00e9m precisam experimentar com a forma como os valores categ\u00f3ricos s\u00e3o nomeados \u2013 mesmo que os valores de ID sejam os mesmos, o mapeamento dos valores categ\u00f3ricos alterar\u00e1 o resultado da previs\u00e3o. Essa \u00e9 outra peculiaridade que n\u00e3o se aplica \u00e0s abordagens tradicionais de IA restrita.<\/em><\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"886\" height=\"393\" src=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-4.png\" alt=\"\" class=\"wp-image-1307\" srcset=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-4.png 886w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-4-300x133.png 300w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-4-768x341.png 768w\" sizes=\"auto, (max-width: 886px) 100vw, 886px\" \/><\/figure>\n<\/div>\n\n\n<p><em>Renomear valores categ\u00f3ricos de IDs para nomes &#8220;expressivos&#8221; altera a previs\u00e3o &#8211; \u00e0s vezes para melhor, \u00e0s vezes para pior.<\/em><\/p>\n\n\n\n<p>Mais ainda, uma falha cr\u00edtica (que tamb\u00e9m afeta modelos semelhantes ao TabPFN) \u00e9 a janela de contexto limitada (aproximadamente 2.000 linhas, conforme mencionado no artigo e dispon\u00edvel no ambiente de testes). Em muitos casos, esse n\u00famero \u00e9 muito menor do que os dados de treinamento dispon\u00edveis, o que torna um desafio inicial decidir quais linhas\/amostras do conjunto de dados completo precisam ser usadas como contexto para a tarefa de previs\u00e3o atual. Isso pode ser especialmente limitante para tarefas de classifica\u00e7\u00e3o de alta cardinalidade: n\u00e3o \u00e9 mais poss\u00edvel usar exemplos de cada um dos 15.000 grupos de materiais como contexto, por exemplo.<\/p>\n\n\n\n<p>Al\u00e9m disso, o RPT-1 \u00e9 um &#8220;modelo de tabela \u00fanica&#8221;, o que significa que os cientistas de dados (por enquanto) ainda precisam garantir que essa tabela contenha todos os campos relevantes, incluindo, por exemplo, a jun\u00e7\u00e3o\/agrega\u00e7\u00e3o de dados de tabelas vinculadas. Dessa forma, a engenharia de recursos em v\u00e1rias tabelas ainda \u00e9 uma tarefa manual e requer um bom conhecimento do dom\u00ednio. A SAP reconheceu isso e est\u00e1 pesquisando para incluir dados de tabelas vinculadas automaticamente.<\/p>\n\n\n\n<p>Juntamente com a quest\u00e3o mencionada acima (a ordem das linhas importa), o Cientista de Dados agora precisa derivar uma heur\u00edstica sobre quais amostras de dados hist\u00f3ricos devem ser passadas como contexto para cada amostra a ser prevista! Assim, transferimos a responsabilidade dos Cientistas de Dados da otimiza\u00e7\u00e3o de modelos para a otimiza\u00e7\u00e3o de dados, recursos e gerenciamento de contexto \u2013 de forma semelhante \u00e0 sele\u00e7\u00e3o cuidadosa do prompt e do contexto para Modelos de Aprendizagem Baseados em L\u00f3gica (LLMs), utilizando abordagens como a Gera\u00e7\u00e3o Aumentada por Recupera\u00e7\u00e3o (RAG). Talvez possamos at\u00e9 mesmo adaptar a mesma abordagem da RAG para dados tabulares e cham\u00e1-la de TRAG, abrevia\u00e7\u00e3o de Gera\u00e7\u00e3o Aumentada por Recupera\u00e7\u00e3o Tabular. As amostras existentes s\u00e3o incorporadas com um modelo de incorpora\u00e7\u00e3o relacional especializado e, ao prever novas amostras, selecionamos primeiro as 100 amostras conhecidas mais semelhantes e as passamos para o RPT-1 como contexto.<\/p>\n\n\n\n<p>Al\u00e9m disso, as c\u00e9lulas s\u00e3o &#8220;preenchidas&#8221; uma a uma, portanto, prever muitos valores ainda levar\u00e1 um tempo consider\u00e1vel, inviabilizando o uso em dispositivos de borda ou tarefas ad hoc que exigem decis\u00f5es r\u00e1pidas. Principalmente no ambiente de testes, existe um limite r\u00edgido para o n\u00famero m\u00e1ximo de c\u00e9lulas previstas, bem como um limite de taxa bastante rigoroso.<\/p>\n\n\n\n<p>De acordo com a SAP (e coincidindo com os resultados da nossa primeira avalia\u00e7\u00e3o), o SAP-RPT-1 tamb\u00e9m suporta atualmente apenas classifica\u00e7\u00e3o e regress\u00e3o, n\u00e3o sendo compat\u00edvel com tarefas de correspond\u00eancia, recomenda\u00e7\u00e3o ou regress\u00e3o de s\u00e9ries temporais. Embora esses recursos estejam no roadmap da SAP, pode levar algum tempo para que sejam totalmente aproveitados em toda a gama de tarefas que os modelos de IA espec\u00edficos atualmente abrangem com sucesso. Um exemplo curioso: ao ser solicitado a prever um carimbo de data\/hora entre duas amostras, o modelo sugeriu o carimbo de data\/hora com um ano de anteced\u00eancia.<\/p>\n\n\n\n<p><strong>Exagero vs. Realidade: Uma vis\u00e3o (ligeiramente) cr\u00edtica das alega\u00e7\u00f5es de desempenho da SAP<\/strong><\/p>\n\n\n\n<p>A SAP sugeriu que seu modelo relacional fundamental pode reduzir as taxas de erro em at\u00e9 duas vezes, por exemplo, em previs\u00f5es relacionadas a materiais, mesmo quando comparado a modelos de IA espec\u00edficos e ajustados, treinados com seus dados de clientes. Infelizmente, o artigo em quest\u00e3o n\u00e3o corrobora essas afirma\u00e7\u00f5es diretamente, portanto, consideramos necess\u00e1rio algum contexto.<\/p>\n\n\n\n<p>Em seu artigo, os autores comparam tarefas de classifica\u00e7\u00e3o e regress\u00e3o com alguns modelos desenvolvidos manualmente (LGBM, XGBoost, CatBoost e solu\u00e7\u00f5es de aprendizado de m\u00e1quina automatizado, como o AutoGluon) em diversas cole\u00e7\u00f5es de conjuntos de dados dispon\u00edveis publicamente (Ap\u00eandice A.2, Tabela 3). Observe que o artigo se refere ao RPT-1 por seu nome anterior, &#8220;ConTextTab&#8221;.<\/p>\n\n\n\n<p><strong>Esses conjuntos de dados s\u00e3o:<\/strong><\/p>\n\n\n\n<p><strong>CARTE <\/strong>\u201ctem a particularidade de ser composto por tabelas com strings de alta cardinalidade\u201d, ou seja, exatamente o tipo de conjunto de dados \u201csem\u00e2ntico\u201d no qual o RPT-1 se destaca.<\/p>\n\n\n\n<p><strong>OML-CC18 <\/strong>\u201cum conjunto de benchmarks de aprendizado de m\u00e1quina com 72 conjuntos de dados de classifica\u00e7\u00e3o cuidadosamente selecionados dentre os milhares de conjuntos de dados dispon\u00edveis no OpenML\u201d<\/p>\n\n\n\n<p><strong>OML-CTR23, <\/strong>\u201cuma cole\u00e7\u00e3o selecionada de 35 problemas de regress\u00e3o dispon\u00edveis no OpenML\u201d<\/p>\n\n\n\n<p><strong>TabReD, \u201c<\/strong>um novo benchmark de conjuntos de dados tabulares de n\u00edvel industrial com conjuntos de dados do mundo real ricos em recursos e em constante evolu\u00e7\u00e3o temporal\u201d<\/p>\n\n\n\n<p><strong>TALENT, <\/strong>\u201cuma extensa cole\u00e7\u00e3o de conjuntos de dados: equipada com 300 conjuntos de dados, abrangendo uma ampla gama de tipos de tarefas, distribui\u00e7\u00f5es de tamanho e dom\u00ednios de conjuntos de dados\u201d. O sufixo \u201cTiny\u201d significa focar em um subconjunto contendo 45 conjuntos de dados que s\u00e3o representativos do desempenho geral das linhas de base investigadas nos trabalhos originais.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"886\" height=\"685\" src=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-5.png\" alt=\"\" class=\"wp-image-1308\" srcset=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-5.png 886w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-5-300x232.png 300w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-5-768x594.png 768w\" sizes=\"auto, (max-width: 886px) 100vw, 886px\" \/><\/figure>\n<\/div>\n\n\n<p>Nessa compara\u00e7\u00e3o, podemos observar que, em todos os conjuntos de dados, o RPT-1 apresenta uma classifica\u00e7\u00e3o m\u00e9dia de 4,7 a 5,42 (dependendo dos hiperpar\u00e2metros utilizados). Sua habilidade parece ser mais evidente no benchmark sem\u00e2ntico CARTE, onde fica apenas ligeiramente atr\u00e1s do AutoGluon. Nos demais conjuntos de dados, o RPT-1 geralmente se encontra na faixa intermedi\u00e1ria de pontua\u00e7\u00e3o. Considerando apenas esses benchmarks, as abordagens tradicionais de IA espec\u00edfica, bem como as solu\u00e7\u00f5es modernas de AutoML, mesmo sem pr\u00e9-treinamento, ainda superam o RPT-1 com frequ\u00eancia. A \u00fanica quest\u00e3o que permanece \u00e9: qual a habilidade, o tempo e o poder computacional necess\u00e1rios para desenvolver um modelo de IA espec\u00edfica que supere a linha de base definida pelo RPT-1?<\/p>\n\n\n\n<p>Nesse contexto, tamb\u00e9m \u00e9 importante verificar como essas classifica\u00e7\u00f5es evoluem em fun\u00e7\u00e3o da quantidade de dados de treinamento espec\u00edficos da tarefa dispon\u00edveis. Felizmente, os autores realizaram essa an\u00e1lise em seu artigo, conforme mostrado abaixo.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"886\" height=\"507\" src=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-6.png\" alt=\"\" class=\"wp-image-1309\" srcset=\"https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-6.png 886w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-6-300x172.png 300w, https:\/\/www.tachyonix.io\/br\/wp-content\/uploads\/2026\/01\/image-6-768x439.png 768w\" sizes=\"auto, (max-width: 886px) 100vw, 886px\" \/><\/figure>\n<\/div>\n\n\n<p>Como podemos ver, para um conjunto limitado de dados de treinamento (&lt;5 mil amostras), os modelos contextuais pr\u00e9-treinados (como RPT-1\/ConTextTab, TabPFN) s\u00e3o os principais concorrentes devido ao seu conhecimento &#8220;geral&#8221; que impacta as previs\u00f5es. Se os dados de treinamento dispon\u00edveis forem limitados, esses modelos quase sempre superar\u00e3o os modelos de IA espec\u00edficos criados manualmente. Acima de 5 mil amostras, as solu\u00e7\u00f5es de AutoML, como o AutoGluon, ou os algoritmos de aprendizado tabular baseados em redes neurais, como o RealMLP, s\u00e3o os melhores modelos, com os algoritmos de gradient boosting, como o LightGBM, ganhando terreno \u00e0 medida que mais dados se tornam dispon\u00edveis.<\/p>\n\n\n\n<p><strong>Quando devo (ou n\u00e3o) usar o SAP-RPT-1?<\/strong><\/p>\n\n\n\n<p>Nossa recomenda\u00e7\u00e3o geral: Sempre avalie o SAP-RPT-1 em rela\u00e7\u00e3o aos r\u00f3tulos de verdade conhecidos e aos modelos de linha de base ing\u00eanuos. Para uma orienta\u00e7\u00e3o r\u00e1pida, aqui est\u00e3o alguns casos em que recomendamos seu uso \u2013 e outros em que n\u00e3o recomendamos.<\/p>\n\n\n\n<p>Use o SAP-RPT-1 se:<\/p>\n\n\n\n<p>os dados de treinamento forem limitados (menos de 3 a 5 mil amostras)<\/p>\n\n\n\n<p>a tarefa se basear em colunas que s\u00e3o comumente dispon\u00edveis em sistemas SAP existentes e os dados de treinamento ainda forem um tanto limitados (menos de 10 mil amostras)<\/p>\n\n\n\n<p>a tarefa depender fortemente de recursos sem\u00e2nticos, como valores\/descri\u00e7\u00f5es de texto, juntamente com dados categ\u00f3ricos<\/p>\n\n\n\n<p>voc\u00ea n\u00e3o se importar com o melhor modelo e atingir 80% do resultado desejado com menos esfor\u00e7o for suficiente para voc\u00ea<\/p>\n\n\n\n<p>N\u00e3o use o SAP-RPT-1 se:<\/p>\n\n\n\n<p>voc\u00ea estiver tentando realizar previs\u00f5es de s\u00e9ries temporais, correspond\u00eancia, recomenda\u00e7\u00f5es e similares<\/p>\n\n\n\n<p>voc\u00ea tiver dados de treinamento suficientes<\/p>\n\n\n\n<p>a reprodutibilidade e a explicabilidade forem uma preocupa\u00e7\u00e3o<\/p>\n\n\n\n<p>voc\u00ea precisar executar sem acesso \u00e0 internet\/em dispositivos de borda ou fazer previs\u00f5es em tempo real em conjuntos de dados maiores<\/p>\n\n\n\n<p>Em geral, estamos extremamente satisfeitos em ver a SAP aproveitar sua experi\u00eancia e a vasta quantidade de dados de treinamento relacionais dispon\u00edveis para fornecer \u00e0 comunidade uma nova e promissora maneira de pensar sobre IA em dados relacionais. Muitas das defici\u00eancias que observamos atualmente (e que, portanto, reduzem os cen\u00e1rios em que o SAP-RPT-1 pode ser usado prontamente hoje) est\u00e3o em nosso planejamento e estamos ansiosos para ver como elas ser\u00e3o abordadas e integradas em uma solu\u00e7\u00e3o completa e de uso geral. A longo prazo, isso tem o potencial de permitir que cientistas de dados com menos forma\u00e7\u00e3o t\u00e9cnica entreguem valor comercial aos stakeholders rapidamente.<\/p>\n\n\n\n<p>Nesse sentido, n\u00e3o, a IA &#8220;estreita&#8221; n\u00e3o est\u00e1 (ainda?) morta, mas os modelos relacionais fundamentais mudar\u00e3o significativamente a forma como criamos valor comercial com IA nos pr\u00f3ximos dois anos.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Esta semana, nossa equipe participou do SAP TechEd em Berlim, onde a SAP apresentou seu mais recente modelo fundamental, o SAP-RPT-1 (pronuncia-se &#8220;Rapid-1&#8221;). Mais informa\u00e7\u00f5es sobre este an\u00fancio podem ser encontradas em &#8220;Um Novo Paradigma para IA Empresarial: Aprendizado Contextual para Dados Relacionais&#8221;, bem como no artigo oficial publicado na confer\u00eancia NeurIPS deste ano, &#8220;ConTextTab: [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":1315,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-1302","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-sem-categoria"],"_links":{"self":[{"href":"https:\/\/www.tachyonix.io\/br\/wp-json\/wp\/v2\/posts\/1302","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.tachyonix.io\/br\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.tachyonix.io\/br\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.tachyonix.io\/br\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.tachyonix.io\/br\/wp-json\/wp\/v2\/comments?post=1302"}],"version-history":[{"count":5,"href":"https:\/\/www.tachyonix.io\/br\/wp-json\/wp\/v2\/posts\/1302\/revisions"}],"predecessor-version":[{"id":1317,"href":"https:\/\/www.tachyonix.io\/br\/wp-json\/wp\/v2\/posts\/1302\/revisions\/1317"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.tachyonix.io\/br\/wp-json\/wp\/v2\/media\/1315"}],"wp:attachment":[{"href":"https:\/\/www.tachyonix.io\/br\/wp-json\/wp\/v2\/media?parent=1302"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.tachyonix.io\/br\/wp-json\/wp\/v2\/categories?post=1302"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.tachyonix.io\/br\/wp-json\/wp\/v2\/tags?post=1302"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}