Wed, Dec 18, 2024
A semana mais insana de 2024, um cinema de papers.
Esta semana compramos muita pipoca na MultiCortex, pois foi um absoluto cinema de papers no setor de IA. Acreditamos que foi a semana mais insana de 2024 marcada por avanços significativos no campo da inteligência artificial, com a publicação de diversos artigos que abordam desde melhorias em arquiteturas de modelos até questões de segurança e eficiência. A seguir, a lista desses trabalhos:
- Byte Latent Transformer
- Training Large Language Models to Reason in a Continuous Latent Space
- Language Modeling in a Sentence Representation Space
- Phi-4 Technical Report – Best-of-N Jailbreaking
- Forking Paths in Neural Text Generation
- Refusal Tokens – [MASK] is All You Need
- Explore Theory-of-Mind
- Obfuscated Activations Bypass LLM Latent-Space Defenses
- The Pitfalls of Memorization
- How to Merge Your Multimodal Models Over Time?
- Machine Unlearning Doesn’t Do What You Think
- Understanding Gradient Descent through the Training Jacobian
- An Evolved Universal Transformer Memory
- Transformers Struggle to Learn to Search
- Transformers Can Navigate Mazes With Multi-Step Prediction
- Frontier Models are Capable of In-context Scheming
- Mixture of Monosemantic Experts for Transformers
- Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
- Scalable Text and Image Conditioned Video Generation
- Hidden in the Noise: Two-Stage Robust Watermarking for Images
- Learned Compression for Compressed Learning
- Learning Flow Fields in Attention for Controllable Person Image Generation
- ProcessBench: Identifying Process Errors in Mathematical Reasoning
- Unraveling the Complexity of Memory in RL Agents
- Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- APOLLO: SGD-like Memory, AdamW-level Performance
- Neural LightRig
Mon, Dec 16, 2024
Apollo LMM suporta até 1h de video.
O laboratório da MultiCortex começa testar os modelos Apollo da Meta que estão disponíveis em três tamanhos (1,5B, 3B e 7B) e processam até uma hora de vídeo. Eles se destacam na compreensão avançada de vídeos, respondendo a perguntas complexas, interpretando a linha temporal e sustentando diálogos sobre o conteúdo exibido. O Apollo-3B rivaliza ou supera modelos de 7B, enquanto o Apollo-7B supera até modelos de 30B+ em benchmarks de vídeo, demonstrando eficiência superior e excelente relação custo-benefício.
O Apollo LLM é uma nova geração de modelos de linguagem multimodal (LMMs) que redefine a forma como as máquinas entendem vídeos. Fruto de uma colaboração entre a Meta GenAI e a Universidade de Stanford, o Apollo se destaca por sua eficiência e inovação no campo da inteligência artificial.
Principais Diferenciais
-
Consistência de Escalonamento (“Scaling Consistency”)
O conceito de “Scaling Consistency” permite que decisões de design feitas em modelos menores sejam aplicadas de forma confiável a modelos maiores. Isso reduz drasticamente o custo computacional e o tempo de desenvolvimento. -
Otimização de Estratégias de Treinamento
O Apollo explora cronogramas de treinamento e combinações de dados. A descoberta de que a amostragem “fps” (frames por segundo) é mais eficiente que a amostragem uniforme impacta diretamente o desempenho do modelo. -
Tokenização Eficiente
O modelo encontrou o equilíbrio ideal de 8 a 32 tokens por frame, além de usar técnicas de “token integration” para integrar tokens de diferentes quadros de maneira eficaz. -
Benchmark Personalizado (ApolloBench)
Para medir a eficácia dos LMMs de vídeo, o Apollo introduziu o ApolloBench, um benchmark personalizado que facilita a avaliação de diferentes modelos. -
Uso de Encoders de Alto Desempenho
O SigLIP-SO400M foi identificado como o melhor encoder único, mas a combinação deste com o InternVideo2 proporcionou um desempenho geral ainda mais robusto. -
Aprimoramento Contínuo
O modelo melhora a performance de seus encoders em dados de vídeo e ajusta a mistura de dados de texto e vídeo, garantindo desempenho superior em tarefas de raciocínio e percepção.
Aplicações Práticas
O Apollo LLM se destaca em tarefas que exigem entendimento multimodal, incluindo:
- Assistentes de IA mais inteligentes
- Análise de vídeos para segurança e vigilância
- Interpretação de vídeos para ensino e aprendizado
Desempenho Comparado
O Apollo superou diversos concorrentes em benchmarks de raciocínio espacial, percepção e compreensão de conteúdo de vídeo. Seu desempenho foi validado em testes no TempCompass, MLVU e VideoMME.
O Apollo LLM é uma solução de ponta que promete transformar a interação homem-máquina em ambientes multimodais. Para mais detalhes, acesse o site oficial do Apollo.
Fri, Dec 06, 2024
Llama 3.3 70b oferece desempenho similar ao 405b!
Inacreditável, o novo modelo Llama 3.3 de 70B da Meta, que oferece desempenho semelhante ao modelo Llama 3.1 de 405B! Modelos já disponível na MultiCortex!
O Meta Llama 3.3 é um modelo de linguagem grande multilíngue (LLM) pré-treinado e ajustado para instruções, com capacidade de 70B (texto para texto). O modelo Llama 3.3, ajustado apenas para texto e instruções, é otimizado para casos de uso de diálogo multilíngue e supera muitos dos modelos de chat abertos e fechados disponíveis nos benchmarks comuns da indústria.
Benchmark do Llama 3.3
Idiomas suportados: inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. Novas capacidades
Esta versão introduz novas capacidades, incluindo uma janela de contexto mais longa, entradas e saídas multilíngues e possíveis integrações por desenvolvedores com ferramentas de terceiros. Construir com essas novas capacidades requer considerações específicas, além das melhores práticas que geralmente se aplicam a todos os casos de uso de IA Gerativa.
Uso de ferramentas: Assim como no desenvolvimento de software padrão, os desenvolvedores são responsáveis pela integração do LLM com as ferramentas e serviços de sua escolha. Eles devem definir uma política clara para seu caso de uso e avaliar a integridade dos serviços de terceiros utilizados para estar cientes das limitações de segurança e proteção ao usar esta capacidade. Consulte o Guia de Uso Responsável para melhores práticas sobre a implantação segura das salvaguardas de terceiros.
Multilinguismo: Llama 3.3 suporta 7 idiomas além do inglês: francês, alemão, hindi, italiano, português, espanhol e tailandês. O Llama pode ser capaz de produzir texto em outros idiomas que não aqueles que atendem aos limiares de desempenho para segurança e utilidade. Desencorajamos fortemente os desenvolvedores a usar este modelo para conversar em idiomas não suportados sem implementar o ajuste fino e controles de sistema alinhados com suas políticas e as melhores práticas compartilhadas no Guia de Uso Responsável.
IA para o setor de Saúde.
O paper “Developing Resource-Efficient Clinical LLMs for Brazilian Portuguese” referente aos dois Modelos de Linguagem Médica em Português conquista o prêmio de 3º melhor artigo científico no BRACIS – Brazilian Conference on Intelligent Systems, o maior evento científico de IA no Brasil!
O 𝗠𝗘𝗗-𝗟𝗟𝗠-𝗕𝗥 foi criado para geração de dados sintéticos no setor de saúde, assim contribuindo para um melhor treinamento de modelos neste setor. Neste contexto uma colaboração inovadora entre Comsentimento e HAILab-PUCPR – Health Artificial Intelligence Lab da Pontifícia Universidade Católica do Paraná, surgiu a iniciativa do projeto 𝗠𝗘𝗗-𝗟𝗟𝗠-𝗕𝗥 que visa criar recursos e expandir as fronteiras do processamento de linguagem natural na área médica em português.
Baseado no Brazil Journal , o setor da saúde é um dos que mais deverão capturar os ganhos da inteligência artificial. Porém, apesar do potencial, o Brasil ainda patina na organização e até mesmo na coleta desses dados.
“Antes de falarmos de unificação de dados, de um sistema como o Open Banking para a saúde e para a IA ser mais eficaz, vamos precisar ter os dados,” disse Sidney Klajner, presidente do Einstein no evento Saúde não tem preço. Mas tem custo, realizado pelo Brazil Journal no último dia 26 de outubro.
Este modelo humildemente disponibilizo em openVINO para fazer inferência sem o uso de GPU utilizando apenas CPU e/ou NPU Intel, além de permitir o processamento em processadores antigos.
Mais informação aqui: https://github.com/cabelo/MED-LLM-BR-openvino
Wed, Dec 04, 2024
Tucano em openVINO
Acabo de disponibilizar oficialmente o modelo Tucano na tecnologia de inferência openVINO. O modelo de linguagem Tucano agora esta disponível com a tecnologia openVINO, assim permitindo que o modelo seja executado eficientemente em CPUs sem necessidade de GPUs. Esta compatibilidade torna o modelo acessível para utilização em computadores lançados em 2016 ou mais recentes, democratizando o acesso a tecnologias de processamento de linguagem natural avançadas e expandindo sua aplicabilidade a uma variedade maior de hardware.
O modelo “Tucano” é um modelo de linguagem desenvolvido especificamente para entender e processar texto em português. Baseado na arquitetura de transformadores, ele é treinado com uma vasta quantidade de textos em português para captar nuances linguísticas e contextuais, tornando-se uma ferramenta poderosa para tarefas de processamento de linguagem natural, como resumo de textos e geração de conteúdo em português.
Utilizando técnicas avançadas como o “Supervised Fine-Tuning” (SFT) e “Direct Preference Optimization” (DPO), os modelos da série Tucano buscam otimizar a performance em cenários instrucionais. Isso permite que o modelo não apenas entenda e gere texto, mas também execute tarefas com instruções específicas, tornando-o ideal para aplicações de inteligência artificial que requerem interações precisas e contextuais em português.
Pesquisadores da Universidade de Bonn na Alemanha desenvolveram o “Gigaverbo”, o maior banco de dados público em português destinado ao treinamento de modelos de inteligência artificial (IA) como os LLMs. Este banco de dados inclui 145 milhões de documentos, totalizando 200 bilhões de tokens. Este recurso foi criado para ajudar a democratizar o acesso à tecnologia de IA em português, oferecendo uma ferramenta aberta que também serve para preservar a cultura linguística e brasileira.
Exemplo: https://github.com/cabelo/Tucano-2b4-Instruct-openvino
Modelo: https://huggingface.co/cabelo/Tucano-2b4-Instruct-fp16-ov
Sat, Nov 23, 2024
Exame de sangue com celular.
A inovação chega ao mundo dos microscópios com o lançamento de um modelo portátil que promete revolucionar a maneira como profissionais e entusiastas da ciência transportam e utilizam esse tipo de equipamento. Diferenciando-se por sua portabilidade sem comprometer a eficácia, este microscópio incorpora uma lente inovadora equipada com milhares de nano ventosas. Essas ventosas permitem que a lente se fixe de maneira segura e instantânea em qualquer lente de smartphone, tornando o dispositivo altamente compatível tanto com aparelhos Android quanto com iPhones. Essa característica assegura que o usuário possa realizar observações científicas precisas em qualquer lugar, sem a necessidade de equipamentos pesados ou estacionários.
O destaque deste microscópio é a lente iMicro Q3p, que proporciona uma capacidade de ampliação impressionante de até 1.200 vezes. Com tal grau de aproximação, é possível observar detalhes em um nível submicrônico, abrindo um vasto campo de possibilidades para a exploração científica. Usuários podem, por exemplo, examinar com clareza desde um simples fio de cabelo até componentes mais complexos como células sanguíneas. Essa funcionalidade torna o microscópio uma ferramenta extremamente valiosa para estudos e pesquisas em diversas áreas, desde a biologia até a engenharia de materiais.
Em paralelo ao desenvolvimento deste microscópio, estou trabalhando em um software inovador destinado a automatizar e facilitar o processo de contagem de hemácias, leucócitos e plaquetas em imagens microscópicas. Este software é construído utilizando técnicas avançadas de Inteligencia Artificial, Visão computacional, incluindo Transformada de Hough, morfologia matemática, erosão e dilatação, bem como técnicas especializadas para detecção de bolhas. O objetivo é proporcionar um método mais eficiente e acessível para o diagnóstico de condições médicas como anemia e leucopenia, essencial para ambientes clínicos que buscam precisão e agilidade em seus diagnósticos.
A implementação deste software tem o potencial de transformar significativamente a prática médica, especialmente em locais com recursos limitados. Ao automatizar a contagem de células sanguíneas, o software não só acelera o processo de diagnóstico, mas também reduz a dependência de patologistas para a realização desses testes. Isso resulta em um diagnóstico mais rápido e econômico de anemia e leucopenia, facilitando o acesso a tratamentos médicos eficazes e melhorando a qualidade de vida dos pacientes. Esta inovação representa um passo significativo para tornar a saúde mais acessível e eficiente através da tecnologia.
Fri, Nov 22, 2024
Música Unidos pelo Sul, um fracasso…
Em maio em virtude da tragédia das enchentes no Sul, lancei uma música intitulada “Unidos pelo Sul” no Spotify, com o objetivo de angariar fundos para as vítimas das enchentes que assolaram a região Sul do Brasil. A ideia era transformar a arte em uma ferramenta de ajuda humanitária, direcionando toda a renda arrecadada para as pessoas afetadas por essa catástrofe. No entanto, apesar da boa intenção, a campanha não alcançou o sucesso esperado.
A música foi ouvida por 6.250 pessoas, o que resultou na arrecadação de apenas 7 dólares. Este resultado foi surpreendentemente baixo, especialmente quando comparado com outra iniciativa que promovi, o “Carnaval da Selfie”, realizado em fevereiro. Este evento atraiu mais de 60 mil ouvintes e arrecadou 10 vezes mais, demonstrando uma grande disparidade entre os dois projetos. Esta diferença nos resultados levanta questões importantes sobre o engajamento do público em causas humanitárias, comparado a eventos mais leves e festivos.
É intrigante observar que, mesmo sem custos adicionais para os ouvintes, a adesão a uma campanha com um propósito claramente benéfico foi significativamente menor. Este fenômeno sugere uma reflexão sobre o comportamento humano e o tipo de incentivos que motivam a participação em diferentes tipos de campanhas.
Quero esclarecer que toda a renda gerada, de fato, não foi destinada às vítimas das enchentes, conforme o planejado. Pois o saque mínimo é $14,30 e a campanha não alcançou este valor. A transparência neste processo é fundamental para mim, pois entendo a importância de manter a confiança de todos que apoiaram a iniciativa, mesmo que o resultado financeiro tenha sido menor do que o esperado.
Apesar do resultado desanimador desta campanha, não desisto. Continuarei buscando formas de usar minha música para fazer a diferença no mundo. Este episódio serviu como uma lição valiosa sobre os desafios de mobilizar apoio para causas urgentes e me motivou a pensar em novas estratégias para engajar mais pessoas em futuras iniciativas. Agradeço a todos que ouviram a música e aos que continuam a apoiar esforços para ajudar quem mais precisa.
Spotify:
https://tinyurl.com/rs-spotify-music
YouTube Music:
https://tinyurl.com/rs-youtube-music
Amazon Music:
https://tinyurl.com/rs-amazon-music
Apple Music:
https://tinyurl.com/rs-apple-music
iTunes:
https://tinyurl.com/rs-apple-music
Deezer:
https://tinyurl.com/rs-deezer
TikTok Music:
https://tinyurl.com/rs-tiktok
Sun, Nov 17, 2024
OmniGen: Revolucionando a Geração de Imagens.
OmniGen é um modelo integrado de geração de imagens capaz de criar uma ampla variedade de imagens a partir de instruções multimodais. Seu design prioriza a simplicidade, flexibilidade e facilidade de uso. Oferecemos o código de inferência para que todos possam explorar as diversas funcionalidades do OmniGen.
Exemplo: do projeto OmniGen em funcionamento.
Modelos tradicionais de geração de imagens geralmente exigem a carga de múltiplos módulos adicionais de rede (como ControlNet, IP-Adapter, Reference-Net, entre outros) e a realização de etapas extras de pré-processamento (por exemplo, detecção de rosto, estimativa de pose, recorte, etc.) para gerar imagens satisfatórias. No entanto, acredita-se que o paradigma futuro da geração de imagens deve ser mais simples e flexível, ou seja, capaz de gerar diversas imagens diretamente por meio de instruções multimodais arbitrárias, sem a necessidade de plugins adicionais e operações, de maneira semelhante ao funcionamento do GPT na geração de linguagem.
Devido a recursos limitados, ainda há espaço para aprimorar o OmniGen. O projeto continua sendo otimizado e espera-se que ele inspire modelos de geração de imagens mais universais. Além disso, você pode afinar facilmente o OmniGen sem se preocupar com o design de redes para tarefas específicas; basta preparar os dados correspondentes e executar o script. A imaginação deixa de ter limites; todos podem construir qualquer tarefa de geração de imagens, e talvez seja possível alcançar resultados muito interessantes, maravilhosos e criativos.
OmniGen é um modelo de geração de imagens que permite realizar diversas tarefas, incluindo, mas não se limitando a, geração de imagem a partir de texto, geração direcionada por assunto, geração que preserva identidade, edição de imagem e geração condicionada por imagem. O OmniGen não necessita de plugins adicionais ou operações específicas, pois pode identificar automaticamente as características (como objeto requerido, pose humana, mapeamento de profundidade) nas imagens de entrada de acordo com o prompt de texto. Mostramos alguns exemplos no arquivo inference.ipynb e, no arquivo inference_demo.ipynb, apresentamos um pipeline interessante para gerar e modificar uma imagem.
Abaixo as instruções de instalação:
git clone https://github.com/VectorSpaceLab/OmniGen.git
cd OmniGen
pip install torch==2.3.1+cu118 torchvision --extra-index-url https://download.pytorch.org/whl/cu118
pip install -e .
Thu, Oct 24, 2024
Recebemos papinha de IAs grátis, porque nós somos o produto.
Recentemente, testemunhamos uma revolução tecnológica onde assistentes de inteligência artificial (IA) são disponibilizados gratuitamente em nossos CELULARES. À primeira vista, essa parece ser uma grande vantagem, recebendo constantemente novos recursos sem custo aparente. Contudo, é fundamental lembrar o famoso ditado: “não existe almoço grátis.” Neste cenário, nós, os usuários, somos o verdadeiro produto. As empresas de tecnologia não estão simplesmente sendo generosas; elas têm um interesse econômico claro, utilizando nossos dados como moeda de troca.
As IAs que povoam nossos dispositivos aprendem incessantemente com nossas interações. Cada pergunta que fazemos, cada preferência que expressamos, e cada desaprovação que indicamos a uma imagem ou frase, são dados valiosos que alimentam esses sistemas. Os modelos de IA, especialmente os generativos probabilísticos, são desenhados para absorver e processar essa informação, refinando suas capacidades e, consequentemente, seu valor para as empresas que os controlam. Essa troca contínua de informações é o que permite que essas ferramentas se tornem cada vez mais integradas e indispensáveis em nossa vida cotidiana.
No entanto, a facilidade de uso desses assistentes vem com um preço oculto: a perda de controle sobre nossos próprios dados. Tudo o que submetemos a essas IAs online é enviado para a nuvem, e raramente temos qualquer poder sobre o destino final dessas informações. Desde preferências pessoais até comportamentos sutis, tudo pode ser coletado e analisado. Por exemplo, a aplicação de um simples algoritmo de biometria cognitiva pode revelar uma quantidade surpreendente de informações sobre os usuários. Imagine, então, o que grandes corporações de tecnologia, com seus recursos avançados, são capazes de inferir e acumular.
O problema se acentua com a dependência crescente dessas tecnologias. Ao integrar IAs em cada aspecto de nossas vidas, abrimos mão de uma parcela significativa de nossa privacidade. Esses dados, uma vez coletados e analisados, podem ser usados para influenciar desde nossas decisões de compra até nossas opiniões políticas, sem que tenhamos clara consciência de tal manipulação.
Para aqueles preocupados com a privacidade e o controle sobre seus próprios dados, uma solução seria optar por modelos de IA que funcionam offline e não requerem conexão constante com a internet. Esses modelos podem oferecer muitos dos benefícios das IAs conectadas, mas com uma maior garantia de que os dados pessoais não serão transmitidos para servidores remotos, mantendo-se, assim, sob o controle direto do usuário. Escolher usar tecnologias que respeitem nossa privacidade é um passo crucial para reivindicar nossa autonomia na era digital.
Wed, Oct 09, 2024
Molmo: O futuro das IAs que enxergam.
O Allen Institute for Artificial Intelligence (Ai2) está lançando uma nova família de modelos de linguagem multimodais de código aberto, chamada Molmo, que rivaliza com modelos da OpenAI, Google e Anthropic. O maior modelo Molmo possui 72 bilhões de parâmetros e supera o GPT-4 da OpenAI em testes de compreensão de imagens e documentos, enquanto um modelo menor de 7 bilhões de parâmetros se aproxima do desempenho do modelo mais avançado da OpenAI, graças a métodos eficientes de treinamento de dados.
Segundo Ali Farhadi, CEO do Ai2, o desenvolvimento de IA de código aberto está agora em par com modelos proprietários, oferecendo a vantagem de ser acessível para outros desenvolvedores construírem aplicações. Uma demonstração do Molmo estará disponível em breve no site Hugging Face, embora alguns elementos do modelo maior ainda sejam restritos ao público.
Contrastando com outros modelos treinados em conjuntos de dados massivos e indiscriminados, o Molmo utiliza um conjunto menor e mais selecionado de 600.000 imagens, resultando em melhor desempenho com menos recursos. Anotadores humanos detalharam imagens em texto, convertidas depois em dados através de técnicas de IA, otimizando o treinamento e reduzindo a necessidade de potência computacional. Essa abordagem focada em qualidade, segundo Percy Liang, do Stanford Center for Research on Foundation Models, pode diminuir os custos computacionais e, segundo Yacine Jernite da Hugging Face, pode ajudar a controlar melhor os dados utilizados em IA.
Além disso, o modelo Molmo demonstrou capacidade de “apontar” elementos específicos em imagens, uma função útil para interações mais sofisticadas com interfaces de usuário, o que Ali Farhadi enfatiza como uma vantagem sobre modelos que apenas descrevem imagens. Com a promessa de maior eficiência e potencial para aplicações futuras, o Ai2 espera que o Molmo influencie o campo da IA de código aberto e seja uma base para inovações futuras.