TECNOLOGIA
Google Gemini: tudo o que você precisa saber sobre a nova plataforma generativa de IA
O Google está tentando fazer sucesso com o Gemini, uma nova plataforma generativa de IA que recentemente fez sua grande estreia. Mas embora Gêmeos pareça promissor em alguns aspectos, fica aquém de outros. Então, o que é Gêmeos? Como você pode usá-lo? E como isso se compara à concorrência?
Para tornar mais fácil acompanhar os desenvolvimentos mais recentes do Gemini, elaboramos este guia prático, que manteremos atualizado à medida que novos modelos e recursos do Gemini forem lançados.
O que é Gêmeos?
Gêmeos é do Google há muito prometido, família de modelos de IA generativa de última geração, desenvolvida pelos laboratórios de pesquisa de IA do Google DeepMind e Google Research. Ele vem em três sabores:
- Gêmeos Ultrao principal modelo Gemini
- Gêmeos Profissionalum modelo Gemini “leve”
- Gêmeos Nanoum modelo “destilado” menor que roda em dispositivos móveis como o Pixel 8 Pro
Todos os modelos Gemini foram treinados para serem “nativamente multimodais” – em outras palavras, capazes de trabalhar e usar mais do que apenas texto. Eles foram pré-treinados e ajustados em uma variedade de áudio, imagens e vídeos, um grande conjunto de bases de código e texto em diferentes idiomas.
Isso diferencia o Gemini de modelos como o grande modelo de linguagem do Google LaMDA, que foi treinado apenas em dados de texto. O LaMDA não consegue entender ou gerar nada além de texto (por exemplo, ensaios, rascunhos de e-mail e assim por diante) — mas esse não é o caso dos modelos Gemini. A sua capacidade de compreender imagens, áudio e outras modalidades ainda é limitada, mas é melhor que nada.
Qual é a diferença entre Bardo e Gêmeos?
Google, provando outra vez que lhe falta talento para branding, não deixou claro desde o início que Gêmeos é separado e distinto de Bard. Bard é simplesmente uma interface através da qual certos modelos Gemini podem ser acessados – pense nele como um aplicativo ou cliente para Gemini e outros modelos de IA da geração. Gemini, por outro lado, é uma família de modelos – não um aplicativo ou frontend. Não existe uma experiência autônoma de Gêmeos, nem provavelmente nunca existirá. Se você comparar com os produtos da OpenAI, Bard corresponde a Bate-papoGPTo popular aplicativo de IA conversacional da OpenAI, e Gemini corresponde ao modelo de linguagem que o alimenta, que no caso do ChatGPT é GPT-3.5 ou 4.
Aliás, Gêmeos também é totalmente independente de Imagem-2, um modelo de texto para imagem que pode ou não se enquadrar na estratégia geral de IA da empresa. Não se preocupe, você não é o único confuso com isso!
O que Gêmeos pode fazer?
Como os modelos Gemini são multimodais, eles podem, em teoria, realizar uma série de tarefas, desde a transcrição de fala até a legenda de imagens e vídeos e a geração de obras de arte. Poucos desses recursos atingiram o estágio de produto ainda (mais sobre isso mais tarde), mas o Google promete todos eles – e mais – em algum momento em um futuro não muito distante.
Claro, é um pouco difícil acreditar na palavra da empresa.
Google seriamente sub-entregue com o lançamento original do Bard. E mais recentemente irritou as penas com um vídeo que pretende mostrar as capacidades do Gemini que acabou sendo fortemente manipulado e era mais ou menos aspiracional. Gêmeos épara crédito do gigante da tecnologia, disponível de alguma forma hoje – mas de forma bastante limitada.
Ainda assim, supondo que o Google esteja sendo mais ou menos verdadeiro em suas afirmações, eis o que os diferentes níveis de modelos Gemini serão capazes de fazer quando forem lançados:
Gêmeos Ultra
Poucas pessoas colocaram as mãos no Gemini Ultra, o modelo de “base” sobre o qual os outros são construídos, até agora – apenas um “conjunto seleto” de clientes em um punhado de aplicativos e serviços do Google. Isso não mudará até o final deste ano, quando o maior modelo do Google for lançado de forma mais ampla. A maioria das informações sobre o Ultra veio de demonstrações de produtos lideradas pelo Google, por isso é melhor considerá-las com cautela.
O Google diz que o Gemini Ultra pode ser usado para ajudar em coisas como trabalhos de física, resolver problemas passo a passo em uma planilha e apontar possíveis erros em respostas já preenchidas. O Gemini Ultra também pode ser aplicado a tarefas como identificar artigos científicos relevantes para um problema específico, diz o Google – extraindo informações desses artigos e “atualizando” um gráfico de um deles, gerando as fórmulas necessárias para recriar o gráfico com dados mais recentes.
Gemini Ultra suporta tecnicamente a geração de imagens, conforme mencionado anteriormente. Mas essa capacidade não chegará à versão produzida do modelo no lançamento, de acordo com o Google – talvez porque o mecanismo seja mais complexo do que a forma como aplicativos como Bate-papoGPT gerar imagens. Em vez de enviar prompts para um gerador de imagens (como DALL-E 3no caso do ChatGPT), o Gemini gera imagens “nativamente” sem uma etapa intermediária.
Gêmeos Profissional
Ao contrário do Gemini Ultra, o Gemini Pro está disponível publicamente hoje. Mas, confusamente, suas capacidades dependem de onde é usado.
O Google diz que em Bard, onde o Gemini Pro foi lançado pela primeira vez em formato somente texto, o modelo é uma melhoria em relação ao LaMDA em suas capacidades de raciocínio, planejamento e compreensão. Um independente estudar por pesquisadores da Carnegie Mellon e BerriAI descobriram que o Gemini Pro é realmente melhor que o OpenAI GPT-3.5 em lidar com cadeias de raciocínio mais longas e complexas.
Mas o estudo também descobriu que, como todos os grandes modelos de linguagem, o Gemini Pro enfrenta dificuldades particularmente com problemas matemáticos que envolvem vários dígitos, e os usuários encontraram muitos exemplos de maus raciocínios e erros. Cometeu muitos erros factuais em perguntas simples, como quem ganhou o último Oscar. O Google prometeu melhorias, mas não está claro quando elas chegarão.
O Gemini Pro também está disponível via API no Vertex AI, a plataforma de desenvolvimento de IA totalmente gerenciada do Google, que aceita texto como entrada e gera texto como saída. Um endpoint adicional, Gemini Pro Vision, pode processar texto e imagens – incluindo fotos e vídeos – e texto de saída nos moldes do OpenAI GPT-4 com Visão modelo.
Na Vertex AI, os desenvolvedores podem personalizar o Gemini Pro para contextos e casos de uso específicos usando um processo de ajuste fino ou “aterramento”. O Gemini Pro também pode ser conectado a APIs externas de terceiros para realizar ações específicas.
Em algum momento do “início de 2024”, os clientes da Vertex poderão usar o Gemini Pro para capacitar agentes de conversação e bate-papo personalizados (ou seja, chatbots). O Gemini Pro também se tornará uma opção para impulsionar recursos de resumo de pesquisa, recomendação e geração de respostas na Vertex AI, recorrendo a documentos de diversas modalidades (por exemplo, PDFs, imagens) de diferentes fontes (por exemplo, OneDrive, Salesforce) para satisfazer consultas.
No AI Studio, a ferramenta baseada na web do Google para desenvolvedores de aplicativos e plataformas, há fluxos de trabalho para criar prompts de formato livre, estruturados e de bate-papo usando o Gemini Pro. Os desenvolvedores têm acesso aos endpoints Gemini Pro e Gemini Pro Vision e podem ajustar a temperatura do modelo para controlar a faixa criativa da saída e fornecer exemplos para fornecer instruções de tom e estilo – e também ajustar as configurações de segurança.
Gêmeos Nano
Gemini Nano é uma versão muito menor dos modelos Gemini Pro e Ultra e é eficiente o suficiente para ser executado diretamente em (alguns) telefones, em vez de enviar a tarefa para um servidor em algum lugar. Até agora, ele oferece dois recursos no Pixel 8 Pro: Resumir no Gravador e Resposta Inteligente no Gboard.
O aplicativo Recorder, que permite aos usuários apertar um botão para gravar e transcrever áudio, inclui um resumo desenvolvido pelo Gemini de suas conversas, entrevistas, apresentações e outros trechos gravados. Os usuários recebem esses resumos mesmo que não tenham sinal ou conexão Wi-Fi disponível – e em uma homenagem à privacidade, nenhum dado sai do telefone no processo.
O Gemini Nano também está no Gboard, aplicativo de teclado do Google, como um visualização do desenvolvedor. Lá, ele ativa um recurso chamado Resposta Inteligente, que ajuda a sugerir a próxima coisa que você deseja dizer ao conversar em um aplicativo de mensagens. O recurso inicialmente funciona apenas com o WhatsApp, mas chegará a mais aplicativos em 2024, afirma o Google.
O Gemini é melhor que o GPT-4 da OpenAI?
Não há como saber como a família Gemini realmente acumula até o Google lançar o Ultra ainda este ano, mas a empresa reivindicou melhorias no estado da arte – que geralmente é o GPT-4 da OpenAI.
O Google elogiou várias vezes a superioridade do Gemini em benchmarks, alegando que o Gemini Ultra excede os resultados atuais de última geração em “30 dos 32 benchmarks acadêmicos amplamente utilizados em pesquisa e desenvolvimento de grandes modelos de linguagem”. A empresa afirma que o Gemini Pro, por sua vez, é mais capaz em tarefas como resumir conteúdo, brainstorming e escrever do que o GPT-3.5.
Mas deixando de lado a questão de saber se os benchmarks realmente indicam um modelo melhor, as pontuações que o Google aponta parecem ser apenas marginalmente melhores do que os modelos correspondentes da OpenAI. E – como mencionado anteriormente – algumas impressões iniciais não foram boas, com Usuários e acadêmicos apontando que o Gemini Pro tende a errar os fatos básicos, tem dificuldades com traduções e dá sugestões de codificação ruins.
Quanto custará Gêmeos?
O Gemini Pro é gratuito para uso no Bard e, por enquanto, no AI Studio e no Vertex AI.
Assim que o Gemini Pro sair da visualização no Vertex, no entanto, o modelo custará US$ 0,0025 por caractere, enquanto a produção custará US$ 0,00005 por caractere. Os clientes da Vertex pagam por 1.000 caracteres (cerca de 140 a 250 palavras) e, no caso de modelos como Gemini Pro Vision, por imagem (US$ 0,0025).
Vamos supor que um artigo de 500 palavras contenha 2.000 caracteres. Resumir esse artigo com o Gemini Pro custaria US$ 5. Enquanto isso, gerando um artigo de comprimento semelhante custaria US$ 0,1.
Onde você pode experimentar o Gêmeos?
Gêmeos Profissional
O lugar mais fácil para experimentar o Gemini Pro é em Bardo. Uma versão aprimorada do Pro está respondendo a perguntas do Bard baseadas em texto em inglês nos EUA no momento, com idiomas adicionais e países com suporte definidos para chegar no futuro.
Gemini Pro também é acessível na visualização no Vertex AI por meio de uma API. A API é gratuita para uso “dentro dos limites” por enquanto e oferece suporte a 38 idiomas e regiões, incluindo a Europa, bem como recursos como funcionalidade de bate-papo e filtragem.
Em outros lugares, o Gemini Pro pode ser encontrado no AI Studio. Usando o serviço, os desenvolvedores podem iterar prompts e chatbots baseados em Gemini e, em seguida, obter chaves de API para usá-los em seus aplicativos – ou exportar o código para um IDE com mais recursos.
Duet AI para desenvolvedores, o conjunto de ferramentas de assistência baseadas em IA do Google para conclusão e geração de código, começará a usar um modelo Gemini nas próximas semanas. E o Google planeja trazer modelos Gemini para ferramentas de desenvolvimento para Chrome e sua plataforma de desenvolvimento móvel Firebase na mesma época, no início de 2024.
Gêmeos Nano
Gemini Nano está no Pixel 8 Pro – e chegará a outros dispositivos no futuro. Os desenvolvedores interessados em incorporar o modelo em seus aplicativos Android podem inscrever-se para dar uma espiada.
Manteremos este post atualizado com os desenvolvimentos mais recentes.
Fonte: techcrunch.com
TECNOLOGIA
CEO da TikTok planeja participar da posse de Trump
Enquanto o destino da TikTok está em jogo, o CEO da TikTok, Shou Chew, está planejando participar do presidente eleito Donald Trump's inauguração na segunda-feira, relata o The New York Times. O executivo se juntará a Mark Zuckerberg, Jeff Bezos e Elon Musk no estrado, onde tradicionalmente se sentam ex-presidentes e convidados importantes.
Embora Trump tenha iniciado apelos para proibir o aplicativo durante seu primeiro mandato, ele adotou uma abordagem diferente durante sua campanha de 2024 e prometeu salvar o aplicativo se fosse eleito. Trump discutiu como o conteúdo sobre ele e sua campanha teve um bom desempenho no TikTok e como ele conseguiu alcançar usuários jovens por meio da plataforma.
A próxima aparição de Chew na inauguração e a adoção do aplicativo por Trump são significativas, já que o TikTok se aproxima de uma possível paralisação nos EUA no domingo.
O Supremo Tribunal é esperado para governar nos próximos dias sobre a lei que poderia efetivamente proibir o TikTok nos EUA em 19 de janeiro. perguntou ao tribunal suspender a lei há algumas semanas.
Fonte: techcrunch.com
TECNOLOGIA
A gangue de ransomware Clop nomeia dezenas de vítimas atingidas pelo hack em massa de Cleo, mas várias empresas contestam as violações
A prolífica gangue de ransomware Clop nomeou dezenas de vítimas corporativas que afirma ter hackeado nas últimas semanas após explorar uma vulnerabilidade em vários produtos empresariais populares de transferência de arquivos desenvolvidos pela empresa de software norte-americana Cleo.
Em uma postagem em seu site de vazamento na dark web, vista pelo TechCrunch, a gangue Clop, ligada à Rússia, listou 59 organizações que afirma ter violado ao explorar o bug de alto risco nas ferramentas de software de Cleo.
A falha afeta os produtos LexiCom, VLTransfer e Harmony da Cleo. Cleo divulgou a vulnerabilidade pela primeira vez em um comunicado de segurança de outubro de 2024 antes pesquisadores de segurança observaram hackers explorando em massa a vulnerabilidade meses depois, em dezembro.
A Clop afirmou em sua postagem que notificou as organizações que violou, mas que as organizações vítimas não negociaram com os hackers. Clop está ameaçando publicar os dados que supostamente roubou em 18 de janeiro, a menos que seus pedidos de resgate sejam pagos.
As ferramentas corporativas de transferência de arquivos são um alvo popular entre os hackers de ransomware – e o Clop, em particular – devido aos dados confidenciais frequentemente armazenados nesses sistemas. Nos últimos anos, a gangue de ransomware já explorou vulnerabilidades em Produto MOVEit Transfer da Progress Softwaree mais tarde recebeu o crédito por a exploração em massa de uma vulnerabilidade no GoAnywhere da Fortra software de transferência de arquivos gerenciado.
Após sua mais recente onda de hackers, pelo menos uma empresa confirmou uma intrusão ligada aos ataques de Clop aos sistemas Cleo.
A gigante manufatureira alemã Covestro disse ao TechCrunch que foi contatada pela Clop e, desde então, confirmou que a gangue acessou determinados armazenamentos de dados em seus sistemas.
“Confirmamos que houve acesso não autorizado a um servidor de logística dos EUA, que é usado para trocar informações de remessa com nossos fornecedores de transporte”, disse o porta-voz da Covestro, Przemyslaw Jedrysik, em comunicado. “Em resposta, tomamos medidas para garantir a integridade do sistema, melhorar o monitoramento da segurança e notificar os clientes de forma proativa.
Jedrysik confirmou que “a maioria das informações contidas no servidor não eram de natureza sensível”, mas se recusou a informar quais tipos de dados foram acessados.
Outras supostas vítimas com quem o TechCrunch conversou contestaram as alegações de Clop e dizem que não foram comprometidas como parte da última campanha de hack em massa da gangue.
Emily Spencer, porta-voz da gigante norte-americana de aluguel de automóveis Hertz, disse em um comunicado que a empresa está “ciente” das alegações de Clop, mas disse que “não há evidências de que os dados da Hertz ou os sistemas da Hertz tenham sido afetados neste momento”.
“Por precaução, continuamos a monitorar ativamente este assunto com o apoio de nosso parceiro terceirizado de segurança cibernética”, acrescentou Spencer.
Christine Panayotou, porta-voz da Linfox, uma empresa de logística australiana que Clop listou em seu site de vazamento, também contestou as alegações da gangue, dizendo que a empresa não usa software Cleo e “não sofreu um incidente cibernético envolvendo seus próprios sistemas”.
Quando questionado se a Linfox teve dados acessados devido a um incidente cibernético envolvendo terceiros, Panayotou não respondeu.
Porta-vozes da Arrow Electronics e do Western Alliance Bank também disseram ao TechCrunch que não encontraram nenhuma evidência de que seus sistemas tenham sido comprometidos.
Clop também listou os recentemente violou a gigante da cadeia de fornecimento de software Blue Yonder. A empresa, que confirmou um ataque de ransomware em novembro, não atualizou sua página de incidentes de segurança cibernética desde 12 de dezembro.
Quando contatada pela última vez pelo TechCrunch, a porta-voz da Blue Yonder, Marina Renneke, confirmou em 26 de dezembro que a empresa “usa Cleo para oferecer suporte e gerenciar certas transferências de arquivos” e que estava investigando qualquer acesso potencial, mas acrescentou que a empresa “não tem razão para acreditar no A vulnerabilidade Cleo está ligada ao incidente de segurança cibernética que vivenciamos em novembro.” A empresa não forneceu evidências para a alegação, nem fez qualquer comentário mais recente quando contatada esta semana.
Quando questionadas pelo TechCrunch, nenhuma das empresas que responderam disse se tinham os meios técnicos, como registos, para detectar o acesso ou exfiltração dos seus dados.
O TechCrunch ainda não recebeu respostas de outras organizações listadas no site de vazamento do Clop. Clop afirma que adicionará mais organizações de vítimas ao seu site de vazamento da dark web em 21 de janeiro.
Ainda não se sabe quantas empresas foram visadas, e Cleo – que foi listada como vítima do Clop – não respondeu às perguntas do TechCrunch.
Fonte: techcrunch.com
TECNOLOGIA
Dub.co é um encurtador de URL de código aberto e mecanismo de atribuição de link reunidos em um só
Nas últimas semanas, a Honey, de propriedade do PayPal, que afirma encontrar os melhores códigos de cupom para um negócio, foi no centro da polêmica. Supostamente, a ferramenta ganhou dinheiro sorrateiramente para afiliados, alterando atributos de links de produtos que os criadores postaram em seus vídeos. No centro disso, o problema era como funcionam os links de afiliados e como o dinheiro vai para quem tem o último link quando o usuário faz a compra.
O ex-funcionário da Vercel, Steven Tey, acha que seu encurtador de URL de código aberto e serviço de rastreamento de links Dub.co pode resolver esse problema eliminando a necessidade de usar códigos de cupom e incorporando-os ao link.
A empresa está construindo um produto de atribuição e afiliado que os criadores podem usar para criar seus próprios links. E os usuários só terão desconto se usarem esse link específico.
“Queremos tornar a atribuição muito mais transparente para os criadores e também para as empresas, para evitar situações como o escândalo Honey, onde qualquer pessoa pode roubar a atribuição”, disse Tey em uma ligação com o TechCrunch.
Eles começaram o Dub.co enquanto trabalhavam na Vercel como um encurtador de URL de código aberto. Ele adicionou rastreamento de link ao longo do caminho. Ele construiu este projeto para entender melhor os produtos que a Vercel estava enviando. Com o tempo, Dub.co tornou-se um serviço SaaS completo. Eles deixaram a Vercel no final de 2023 e fundaram a empresa na mesma época.
“Houve um grande problema com o rastreamento de atribuições para entender de onde vinha nossa receita. Na Vercel, naquela época, não sabíamos como funcionava nossa defesa do desenvolvedor, como a criação de artigos e tutoriais que se traduziam em receita. Então isso plantou as sementes para Dub”, disse Tey.
Ele acrescentou que após lançar o Dub.co, percebeu que o espaço de afiliados era antiquado e confuso, sem muitas ferramentas de personalização. Foi então que ele entendeu que há mais no espaço de rastreamento de links do que apenas serviços de encurtamento de URL.
Embora a principal fonte de receita da empresa sejam negócios e empreendimentos, ela também oferece um plano gratuito para as pessoas encurtarem seus links e rastreá-los. Notavelmente, a startup está trabalhando com o governo da Malásia para utilizar o lado de código aberto do projeto para construir um encurtador e rastreador de links para as autoridades. Além disso, empresas como a Twilio usam a versão hospedada em SaaS do Dub.co e a personalizam de acordo com suas necessidades para rastrear seus links, campanhas e eventos. Além do mais, canais do YouTube como o Huberman Labs estão usando a solução do Dub para rastrear afiliados.
Dub.co lançou um novo produto chamado Conversões esta semana, que pode rastrear cliques de marketing em tempo real, convertendo-os em inscrições ou vendas. A startup disse que isso ajudará as empresas a rastrear métricas granulares, como custos de aquisição de clientes, taxas de retenção e valor vitalício, para entender melhor os retornos de marketing. Dub.co também pode ser integrado a ferramentas como Shopify e Stripe para rastrear melhor as conversões.
Tey observou que, embora o Dub.co ofereça recursos de IA, ele não quer que eles assumam o controle dos produtos principais. Atualmente, os usuários podem usar IA para criar relatórios personalizados ou obter sugestões de títulos e descrições para diferentes links. A startup também está usando IA para etiquetagem automática de links para categorias existentes.
Joseph Jacks, fundador da OSS Capital, disse que o Dub.co tem uma vantagem sobre a concorrência por sua natureza de código aberto, melhor experiência do usuário e design.
A empresa levantou US$ 2 milhões de investidores, incluindo OSS Capital; CEO da Vercel, Guillermo Rauch; Balaji Srinivasan; os fundadores do serviço de design Framer, Jorn van Dijk e Koen Bok; o ex-designer do Facebook, Soleio, que foi um dos primeiros apoiadores de Vercel, Perplexity e Figma; e o CEO da Cal.com, Peer Richardson.
“Os links são a base da web – combine isso com a atribuição e o mercado endereçável é enorme, no mínimo dezenas de bilhões”, disse Jacks ao TechCrunch por e-mail.
“Ao transformar links curtos em mecanismos de atribuição, o Dub pode ajudar os profissionais de marketing a responder à velha questão de 'Qual é o meu ROI sobre meus gastos com marketing?' – apoiado por dados de conversão do mundo real.”
Fonte: techcrunch.com
-
TECNOLOGIA2 semanas ago
Essas empresas fintech estão contratando em 2025, após um ano turbulento
-
TECNOLOGIA1 semana ago
Conferência de imprensa CES 2025 da Sony: como assistir
-
SÉRIES1 semana ago
Star Wars acaba de confirmar quem interpretará o personagem mais misterioso de ‘Skeleton Crew’
-
TECNOLOGIA1 semana ago
CES 2025 estava cheio de lixo IRL AI
-
GAMES1 semana ago
Minecraft Creator confirma Minecraft 2 (mais ou menos)
-
TECNOLOGIA6 dias ago
X diz que está lançando rótulos para contas de paródia
-
TECNOLOGIA2 semanas ago
Aplicativo VPN da Cloudflare entre meia dúzia retirado de lojas de aplicativos indianas
-
FILMES2 semanas ago
'Wicked' é agora um dos filmes de ação ao vivo de maior bilheteria de todos os tempos no mercado interno