Conecte-se com a gente!

TECNOLOGIA

Como o bot da OpenAI esmagou o site desta empresa de sete pessoas ‘como um ataque DDoS’

No sábado, o CEO da Triplegangers, Oleksandr Tomchuk, foi alertado de que o site de comércio eletrônico de sua empresa estava fora do ar. Parecia ser algum tipo de ataque distribuído de negação de serviço.

Ele logo descobriu que o culpado era um bot da OpenAI que tentava incansavelmente copiar todo o seu enorme site.

“Temos mais de 65.000 produtos, cada produto tem uma página”, disse Tomchuk ao TechCrunch. “Cada página tem pelo menos três fotos.”

A OpenAI estava enviando “dezenas de milhares” de solicitações de servidor tentando baixar tudo, centenas de milhares de fotos, junto com suas descrições detalhadas.

“A OpenAI usou 600 IPs para coletar dados e ainda estamos analisando os logs da semana passada, talvez seja muito mais”, disse ele sobre os endereços IP que o bot usou para tentar consumir seu site.

“Seus rastreadores estavam destruindo nosso site”, disse ele. “Foi basicamente um ataque DDoS”.

O site da Triplegangers é o seu negócio. A empresa de sete funcionários passou mais de uma década montando o que chama de maior banco de dados de “duplos digitais humanos” na web, ou seja, arquivos de imagens 3D digitalizados a partir de modelos humanos reais.

Ela vende arquivos de objetos 3D, bem como fotos – tudo, desde mãos até cabelos, pele e corpos inteiros – para artistas 3D, criadores de videogames e qualquer pessoa que precise recriar digitalmente características humanas autênticas.

A equipe de Tomchuk, baseada na Ucrânia, mas também licenciada nos EUA em Tampa, Flórida, tem uma página de termos de serviço em seu site que proíbe bots de tirar suas imagens sem permissão. Mas só isso não fez nada. Os sites devem usar um arquivo robot.txt configurado corretamente com tags informando especificamente ao bot da OpenAI, GPTBot, para deixar o site em paz. (OpenAI também tem alguns outros bots, ChatGPT-User e OAI-SearchBot, que possuem suas próprias tags, de acordo com sua página de informações em seus rastreadores.)

Robot.txt, também conhecido como Protocolo de Exclusão de Robôs, foi criado para informar aos sites de mecanismos de pesquisa o que não rastrear enquanto indexam a web. A OpenAI afirma em sua página informativa que respeita esses arquivos quando configurados com seu próprio conjunto de tags de não rastreamento, embora também avise que seus bots podem levar até 24 horas para reconhecer um arquivo robot.txt atualizado.

Como Tomchuk experimentou, se um site não estiver usando o robot.txt corretamente, a OpenAI e outros entendem que isso significa que eles podem raspar o quanto quiserem. Não é um sistema opt-in.

Para piorar a situação, Triplegangers não apenas foi desligado pelo bot da OpenAI durante o horário comercial dos EUA, mas Tomchuk espera uma conta da AWS aumentada graças a toda a CPU e atividades de download do bot.

Robot.txt também não é à prova de falhas. As empresas de IA cumprem-no voluntariamente. Outra startup de IA, Perplexity, foi denunciada no verão passado por uma investigação da Wired quando alguma evidência implicava que a Perplexidade não era honrando isso.

Cada um deles é um produto, com uma página de produto que inclui várias outras fotos. Usado com permissão.Créditos da imagem:Triplegangers (abre em uma nova janela)

Não posso saber com certeza o que foi levado

Na quarta-feira, após dias do retorno do bot da OpenAI, Triplegangers tinha um arquivo robot.txt configurado corretamente e também uma conta Cloudflare configurada para bloquear seu GPTBot e vários outros bots que ele descobriu, como Barkrowler (um rastreador de SEO) e Bytespider ( Rastreador do TokTok). Tomchuk também está esperançoso de ter bloqueado rastreadores de outras empresas de modelos de IA. Na manhã de quinta-feira, o site não travou, disse ele.

Mas Tomchuk ainda não tem uma maneira razoável de descobrir exatamente o que a OpenAI obteve com sucesso ou de remover esse material. Ele não encontrou nenhuma maneira de entrar em contato com a OpenAI e perguntar. A OpenAI não respondeu ao pedido de comentários do TechCrunch. E a OpenAI tem até agora não conseguiu entregar sua ferramenta de cancelamento há muito prometidacomo o TechCrunch relatou recentemente.

Esta é uma questão especialmente complicada para Triplegangers. “Estamos num negócio onde os direitos são uma questão séria, porque digitalizamos pessoas reais”, disse ele. Com leis como o GDPR da Europa, “eles não podem simplesmente tirar uma foto de qualquer pessoa na web e usá-la”.

O site da Triplegangers também foi um achado especialmente delicioso para rastreadores de IA. Startups com valor multibilionário, como Scale AIforam criados onde os humanos marcam meticulosamente as imagens para treinar a IA. O site Triplegangers contém fotos marcadas em detalhes: etnia, idade, tatuagens versus cicatrizes, todos os tipos de corpo e assim por diante.

A ironia é que a ganância do bot OpenAI foi o que alertou Triplegangers sobre o quão exposto ele estava. Se tivesse raspado com mais cuidado, Tomchuk nunca teria sabido, disse ele.

“É assustador porque parece haver uma brecha que essas empresas estão usando para rastrear dados, dizendo “você pode cancelar se atualizar seu robot.txt com nossas tags”, diz Tomchuk, mas isso coloca o ônus sobre o proprietário da empresa para entenda como bloqueá-los.

registro do rastreador openai
Os logs do servidor Triplegangers mostraram quão cruelmente um bot OpenAI estava acessando o site, a partir de centenas de endereços IP. Usado com permissão.

Ele quer que outras pequenas empresas online saibam que a única maneira de descobrir se um bot de IA está roubando os pertences protegidos por direitos autorais de um site é olhando ativamente. Ele certamente não está sozinho ao ser aterrorizado por eles. Proprietários de outros sites disseram recentemente Insider de negócios como os bots OpenAI travaram seus sites e aumentaram suas contas da AWS.

O problema cresceu em magnitude em 2024. Nova pesquisa da empresa de publicidade digital DoubleVerify descobriram que rastreadores de IA e os scrapers causaram um aumento de 86% no “tráfego geral inválido” em 2024 — ou seja, tráfego que não vem de um usuário real.

Ainda assim, “a maioria dos sites não tem ideia de que foram copiados por esses bots”, alerta Tomchuk. “Agora temos que monitorar diariamente a atividade de log para detectar esses bots.”

Quando você pensa sobre isso, todo o modelo funciona um pouco como uma extorsão da máfia: os bots de IA pegarão o que quiserem, a menos que você tenha proteção.

“Eles deveriam pedir permissão, não apenas coletar dados”, diz Tomchuk.

Fonte: techcrunch.com

TECNOLOGIA

A obsessão da startup EV Harbinger pela simplicidade alimenta a Série B de US$ 100 milhões

Não é um momento fácil para arrecadar dinheiro para uma startup de veículos elétricos, especialmente considerando quantos falharam ou estão perto de falir. Mas com sede em Los Angeles Prenúncio conseguiu isso adotando uma abordagem hiperfocada para eletrificar o transporte comercial.

A recompensa é uma Série B de US$ 100 milhões, co-liderada pelo primeiro investidor da Tesla, Capricorn Investor Group, e Leitmotif, um novo fundo dos EUA co-fundado pelo ex-chefe de fusões e aquisições da Volkswagen. Também participaram da rodada Tiger Global e empresa de risco de mobilidade Manivambos investidores existentes.

“Sabemos como foi o espaço dos EV. Sabemos que está repleto de corpos da década passada”, disse o CEO da Harbinger, John Harris, ao TechCrunch em uma entrevista. “Então, nós realmente tentamos manter nosso escopo muito focado e ter muita confiança no que dizemos que vamos fazer antes de dizermos que vamos fazer.”

Fundada em 2022 por um grupo de ex-funcionários da Canoo e da QuantumScapea Harbinger decidiu fabricar um chassi modular totalmente elétrico para caminhões médios.

Então… fez isso, e só isso.

A Harbinger manteve seu foco em um momento em que os investidores investiram bilhões de dólares em startups que afirmavam que fabricariam centenas de milhares de veículos elétricos ou remodelariam o transporte como o conhecemos. A chegada, por exemplo, começou em um setor semelhante ao Harbinger. Mas ao se tornar público, a Arrival afirmou que iria reinventar a fabricação de veículos com as chamadas microfábricasplanejava fabricar ônibus, desenvolveu um carro de passeio com a Uber e foi potencialmente até trabalhando em uma aeronave.

A chegada agora está falida. A Harbinger, por sua vez, fechou uma Série B e está prestes a entrar em produção.

“A Harbinger é uma equipe incrível de operadores muito experientes, com muitas cicatrizes e experiência relevante de suas funções anteriores”, disse o cofundador da Leitmotif, Jens Wiese, ex-executivo da VW, em entrevista. “Eles estão simplesmente focados neste segmento e acertando o produto.”

Harris disse que focar em um produto não apenas permitiu que sua startup sobrevivesse, mas também ajudou a melhorar o produto.

Como exemplo, Harris apontou as baterias que alimentam o chassi do Harbinger. Em vez de embalá-los em aço estampado, que precisa ser soldado – e pode causar vazamentos que danificam as baterias – a Harbinger investiu em uma prensa de 6.500 toneladas que usa altas pressões para fundir todo o gabinete.

Harris disse que a Harbinger só conseguiu investir em uma ferramenta tão especializada porque não precisava distribuir seus gastos por vários outros produtos. O resultado: gabinetes de baterias que custam apenas um vigésimo do custo normal.

Investimentos como este permitiram à Harbinger tornar o seu chassis mais acessível desde o início, em vez de depender de uma escala massiva para alcançar uma economia unitária atractiva.

E como a Harbinger está essencialmente vendendo para CFOs de empresas de frota, o sócio-gerente da Maniv, Michael Granoff, disse que é uma proposta tentadora.

“O segmento que eles buscam não substituem suas frotas com tanta frequência e, quando pensam nisso, já fazem isso há vários anos – e a matemática fica tão convincente que é simplesmente inevitável, – Granoff disse.

Granoff acredita tanto na oportunidade da Harbinger que sua empresa investiu mais na startup do que qualquer outra empresa. A Série B da Harbinger também é a única rodada de investimentos ao qual o segundo fundo da Maniv se juntou e que a empresa não liderou.

“Basicamente, já entregamos uma economia unitária convincente, e é por isso que entram pessoas que normalmente não estariam neste espaço, [investors] como Tiger”, disse Harris. “Temos economia unitária líder do setor, se você ignorar a Tesla, mas espero que tenhamos margens melhores do que elas, provavelmente em mais 12 a 18 meses.”

Fonte: techcrunch.com

Continue lendo

TECNOLOGIA

O modelo de raciocínio de IA da OpenAI às vezes 'pensa' em chinês e ninguém sabe realmente por quê

Pouco depois do lançamento do OpenAI o1seu primeiro modelo de IA de “raciocínio”, as pessoas começaram a notar um fenômeno curioso. O modelo às vezes começava a “pensar” em chinês, persa ou algum outro idioma – mesmo quando fazia uma pergunta em inglês.

Dado um problema para resolver — por exemplo, “Quantos R existem na palavra 'morango?'” — o1 iniciaria o seu processo de “pensamento”, chegando a uma resposta através da execução de uma série de passos de raciocínio. Se a pergunta fosse escrita em inglês, a resposta final de o1 seria em inglês. Mas o modelo executaria algumas etapas em outro idioma antes de chegar à sua conclusão.

“[O1] comecei a pensar aleatoriamente em chinês no meio do caminho”, um usuário do Reddit disse.

“Por que [o1] começar a pensar aleatoriamente em chinês?” um usuário diferente perguntou em um postar no X. “Nenhuma parte da conversa (mais de 5 mensagens) foi em chinês.”

A OpenAI não forneceu uma explicação para o comportamento estranho do o1 – nem mesmo o reconheceu. Então, o que pode estar acontecendo?

Bem, os especialistas em IA não têm certeza. Mas eles têm algumas teorias.

Vários no X incluindo o CEO da Hugging Face Clément Delangue aludiu ao fato de que modelos de raciocínio como o1 são treinados em conjuntos de dados contendo muitos caracteres chineses. Ted Xiao, pesquisador do Google DeepMind, afirmou que empresas, incluindo a OpenAI, usam serviços de rotulagem de dados chineses de terceiros e que a mudança para o chinês é um exemplo de “influência linguística chinesa no raciocínio”.

“[Labs like] OpenAI e Antrópico utilizam [third-party] serviços de rotulagem de dados para dados de raciocínio em nível de doutorado para ciências, matemática e codificação”, escreveu Xiao em um postar no X. “[F]ou disponibilidade de mão de obra especializada e razões de custo, muitos desses fornecedores de dados estão baseados na China.”

Os rótulos, também conhecidos como tags ou anotações, ajudam os modelos a compreender e interpretar os dados durante o processo de treinamento. Por exemplo, rótulos para treinar um modelo de reconhecimento de imagem podem assumir a forma de marcações em torno de objetos ou legendas referentes a cada pessoa, lugar ou objeto representado em uma imagem.

Estudos demonstraram que rótulos tendenciosos podem produzir modelos tendenciosos. Por exemplo, o anotador médio é mais provável que rotule frases em inglês vernáculo afro-americano (AAVE), a gramática informal usada por alguns negros americanos, como tóxicas, levando os detectores de toxicidade de IA treinados nos rótulos a ver AAVE como desproporcionalmente tóxico.

Outros especialistas, no entanto, não aceitam a hipótese chinesa de rotulagem de dados. Eles apontam que o1 tem a mesma probabilidade de mudar para hindi, Tailandêsou um idioma diferente do chinês enquanto procura uma solução.

Em vez disso, esses especialistas dizem, o1 e outros modelos de raciocínio pode ser simplesmente usando idiomas consideram mais eficiente para alcançar um objetivo (ou alucinando).

“O modelo não sabe o que é a linguagem ou que as línguas são diferentes”, disse Matthew Guzdial, pesquisador de IA e professor assistente da Universidade de Alberta, ao TechCrunch. “É tudo apenas uma mensagem de texto.”

Na verdade, os modelos não processam palavras diretamente. Eles usam fichas em vez de. Fichas pode ser palavras como “fantástico”. Ou podem ser sílabas, como “fan”, “tas” e “tic”. Ou podem até ser caracteres individuais em palavras – por exemplo, “f”, “a”, “n”, “t”, “a”, “s”, “t”, “i”, “c”.

Assim como a rotulagem, os tokens podem introduzir preconceitos. Por exemplo, muitos tradutores de palavra para token assumem que um espaço em uma frase denota uma nova palavra, apesar do fato de que nem todos os idiomas usam espaços para separar palavras.

Tiezhen Wang, engenheiro de software da startup de IA Hugging Face, concorda com Guzdial que as inconsistências de linguagem dos modelos de raciocínio podem ser explicadas por associações feitas pelos modelos durante o treinamento.

“Ao abraçar todas as nuances linguísticas, expandimos a visão de mundo do modelo e permitimos que ele aprenda com todo o espectro do conhecimento humano”, Wang escreveu em uma postagem no X. “Por exemplo, prefiro fazer contas em chinês porque cada dígito tem apenas uma sílaba, o que torna os cálculos nítidos e eficientes. Mas quando se trata de temas como preconceito inconsciente, mudo automaticamente para o inglês, principalmente porque foi lá que aprendi e absorvi essas ideias pela primeira vez.”

A teoria de Wang é plausível. Afinal, os modelos são máquinas probabilísticas. Treinados em muitos exemplos, eles aprendem padrões para fazer previsões, como “para quem” em um e-mail normalmente precede “pode interessar”.

Mas Luca Soldaini, cientista pesquisador do Instituto Allen de IA, sem fins lucrativos, alertou que não podemos ter certeza. “É impossível fazer backup desse tipo de observação em um sistema de IA implantado devido à opacidade desses modelos”, disse ele ao TechCrunch. “É um dos muitos casos em que a transparência na forma como os sistemas de IA são construídos é fundamental.”

Sem uma resposta da OpenAI, ficamos pensando sobre por que o1 pensa em músicas em francês, mas biologia sintética em mandarim.

Fonte: techcrunch.com

Continue lendo

TECNOLOGIA

AWS promete gastar US$ 5 bilhões no México e lança nova região de servidores no México

Em um anúncio Terça-feira, a Amazon Web Services (AWS), divisão de computação em nuvem da Amazon, disse que planeja investir US$ 5 bilhões no México nos próximos 15 anos como parte de um “compromisso de longo prazo” na região.

Uma parte desse investimento é uma nova região de servidores no México, lançada hoje, AWS México, que permitirá aos clientes da AWS executar aplicativos e atender usuários de data centers da AWS localizados no país. A AWS estima que a construção e a operação contínua da AWS México acrescentarão cerca de US$ 10 bilhões ao PIB do México e apoiarão cerca de 7.000 “empregos equivalentes em tempo integral”.

“Este lançamento marca um passo significativo à medida que continuamos a expandir nossa infraestrutura e oferecer inovação global em aprendizado de máquina, IA e outras tecnologias avançadas para nossos clientes”, disse o vice-presidente de serviços de infraestrutura da AWS, Prasad Kalyanaraman, em um comunicado. “Com acesso a uma infraestrutura segura e confiável, juntamente com um amplo conjunto de tecnologias da AWS, esta nova região da AWS ajudará as empresas em todo o México a se posicionarem no centro da inovação em IA e machine learning.”

O mercado de data centers no México está crescendo. De acordo com segundo uma fonte, espera-se que as empresas tecnológicas gastem mais de 7 mil milhões de dólares em infra-estruturas de centros de dados nos próximos cinco anos, e mais de uma dúzia de projectos estão actualmente em curso.

A cidade de Querétaro, onde está localizada a AWS México, tornou-se o epicentro dos investimentos. O Google lançou um data center em nuvem em Querétaro em dezembro, enquanto a Microsoft criou um conjunto de servidores na cidade em maio passado.

Espera-se que 73 data centers sejam construídos no México nos próximos cinco anos – um volume que os especialistas dizem que terá um impacto sério na rede elétrica do país. De acordo com Segundo a Associação Mexicana de Data Centers (MDCA), um grupo industrial, a nova infraestrutura poderá consumir até 1.492 MWh de energia até 2029, o suficiente para abastecer cerca de 150.000 residências.

Para satisfazer a procura de electricidade, o MDCA estima que o governo mexicano e as empresas terão de investir pelo menos 8,73 mil milhões de dólares para melhorar a rede e os fornecedores de energia do México.

Os defensores do ambiente também levantaram preocupações sobre o impacto a longo prazo dos centros de dados. Os data centers normalmente consomem muita água; eles exigem água não apenas para resfriar componentes como chips, mas para manter um umidade operacional segura. Querétaro sofre com a seca há dois anos, e a estação seca do México em 2025 está esperado durar pelo menos seis meses.

A AWS disse que seu data center AWS México será refrigerado a ar e “não exigirá o uso contínuo de água de resfriamento nas operações”. Microsoft disse que o seu data center na região usaria novas tecnologias para reduzir o uso de água para resfriamento, e o Google se comprometeu a fazer parceria com suprimentos “ambientalmente responsáveis” para reduzir o consumo.

Fonte: techcrunch.com

Continue lendo

Top

Social Media Auto Publish Powered By : XYZScripts.com