TECNOLOGIA
Você pode me ouvir agora? AI-coustics para combater áudio barulhento com IA generativa
Gravações barulhentas de entrevistas e discursos são a ruína da existência dos engenheiros de áudio. Mas uma startup alemã espera resolver isso com uma abordagem técnica única que utiliza IA generativa para melhorar a clareza das vozes no vídeo.
Hoje, AI-cústica emergiu do sigilo com um financiamento de 1,9 milhões de euros. De acordo com o cofundador e CEO Fabian Seipel, a tecnologia da AI-coustics vai além da supressão de ruído padrão para funcionar em – e com – qualquer dispositivo e alto-falante.
“Nossa principal missão é tornar cada interação digital, seja em uma teleconferência, dispositivo de consumo ou vídeo casual em mídia social, tão clara quanto uma transmissão de um estúdio profissional”, disse Seipel ao TechCrunch em entrevista.
Seipel, engenheiro de áudio por formação, foi cofundador da AI-coustics com Corvin Jaedicke, professor de aprendizado de máquina na Universidade Técnica de Berlim, em 2021. Seipel e Jaedicke se conheceram enquanto estudavam tecnologia de áudio na TU Berlin, onde frequentemente encontravam áudio de baixa qualidade qualidade nos cursos e tutoriais on-line que tiveram que fazer.
“Fomos impulsionados por uma missão pessoal de superar o desafio generalizado da má qualidade de áudio nas comunicações digitais”, disse Seipel. “Embora minha audição esteja ligeiramente prejudicada devido à produção musical aos vinte e poucos anos, sempre tive dificuldades com conteúdo e palestras on-line, o que nos levou a trabalhar no tópico qualidade da fala e inteligibilidade em primeiro lugar.”
O mercado de software de supressão de ruído e aprimoramento de voz com tecnologia de IA já é muito robusto. Os rivais da AI-coustics incluem Insoundz, que usa IA generativa para aprimorar clipes de fala transmitidos e pré-gravados, e Veed.ioum pacote de edição de vídeo com ferramentas para remover ruído de fundo dos clipes.
Mas Seipel diz que a AI-coustics tem uma abordagem única para desenvolver os mecanismos de IA que fazem o trabalho real de redução de ruído.
A startup usa um modelo treinado em amostras de fala gravadas no estúdio da startup em Berlim, cidade natal da AI-coustics. As pessoas são pagas para registrar amostras – Seipel não disse quanto – que depois são adicionadas a um conjunto de dados para treinar o modelo de redução de ruído da AI-coustics.
“Desenvolvemos uma abordagem única para simular artefatos e problemas de áudio – por exemplo, ruído, reverberação, compressão, microfones com banda limitada, distorção, recorte e assim por diante – durante o processo de treinamento”, disse Seipel.
Aposto que alguns discordarão do esquema de compensação única da AI-coustics para criadores, dado que o modelo que a startup está treinando pode se tornar bastante lucrativo no longo prazo. (Há um debate saudável sobre se os criadores de dados de treino para modelos de IA merecem resíduos pelas suas contribuições.) Mas talvez a preocupação maior e mais imediata seja o preconceito.
Está bem estabelecido que algoritmos de reconhecimento de fala podem desenvolver preconceitos – preconceitos que acabam prejudicando os usuários. A estudar publicado no The Proceedings of the National Academy of Sciences mostrou que o reconhecimento de fala de empresas líderes tinha duas vezes mais probabilidade de transcrever incorretamente o áudio de falantes negros do que de falantes brancos.
Em um esforço para combater isso, Seipel diz que a AI-coustics está se concentrando no recrutamento de colaboradores “diversos” para amostras de fala. Ele acrescentou: “O tamanho e a diversidade são fundamentais para eliminar preconceitos e fazer com que a tecnologia funcione para todos os idiomas, identidades de falantes, idades, sotaques e gêneros”.
Não foi o teste mais científico, mas carreguei três videoclipes — um entrevista com um agricultor do século XVIIIa demonstração de condução de carro e um Protesto contra o conflito Israel-Palestina — à plataforma da AI-coustics para ver o desempenho de cada uma delas. A AI-coustics realmente cumpriu sua promessa de aumentar a clareza; para meus ouvidos, os clipes processados tinham muito menos ruído de fundo ambiente abafando os alto-falantes.
Aqui está o clipe do fazendeiro do século 18:
E depois:
Seipel vê a tecnologia AI-coustics sendo usada para aprimoramento de fala em tempo real e gravada, e talvez até mesmo incorporada em dispositivos como barras de som, smartphones e fones de ouvido para aumentar automaticamente a clareza da voz. Atualmente, AI-coustics oferece um aplicativo web e API para pós-processamento de gravações de áudio e vídeo, e um SDK que traz a plataforma da AI-coustics para fluxos de trabalho, aplicativos e hardware existentes.
Seipel diz que a AI-coustics – que ganha dinheiro através de uma combinação de assinaturas, preços sob demanda e licenciamento – tem atualmente cinco clientes empresariais e 20.000 usuários (embora nem todos paguem). No roteiro para os próximos meses está a expansão da equipe de quatro pessoas da empresa e a melhoria do modelo subjacente de aprimoramento da fala.
“Antes do nosso investimento inicial, a AI-coustics administrava uma operação bastante enxuta com uma baixa taxa de consumo para sobreviver às dificuldades do mercado de investimento de capital de risco”, disse Seipel. “A AI-coustics tem agora uma rede substancial de investidores e mentores na Alemanha e no Reino Unido para aconselhamento. Uma forte base tecnológica e a capacidade de atender diferentes mercados com o mesmo banco de dados e tecnologia central dão à empresa flexibilidade e capacidade para pivôs menores.”
Questionado sobre se tecnologias de masterização de áudio como AI-coustics podem roubar empregos como alguns especialistas tememSeipel observou o potencial da AI-coustics para agilizar tarefas demoradas que atualmente cabem aos engenheiros de áudio humanos.
“Um estúdio de criação de conteúdo ou gerente de transmissão pode economizar tempo e dinheiro automatizando partes do processo de produção de áudio com acústica de IA, mantendo a mais alta qualidade de fala”, disse ele. “A qualidade e a inteligibilidade da fala ainda são um problema irritante em quase todos os consumidores ou dispositivos profissionais, bem como na produção ou consumo de conteúdo. Cada aplicação onde a fala está sendo gravada, processada ou transmitida pode potencialmente se beneficiar da nossa tecnologia.”
O financiamento tomou a forma de uma parcela de capital e dívida da Connect Ventures, Inovia Capital, FOV Ventures e Ableton CFO Jan Bohl.
Fonte: techcrunch.com
TECNOLOGIA
Os investidores estão lutando para entrar no ElevenLabs, que em breve poderá ser avaliado em US$ 3 bilhões
A ElevenLabs, uma startup que fabrica ferramentas de IA para aplicações de áudio, está sendo abordada por investidores novos e existentes sobre uma nova rodada, que poderia avaliar a empresa em até US$ 3 bilhões, descobriu o TechCrunch.
A empresa fundada há dois anos é especializada em criar ferramentas de IA para gerar vozes sintéticas para narrações de audiolivros e para dublagem de vídeos em tempo real para outros idiomas.
Uma fonte de uma empresa de capital de risco interessada disse ao TechCrunch que os investidores estão lutando para entrar na empresa de rápido crescimento e que sua empresa está disposta a oferecer uma avaliação de até US$ 3 bilhões, pensando que isso é o que será necessário para entrar na próxima rodada. Essa pessoa disse que um acordo provavelmente ocorrerá nas próximas semanas.
Investidores de duas outras empresas confirmaram que a ElevenLabs está aumentando, mas está repassando o negócio. Uma dessas fontes ouviu de segunda mão que a receita recorrente anualizada (ARR) da empresa cresceu de US$ 25 milhões no final do ano passado para cerca de US$ 80 milhões nos últimos meses, tornando-a uma das startups de crescimento mais rápido no desenvolvimento de aplicações reais para IA. (Esses investidores pediram anonimato por motivos competitivos.)
Se for preciso, esse valor de receita significa que os investidores poderiam avaliar a ElevenLabs em cerca de 38 vezes o valor ARR mais recente. Esse múltiplo é ligeiramente inferior ao de algumas empresas focadas em empresas, como Hebbia e Glean.
O múltiplo mais baixo pode ser porque uma parte substancial de sua receita vem do uso do consumidor para narração e dublagem de vídeos pessoais. A receita do consumidor é frequentemente considerada mais volátil do que a receita gerada por clientes corporativos.
A rodada, se concluída com uma avaliação de US$ 3 bilhões, avaliação tripla da ElevenLabs de sua Série B em janeiro, co-liderada por Andreessen Horowitz, Nat Friedman e Daniel Gross.
Esta seria a terceira rodada da Eleven Labs em pouco mais de um ano, mas o TechCrunch não conseguiu saber o tamanho do investimento potencial, pois as discussões com os investidores ainda estão em andamento. A Eleven Labs já arrecadou US$ 100 milhões.
Embora Gêmeos do Google e OpenAI introduziu seus próprios modelos de voz humana, nenhuma das ofertas da empresa pode clonar a fala de outros humanos como a Eleven Labs. Outras empresas que visam o mercado de geração de voz sintética incluem Murf, Tavus, Assemelha-se à IA, Respeitador e Lovo.
ElevenLabs não respondeu a um pedido de comentário.
Fonte: techcrunch.com
TECNOLOGIA
Um co-líder do Sora, gerador de vídeo da OpenAI, partiu para o Google
Um dos co-líderes do gerador de vídeo da OpenAI, Sorapartiu para o Google.
Tim Brooks, que estava liderando o desenvolvimento de Sora com William Peebles, anunciou em um publicar no X que ele se juntará ao Google DeepMind, divisão de pesquisa de IA do Google, para trabalhar em tecnologias de geração de vídeo e “simuladores mundiais”.
“Tive dois anos incríveis na OpenAI criando Sora”, escreveu Brooks. “Obrigado a todas as pessoas apaixonadas e gentis com quem trabalhei.”
O CEO do Google DeepMind, Demis Hassabis, deu as boas-vindas a Brooks em um responder em X, dizendo que ajudará a “tornar realidade o sonho de longa data de um simulador mundial”.
Brooks foi um dos primeiros a trabalhar no Sora, tendo iniciado o projeto na OpenAI em janeiro de 2023. Em seu LinkedInBrooks afirma ter liderado a direção de pesquisa do projeto e o treinamento do modelo.
Sua saída ocorre no momento em que Sora, que ainda não foi lançado, supostamente sofre contratempos técnicos que o posicionam mal contra sistemas rivais de Luma, Runway e outros. Por O Information, o sistema original, revelado em fevereiro, levou mais de 10 minutos de processamento para fazer um videoclipe de 1 minuto. A OpenAI está em processo de treinamento de um Sora aprimorado que poderia fazer clipes rapidamente, disseram fontes ao The Information.
O Google tem seu próprio modelo de geração de vídeo, Veoque foi revelado nesta primavera em sua conferência anual de desenvolvedores de I/O, e que em breve vir ao YouTube Shorts, o formato de vídeo curto do YouTube, para permitir que os criadores gerem planos de fundo e clipes de seis segundos.
Além dos obstáculos relacionados à tecnologia, a OpenAI parece ter cedido terreno de parceria aos desafiantes da geração de vídeo nos últimos meses. No início deste mês, a Runway assinou um negócio com a Lionsgate, o estúdio por trás das franquias “John Wick” e “Crepúsculo”, para treinar um modelo de vídeo personalizado no catálogo de filmes da Lionsgate. Cerca de uma semana depois a Stability que está desenvolvendo seu próprio conjunto de modelos de geração de vídeo recrutado James Cameron, diretor de “Avatar”, “Terminator” e “Titanic”, ao seu conselho.
OpenAI era disse se reunirá com cineastas e estúdios de Hollywood no início deste ano para demonstrar Sora, e a empresa se uniu a vários diretores independentes (e alguns marcas) para mostrar os recursos do sistema. No entanto, a OpenAI ainda não anunciou uma colaboração de longo prazo com um nome importante.
Brooks é o mais recente de uma série de demissões de alto nível da OpenAI.
CTO Mira Muratidiretor de pesquisa Bob McGrew e vice-presidente de pesquisa Barret Zoph anunciado suas demissões no final de setembro. Cientista pesquisador proeminente Andrej Karpathy esquerda OpenAI em fevereiro; meses depois, o cofundador da OpenAI e ex-cientista-chefe Ilya Sutskever pediu demissão, junto com o ex-líder de segurança Jan Leike. Em agosto, cofundador John Schulman disse que deixaria a OpenAI. E Greg Brockman, o presidente da empresa, está em licença sabática.
Fonte: techcrunch.com
TECNOLOGIA
Enganada e explorada, ela criou um aplicativo baseado em IA para imigrantes como ela
Os imigrantes enfrentam um enorme número de desafios e dificuldades. Em particular, sem uma base local de familiares ou amigos da qual depender, os novos imigrantes muitas vezes ficam na ignorância sobre informações fiáveis sobre serviços essenciais como habitação, cuidados de saúde e serviços bancários.
Depois de ser enganada e explorada, uma fundadora imigrante decidiu tentar ajudar outros imigrantes a resolver tais questões e construiu um serviço alimentado por IA treinado em dados específicos para estas necessidades: Imii é um assistente de IA para imigrantes que visa ajudá-los a estabelecer-se e a integrar-se nos seus novos países de origem.
O cofundador da startup, Jane Fishernasceu e foi criado no Japão, em uma família de imigrantes da União Soviética. “Meu pai era uma figura proeminente nos estudos japoneses e um autor publicado quando se mudou para o Japão”, disse ela ao TechCrunch. “Mas ele foi discriminado e desprezado pelos seus colegas durante muitos anos simplesmente porque era um imigrante e, portanto, por padrão, indesejado”, disse ela.
Fisher é compreensivelmente apaixonado pelo assunto. “Criei o imii porque conheço em primeira mão as dificuldades da imigração. Tive diferentes experiências de mudança para outro país — tanto assistida (com um coordenador que me orientava) quanto sozinha (sem orientação externa). Apesar de este último estar se mudando para o Reino Unido, onde estudei e falei o idioma fluentemente, isso teve um impacto enorme na minha saúde mental e no período de adaptação. Também fui enganada no caminho”, acrescentou ela.
O Imii oferece aconselhamento personalizado aos imigrantes e conecta-os com fornecedores e empresas locais de confiança que falam a sua língua, sempre que isso for possível. No aplicativo, o usuário se cadastra, responde algumas dúvidas e recebe orientações personalizadas. O chatbot – temporariamente alimentado pelo ChatGPT 4o até que a startup conclua uma arrecadação de fundos – fornece consultoria sobre habitação, serviços bancários e saúde. E se não puder ajudar com uma dúvida, os usuários podem entrar em contato diretamente com a equipe Imii para obter ajuda.
“Ele é treinado em nosso banco de dados de conteúdo e fornece respostas fáceis de usar para perguntas específicas. Nosso objetivo é fazer com que o imii pareça um assistente humano empático, em vez de um banco de dados sem alma”, disse Fisher. Seu cofundador e CTO, Alexandra Miltsintrabalhou anteriormente com Zoopla e Yelp, onde liderou o desenvolvimento de vários produtos baseados em IA.
Além dos potenciais benefícios sociais, Fisher argumenta que a aplicação poderia beneficiar as empresas que contratam talentos internacionais, uma vez que poderia reduzir despesas com gestão de relocalização, melhorar o bem-estar e a produtividade dos funcionários e, potencialmente, reduzir as taxas de rotatividade de pessoal.
A startup também oferece uma versão para empresas que permite listar seus serviços e especificar o público-alvo. Os empregadores podem integrar o Imii em seus processos de RH, proporcionando aos contratados internacionais acesso ao aplicativo para prepará-los para sua relocação.
“Fomos procurados por diversas empresas prestadoras de serviços para oportunidades de parceria, que estamos atualmente finalizando”, disse Fisher.
O espaço tecnológico de imigração e relocação já conta com alguns players emergentes e estabelecidos. Algumas delas concentram-se no próprio processo de imigração e outras na fixação “in situ”.
Matuto (principalmente B2C) concentra-se no fornecimento de serviços de realocação diretamente aos consumidores e surgiu da TechStars. Enquanto isso, Benivo (B2B) é especializada em fornecer soluções de relocação para empresas e arrecadou US$ 30 milhões no total.
Bem vindo tecnologia (B2C, ainda não lançado) afirma fornecer uma plataforma digital concebida para ajudar os imigrantes em vários aspectos da relocalização. Ela arrecadou US$ 30 milhões em abril de 2022, elevando seu total para US$ 73 milhões, mas não saiu do sigilo desde 2022.
Existem alguns outros também, como Perchpeek (B2B), Settly (B2B), Relocity (B2B) e Localyze (B2B).
No entanto, diz Fisher, poucos dos seus concorrentes pensam profundamente sobre a experiência do imigrante: “Somos centrados no ser humano. Nós nos preocupamos mais com a experiência dos imigrantes do que com a criação de mais um software de tecnologia de relocação para empresas. É por isso que começamos com um conceito B2C muito enxuto para disponibilizar um produto talvez mais simples, mas verdadeiramente focado no impacto, para todos, e oferecer versões atualizadas aos beneficiários comerciais.”
“Não acreditamos que uma grande empresa precise de mais um serviço de relocação. Acreditamos que startups, PMEs, ONGs e organizações como o NHS do Reino Unido o fazem”, acrescentou ela.
Ela também disse que o aplicativo evoluirá do uso do OpenAI para o fornecimento de serviços mais detalhados: “Não é apenas informação, é também se eles precisam de construção de crédito para imigrantes ou assistência jurídica. Isso não é algo que você pode simplesmente obter através de um invólucro GPT.”
Atualmente a startup oferece o aplicativo gratuitamente para usuários individuais e como serviço pago com assistência de realocação/instalação para clientes B2B. Ela também cobra dos prestadores de serviços em seu mercado uma comissão de marketing de afiliados.
Imii parece estar muito “na moda”.
Aproximadamente 281 milhões de pessoas são contabilizadas como migrantes internacionais em todo o mundo, representando 3,6% da população mundial, por ano. Relatório das Nações Unidas. Além disso, o Banco Mundial prevê que, até 2050, as alterações climáticas poderão deslocar até 216 milhões de pessoas. E o ACNUR estima que, nos próximos anos, o número de refugiados climáticos aumentará significativamente, com algumas projecções sugerindo que até 1,2 mil milhões de pessoas poderão ser deslocadas a nível mundial até 2050 devido a acontecimentos relacionados com o clima.
Fonte: techcrunch.com
-
TECNOLOGIA1 semana ago
O drama WordPress vs. WP Engine, explicado
-
TECNOLOGIA2 semanas ago
Masayoshi Son, da SoftBank, está planejando seu retorno
-
GAMES2 semanas ago
Novo Mega Set Fallout Baseado no Icônico Posto de Gasolina Red Rocket Disponível para Pré-venda
-
SÉRIES2 semanas ago
Problemas legais passados da estrela de ‘The Bachelorette’, Devin Strader, ressurgem
-
SÉRIES2 semanas ago
Histórico chocante de participante de ‘The Golden Bachelorette’ é exposto
-
FILMES2 semanas ago
Obi-Wan frustra a viagem de Anakin em ‘Star Wars’
-
FILMES2 semanas ago
Hugh Grant conduz um experimento social mortal no novo trailer de ‘Heretic’
-
FILMES2 semanas ago
This ‘Star Trek’ Darling Has a 64% Rotten Tomatoes Horror Thriller Dominating Paramount+