Como funciona Alexa? A tecnologia por trás do assistente virtual da Amazon, explicou

Edgar Cervantes / Autoridade Android

Temos alguns guias para usar o Amazon Alexa em Autoridade Android, mas você pode estar curioso sobre a tecnologia subjacente do assistente de voz. Aqui está uma breve explicação de como Alexa funciona, desde sua estrutura geral até como ela ouve e responde aos comandos de voz.

Como Alexa funciona: uma visão geral

O Amazon Echo Show 15 em uma parede.

Os componentes básicos do Alexa, do ponto de vista do usuário, são uma conta Amazon e um dispositivo habilitado para Alexa conectado à Internet, geralmente um alto-falante ou display inteligente. A conta permite criar um perfil, salvar configurações de software e hardware e vincular dispositivos, serviços e acessórios compatíveis. Os dispositivos Alexa ouvem comandos de voz, carregam-nos nos servidores da Amazon para tradução e, em seguida, fornecem resultados na forma de áudio, vídeo ou acionadores de dispositivos/acessórios. Alguns modelos também servem como controladores Matter, roteadores de borda Thread e/ou hubs Zigbee para produtos domésticos inteligentes compatíveis.

Todos os comandos de voz começam com uma palavra de ativação que instrui o dispositivo a ouvir. O padrão, claro, é “Alexa”, mas usar o aplicativo do assistente para Android ou iPhone/iPad, você pode alterar para “Amazon”, “Computador”, “Echo” ou “Ziggy”. Na verdade, o aplicativo é efetivamente um terceiro componente básico, já que (normalmente) é necessário para configurar o dispositivo e vincular itens à sua conta Amazon. A Amazon eliminou completamente a configuração baseada na web.

Existem muitos comandos Alexa possíveis, então não vamos nos aprofundar muito aqui, mas eles representam solicitações de voz em linguagem natural para tudo, desde questões de conhecimento até reprodução de mídia e controle residencial inteligente. Por exemplo:

Algumas funções exigem a habilitação de “habilidades”, seja por meio do site da Amazon ou do aplicativo Alexa. Usando os comandos acima como exemplos, o de música não funcionaria sem uma habilidade vinculando sua conta do Spotify, e o controle do termostato exigiria uma habilidade de marca apropriada, como Ecobee ou Google Nest.

A maioria das habilidades é gratuita, pois na verdade apenas dão suporte a produtos e serviços existentes. Habilidades pagas são raras, mas existem, como loops estendidos de alta qualidade para sons do sono.

O aplicativo Alexa também permite rotinas, que é apenas outra palavra para automações. Você pode aprender mais sobre eles em nosso guia de rotinas. A versão resumida é que eles são criados pelo usuário e acionam ações com base em comandos de voz ou várias condições, como localização, status do acessório ou hora do dia. Uma rotina de “Bom dia”, por exemplo, pode acender as luzes, reproduzir notícias da NPR e aquecer sua cafeteira por meio de um plugue inteligente quando você disser “Alexa, comece meu dia”.

Para serem controlados pela Alexa, os acessórios para casa inteligente devem suportar especificamente a plataforma ou o padrão universal Matter. No entanto, praticamente qualquer tipo de acessório está disponível. Além de plugues, termostatos e lâmpadas inteligentes, você pode obter de tudo, desde purificadores de ar até aspiradores robóticos. Eles são emparelhados usando o aplicativo Alexa, independentemente de se conectarem por meio de habilidades, Wi-Fi, Thread e/ou Zigbee.

Mais: Como usar o Amazon Alexa

Como Alexa ouve?

Perfil lateral Amazon Echo Show 8 com controles smarthome

Dhruv Butani / Autoridade Android

Embora todos os dispositivos equipados com Alexa tenham pelo menos um microfone, geralmente há dois ou mais em alto-falantes e monitores inteligentes. Isto facilita o isolamento de vozes do ruído ambiente, pois cria dados direcionais que podem ser comparados e filtrados através de algoritmos de processamento de sinal. É claro que existem limites finitos – você não pode ficar perto de uma TV barulhenta ou de uma máquina de lavar louça e esperar que um alto-falante Echo entenda.

Ao contrário do que lhe disseram, Alexa não grava continuamente tudo o que você diz. Isto é ouvindo constantemente sua palavra de ativação, e o áudio subsequente (que termina depois que você para de falar) geralmente é enviado à Amazon para interpretação. Dizemos normalmente porque a Amazon experimentou processamento offline em dispositivos como o Echo de 4ª geração ou o Echo Show 10, que possuem um dos processadores AZ Neural Edge da empresa. Parece ter se afastado da ideia, por razões desconhecidas.

A Amazon afirma que criptografa as gravações de áudio enviadas, mas as salva por padrão e analisa “uma amostra extremamente pequena” de clipes anônimos para melhorar o desempenho do Alexa. As gravações têm sido usadas em casos criminais e alguns sons ou frases podem ser mal interpretados como palavras de ativação. Portanto, se você estiver preocupado com a privacidade, opte por não salvar ou exclua regularmente seu histórico de voz. Leia nosso guia de privacidade de casa inteligente para obter mais detalhes e comparações.

Veja também: Como configurar Alexa para emergências

Como Alexa responde?

Um Amazon Echo Dot de 4ª geração em 2020

A razão pela qual Alexa tem sido totalmente dependente da nuvem até recentemente são as demandas de processamento de linguagem natural. Cada comando deve ser dividido em unidades de fala individuais chamadas fonemas, e essas unidades são então comparadas com um banco de dados para encontrar as correspondências de palavras mais próximas. Além disso, o software deve identificar a estrutura das frases, bem como os termos relevantes para os diferentes subsistemas. Se você disser “defina o termostato para esfriar”, Alexa saberá encaminhar isso para uma API de casa inteligente (interface de programação de aplicativo).

Alexa pode distinguir diferentes sotaques e dialetos, mas existem bancos de dados exclusivos para cada idioma compatível com a Amazon, incluindo variações regionais. Os usuários precisam selecioná-los no aplicativo Alexa se o dispositivo não for enviado com eles pré-carregados. Um falante do American Echo não consegue entender alemão imediatamente, por exemplo, como pode atestar qualquer pessoa que tenha pedido músicas de Nachtmahr ou Grausame Töchter.

O aprendizado de máquina desempenha um papel crítico, já que o contexto e a história dão ao Alexa uma chance melhor de adivinhar suas intenções. É por isso que a Amazon investe tanto na análise de gravações de clientes do mundo real. Os humanos tendem a usar o contexto e a história para avaliar o significado da conversa – usando uma lógica computacional estrita, Alexa pode interpretar algo como “tocar música de CHVRCHES” (a banda escocesa de synthpop) como um pedido para ouvir música de coros de igreja. Alexa pode cometer erros e comete erros, mas os mares de dados aos quais a Amazon tem acesso significam que o assistente evolui com o tempo.

Perguntas frequentes

Efetivamente. Embora alguns dispositivos possam permitir o controle de voz off-line de volume e acessórios domésticos inteligentes vinculados ao hub, ou verificar e cancelar coisas como temporizadores e lembretes, quase todo o resto requer comunicação com servidores Amazon e/ou serviços de terceiros vinculados. Mesmo dispositivos que podem processar áudio localmente ainda enviam transcrições de comandos de voz.

Ele está sempre ouvindo sua palavra de ativação, desde que você não tenha silenciado os microfones de um dispositivo.

Porém, o mais importante é que não está gravando tudo. A gravação só é acionada depois que uma palavra de ativação é detectada e termina quando você para de falar (ou Alexa pensa que sim). Se você estiver preocupado com a privacidade, precisará cancelar o salvamento dessas gravações ou excluir regularmente seu histórico de voz.

De acordo com algumas definições. É capaz de aprender e resolver problemas limitados, por exemplo, interpretar comandos de voz para os quais não foi pré-programado.

Dito isto, geralmente depende do que é chamado de IA “fraca”. Não apresenta a mesma adaptabilidade que uma mente humana ou animal. Você não pode ter uma conversa genuína, e seu aprendizado acontece de forma incremental, e não dinamicamente. Certamente está longe de ser senciente, não importa quão difícil seja de definir.

A Amazon está planejando lançar conversas generativas de IA em um futuro próximo, mas vale lembrar que a tecnologia generativa apenas simula conversas naturais – não há cérebro ou personalidade por trás de um chatbot.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima