Transcrever no Google Docs: áudio para transcrição de texto

Use o snippet de código abaixo para converter um arquivo de vídeo em um arquivo de áudio usando FFMPEG .

Transcrever áudio de um arquivo de vídeo usando fala para texto

Este tutorial mostra como transcrever a faixa de áudio de um arquivo de vídeo usando fala para texto.

Arquivos de áudio podem vir de muitas fontes diferentes. Os dados de áudio podem vir de um telefone (como correio de voz) ou a trilha sonora incluída em um arquivo de vídeo.

Fala para texto pode usar um dos vários aprendizados de máquina modelos Para transcrever seu arquivo de áudio, para melhor corresponder à fonte original do áudio. Você pode obter melhores resultados da sua transcrição de fala especificando a fonte do áudio original. Isso permite que a fala a texto processe seus arquivos de áudio usando um modelo de aprendizado de máquina treinado para dados semelhantes ao seu arquivo de áudio.

Objetivos

  • Envie uma solicitação de transcrição de áudio para um arquivo de vídeo para o texto em texto.

Custos

  • Fala para texto

Para gerar uma estimativa de custo com base no seu uso projetado, use a calculadora de preços. Novos usuários do Google Cloud podem ser elegíveis para uma avaliação gratuita.

Antes de você começar

Este tutorial tem vários pré -requisitos:

  • Você configurou um projeto de fala para texto no Google Cloud Console.
  • Você configurou seu ambiente usando credenciais padrão do aplicativo no Google Cloud Console.
  • Você configurou o ambiente de desenvolvimento para a linguagem de programação escolhida.
  • Você instalou a biblioteca de clientes do Google Cloud para a linguagem de programação escolhida.

Prepare os dados de áudio

Antes de transcrever o áudio de um vídeo, você deve extrair os dados do arquivo de vídeo. Depois de extrair os dados de áudio, você deve armazená-los em um balde de armazenamento em nuvem ou convertê-los para o codificação base64.

Observação: Se você usa uma biblioteca de clientes para transcrição, não precisa armazenar ou converter os dados de áudio. Você só precisa extrair os dados de áudio do arquivo de vídeo antes de enviar uma solicitação de transcrição.

Extraia os dados de áudio

Você pode usar qualquer ferramenta de conversão de arquivos que lida com arquivos de áudio e vídeo, como o FFMPEG.

Use o snippet de código abaixo para converter um arquivo de vídeo em um arquivo de áudio usando FFMPEG .

FFMPEG -I-IMPOSTO DE VÍDEO AUDIO-FIL 

Armazene ou converta os dados de áudio

Você pode transcrever um arquivo de áudio armazenado em sua máquina local ou em um balde de armazenamento em nuvem.

Use o seguinte comando para fazer upload do seu arquivo de áudio para um balde de armazenamento em nuvem existente usando a ferramenta GSUTIL.

Gsutil CP Audio-Output-File Storage-Bucket-URI 

Se você usa um arquivo local e planeja enviar uma solicitação usando a ferramenta Curl da linha de comando, você deverá converter o arquivo de áudio em dados codificados por Base64 primeiro.

Use o seguinte comando para converter um arquivo de áudio em um arquivo de texto.

Base64 File de Audio-Output -W 0> Texto de Audio-Data 

Envie um pedido de transcrição

Use o código a seguir para enviar uma solicitação de transcrição para o texto para o texto.

Solicitação de arquivo local

Protocolo

Consulte o discurso: reconhecer o terminal da API para obter detalhes completos.

Para realizar reconhecimento de fala síncrona, faça uma solicitação de postagem e forneça o corpo de solicitação apropriado. A seguir, é apresentado um exemplo de uma solicitação de postagem usando CURL . O exemplo usa o token de acesso para uma conta de serviço configurada para o projeto usando o Google Cloud Cloud Cloud Cli. Para obter instruções sobre a instalação da GCLOUD CLI, configurando um projeto com uma conta de serviço e obtenção de um token de acesso, consulte o QuickStart.

CURL -S -H "Tipo de Conteúdo: Aplicativo/JSON" \ -h "Autorização: Portador $ (GCLOUD ATDRAPEL-APLICAÇÃO PRIMENTA-PRIMENTO-ACCESS-TOKen)" \ https: // discurso.googleapis.com/v1/discurso: reconhecer \ -data ' < "config": < "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "Model": "Video" >, "áudio": < "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" >> '

Consulte a documentação de referência do reconhecimentoConfig para obter mais informações sobre como configurar o corpo de solicitação.

Se a solicitação for bem -sucedida, o servidor retornará um código de status HTTP de 200 OK e a resposta no formato JSON:

Ir

Para se autenticar para a fala para texto, configure credenciais padrão do aplicativo. Para obter mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

 Func ModelsElection (W io.Escritor, string de path) erro {ctx: = contexto.Background () Cliente, Err: = Discurso.Newclient (ctx) se err != nil {return fmt.Errorf ("newclient: %w", err)} adiar o cliente.Close () // Path = "../testData/google_gnome.wav "dados, err: = ioutil.Readfile (caminho) se err != nil {return fmt.Errorf ("readfile: %w", err)} req: = & discursopb.Reconhecerequest {config: & discurypb.ReconhitionConfig {Encoding: Speechpb.ReconhitionConfig_Linear16, SamplerateHertz: 16000, LanguageCode: "En-us", Model: "Video",}, áudio: & discursopb.Reconhecimento.Reconhecimentoudio_content,},} resp, err: = cliente.Reconhecer (CTX, REQ) se err != nil {return fmt.Errorf ("reconhecer: %w", err)} para i, resultado: = range resp.Resultados {fmt.Fprintf (w, "%s \ n", strings.Repita ("-", 20)) FMT.Fprintf (w, "resultado %d \ n", i+1) para j, alternativa: = resultado do intervalo.Alternativas {fmt.Fprintf (w, "alternativo %d: %s \ n", j+1, alternativa.Transcript)}} retornar nil} 

Java

Para se autenticar para a fala para texto, configure credenciais padrão do aplicativo. Para mais informações, consulte Set U

Transcrever no Google Docs: áudio para transcrição de texto

Use o snippet de código abaixo para converter um arquivo de vídeo em um arquivo de áudio usando FFMPEG .

Transcrever áudio de um arquivo de vídeo usando fala para texto

Este tutorial mostra como transcrever a faixa de áudio de um arquivo de vídeo usando fala para texto.

Arquivos de áudio podem vir de muitas fontes diferentes. Os dados de áudio podem vir de um telefone (como correio de voz) ou a trilha sonora incluída em um arquivo de vídeo.

Fala para texto pode usar um dos vários aprendizados de máquina modelos Para transcrever seu arquivo de áudio, para melhor corresponder à fonte original do áudio. Você pode obter melhores resultados da sua transcrição de fala especificando a fonte do áudio original. Isso permite que a fala a texto processe seus arquivos de áudio usando um modelo de aprendizado de máquina treinado para dados semelhantes ao seu arquivo de áudio.

Objetivos

  • Envie uma solicitação de transcrição de áudio para um arquivo de vídeo para o texto em texto.

Custos

  • Fala para texto

Para gerar uma estimativa de custo com base no seu uso projetado, use a calculadora de preços. Novos usuários do Google Cloud podem ser elegíveis para uma avaliação gratuita.

Antes de você começar

Este tutorial tem vários pré -requisitos:

  • Você configurou um projeto de fala para texto no Google Cloud Console.
  • Você configurou seu ambiente usando credenciais padrão do aplicativo no Google Cloud Console.
  • Você configurou o ambiente de desenvolvimento para a linguagem de programação escolhida.
  • Você instalou a biblioteca de clientes do Google Cloud para a linguagem de programação escolhida.

Prepare os dados de áudio

Antes de transcrever o áudio de um vídeo, você deve extrair os dados do arquivo de vídeo. Depois de extrair os dados de áudio, você deve armazená-los em um balde de armazenamento em nuvem ou convertê-los para o codificação base64.

Observação: Se você usa uma biblioteca de clientes para transcrição, não precisa armazenar ou converter os dados de áudio. Você só precisa extrair os dados de áudio do arquivo de vídeo antes de enviar uma solicitação de transcrição.

Extraia os dados de áudio

Você pode usar qualquer ferramenta de conversão de arquivos que lida com arquivos de áudio e vídeo, como o FFMPEG.

Use o snippet de código abaixo para converter um arquivo de vídeo em um arquivo de áudio usando FFMPEG .

ffmpeg -i File de vídeo-entrada File de Audio-Output 

Armazene ou converta os dados de áudio

Você pode transcrever um arquivo de áudio armazenado em sua máquina local ou em um balde de armazenamento em nuvem.

Use o seguinte comando para fazer upload do seu arquivo de áudio para um balde de armazenamento em nuvem existente usando a ferramenta GSUTIL.

Gsutil cp File de Audio-Output Storage-Bucket-Uri 

Se você usa um arquivo local e planeja enviar uma solicitação usando a ferramenta Curl da linha de comando, você deverá converter o arquivo de áudio em dados codificados por Base64 primeiro.

Use o seguinte comando para converter um arquivo de áudio em um arquivo de texto.

base64 File de Audio-Output -W 0> Text de áudio-dados 

Envie um pedido de transcrição

Use o código a seguir para enviar uma solicitação de transcrição para o texto para o texto.

Solicitação de arquivo local

Protocolo

Consulte o discurso: reconhecer o terminal da API para obter detalhes completos.

Para realizar reconhecimento de fala síncrona, faça uma solicitação de postagem e forneça o corpo de solicitação apropriado. A seguir, é apresentado um exemplo de uma solicitação de postagem usando CURL . O exemplo usa o token de acesso para uma conta de serviço configurada para o projeto usando o Google Cloud Cloud Cloud Cli. Para obter instruções sobre a instalação da GCLOUD CLI, configurando um projeto com uma conta de serviço e obtenção de um token de acesso, consulte o QuickStart.

CURL -S -H "Tipo de Conteúdo: Aplicativo/JSON" \ -h "Autorização: Portador $ (GCLOUD ATDRAPEL-APLICAÇÃO PRIMENTA-PRIMENTO-ACCESS-TOKen)" \ https: // discurso.googleapis.com/v1/discurso: reconhecer \ -data ' < "config": < "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "Model": "Video" >, "áudio": < "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" >> '

Consulte a documentação de referência do reconhecimentoConfig para obter mais informações sobre como configurar o corpo de solicitação.

Se a solicitação for bem -sucedida, o servidor retornará um código de status HTTP de 200 OK e a resposta no formato JSON:

Ir

Para se autenticar para a fala para texto, configure credenciais padrão do aplicativo. Para obter mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

 Func ModelsElection (W io.Escritor, string de caminho) Erro < ctx := context.Background() client, err := speech.NewClient(ctx) if err != nil < return fmt.Errorf("NewClient: %w", err) >adiar o cliente.Close () // Path = "../testData/google_gnome.wav "dados, err: = ioutil.Readfile (caminho) se err != nil < return fmt.Errorf("ReadFile: %w", err) >req: = & discursopb.Reconhecerequest< Config: &speechpb.RecognitionConfig< Encoding: speechpb.RecognitionConfig_LINEAR16, SampleRateHertz: 16000, LanguageCode: "en-US", Model: "video", >, Áudio: & discursopb.Reconhecimento< AudioSource: &speechpb.RecognitionAudio_Content, >, > resp, err: = cliente.Reconhecer (CTX, REQ) se err != nil < return fmt.Errorf("Recognize: %w", err) >para i, resultado: = Range resp.Resultados < fmt.Fprintf(w, "%s\n", strings.Repeat("-", 20)) fmt.Fprintf(w, "Result %d\n", i+1) for j, alternative := range result.Alternatives < fmt.Fprintf(w, "Alternative %d: %s\n", j+1, alternative.Transcript) >> retornar nil> 

Java

Para se autenticar para a fala para texto, configure credenciais padrão do aplicativo. Para obter mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

/*** Executa a transcrição do arquivo de áudio fornecido de forma síncrona com o modelo selecionado. * * @param filename O caminho para um arquivo de áudio para transcrever */ public static void transcrcrinceModelselection (string filename) lança exceção < Path path = Paths.get(fileName); byte[] content = Files.readAllBytes(path); try (SpeechClient speech = SpeechClient.create()) < // Configure request with video media type RecognitionConfig recConfig = RecognitionConfig.newBuilder() // encoding may either be omitted or must match the value in the file header .setEncoding(AudioEncoding.LINEAR16) .setLanguageCode("en-US") // sample rate hertz may be either be omitted or must match the value in the file // header .setSampleRateHertz(16000) .setModel("video") .build(); RecognitionAudio recognitionAudio = RecognitionAudio.newBuilder().setContent(ByteString.copyFrom(content)).build(); RecognizeResponse recognizeResponse = speech.recognize(recConfig, recognitionAudio); // Just print the first result here. SpeechRecognitionResult result = recognizeResponse.getResultsList().get(0); // There can be several alternative transcripts for a given chunk of speech. Just use the // first (most likely) one here. SpeechRecognitionAlternative alternative = result.getAlternativesList().get(0); System.out.printf("Transcript : %s\n", alternative.getTranscript()); >>

Nó.JS

Para se autenticar para a fala para texto, configure credenciais padrão do aplicativo. Para obter mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

// Importa a biblioteca de clientes do Google Cloud para API BETA/** * TODO (Desenvolvedor): Atualize a Biblioteca do Cliente Importar para usar a nova versão * da API quando os recursos desejados se tornam disponíveis */const discurso = requer ('@google-cloud/discurso').v1p1beta1; const fs = requer ('fs'); // cria um cliente const cliente = novo discurso.Discursoclient (); /*** TODO (Desenvolvedor): Uncomment as seguintes linhas antes de executar a amostra. */ // const filename = 'Caminho local para o arquivo de áudio, e.g. /caminho/para/áudio.cru'; // const modelo = 'modelo para usar, e.g. telefone_call, vídeo, padrão '; // const coding = 'codificação do arquivo de áudio, e.g. Linear16 '; // const sampleRateHertz = 16000; // const linguageCode = 'BCP-47 Código da linguagem, e.g. en-us '; const config = < encoding: encoding, sampleRateHertz: sampleRateHertz, languageCode: languageCode, model: model, >; const áudio = < content: fs.readFileSync(filename).toString('base64'), >; const solicitação = < config: config, audio: audio, >; // Detecta a fala no arquivo de áudio const [resposta] = Waitt Client.reconhecer (solicitação); Const Transcription = Resposta.resultados .mapa (resultado => resultado.alternativas [0].transcrição) .junção ('\ n'); console.log ('transcrição:', transcrição);

Pitão

Para se autenticar para a fala para texto, configure credenciais padrão do aplicativo. Para obter mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

def transcribe_model_selection (discurso_file, modelo): "" "transcreve o arquivo de áudio especificado de forma síncrona com o modelo selecionado."" "Do Google.Cliente de fala de importação em nuvem = discurso.SpeechClient () com open (discurso_file, "rb") como audio_file: content = audio_file.leitura () áudio = discurso.Reconhecimentoudio (content = content) config = discurso.ReconhitionConfig (codificação = discurso.ReconhecimentoConfig.AudioEncoding.Linear16, sample_rate_hertz = 16000, idioma_code = "en-us", modelo = modelo).reconhecer (config = config, áudio = áudio) para i, resultar em enumerado (resposta.Resultados): Alternativo = Resultado.alternativas [0] print ("-" * 20) print (f "primeira alternativa de resultado") print (f "transcript:") 

Idiomas Adicionais

C#: Siga as instruções de configuração C# na página Bibliotecas de clientes e visite a documentação de referência de fala para texto para .LÍQUIDO.

Php: Siga as instruções de configuração do PHP na página Bibliotecas de clientes e visite a documentação de referência de fala para texto para PHP.

Rubi: Por favor, siga as instruções de configuração do rubi na página de bibliotecas de clientes e visite a documentação de referência de fala para texto para Ruby.

Solicitação de arquivo remoto

Java

Para se autenticar para a fala para texto, configure credenciais padrão do aplicativo. Para obter mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

/*** executa a transcrição do arquivo de áudio remoto de forma assíncrona com o modelo selecionado. * * @param gcsuri o caminho para o arquivo de áudio remoto para transcrever. */ public static void transcrcreModelselectionGCS (String gcsuri) joga exceção < try (SpeechClient speech = SpeechClient.create()) < // Configure request with video media type RecognitionConfig config = RecognitionConfig.newBuilder() // encoding may either be omitted or must match the value in the file header .setEncoding(AudioEncoding.LINEAR16) .setLanguageCode("en-US") // sample rate hertz may be either be omitted or must match the value in the file // header .setSampleRateHertz(16000) .setModel("video") .build(); RecognitionAudio audio = RecognitionAudio.newBuilder().setUri(gcsUri).build(); // Use non-blocking call for getting file transcription OperationFutureresponse = speech.longRunningRecognizeAsync(config, audio); while (!response.isDone()) < System.out.println("Waiting for response. "); Thread.sleep(10000); >Resultados da lista = resposta.pegar().getResultslist (); // Apenas imprima o primeiro resultado aqui. SpeechRecognitionResult resultado = Resultados.obtenha (0); // pode haver várias transcrições alternativas para um determinado pedaço de fala. Basta usar o // primeiro (provavelmente) aqui. SpeechRecognitionalternative Alternative = Resultado.getalternativelist ().obtenha (0); Sistema.fora.printf ("transcript: %s \ n", alternativa.getTranscript ()); >>

Nó.JS

Para se autenticar para a fala para texto, configure credenciais padrão do aplicativo. Para obter mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

// Importa a biblioteca de clientes do Google Cloud para API BETA/** * TODO (Desenvolvedor): Atualize a Biblioteca do Cliente Importar para usar a nova versão * da API quando os recursos desejados se tornam disponíveis */const discurso = requer ('@google-cloud/discurso').v1p1beta1; // cria um cliente const cliente = novo discurso.Discursoclient (); /*** TODO (Desenvolvedor): Uncomment as seguintes linhas antes de executar a amostra. */// const gcsuri = 'gs: // my-bucket/áudio.cru'; // const modelo = 'modelo para usar, e.g. telefone_call, vídeo, padrão '; // const coding = 'codificação do arquivo de áudio, e.g. Linear16 '; // const sampleRateHertz = 16000; // const linguageCode = 'BCP-47 Código da linguagem, e.g. en-us '; const config = < encoding: encoding, sampleRateHertz: sampleRateHertz, languageCode: languageCode, model: model, >; const áudio = < uri: gcsUri, >; const solicitação = < config: config, audio: audio, >; // detecta discurso no arquivo de áudio. const [Response] = Aguarda Cliente.reconhecer (solicitação); Const Transcription = Resposta.resultados .mapa (resultado => resultado.alternativas [0].transcrição) .junção ('\ n'); console.log ('transcrição:', transcrição);

Pitão

Para se autenticar para a fala para texto, configure credenciais padrão do aplicativo. Para obter mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

def transcribe_model_selection_gcs (gcs_uri, modelo): "" "transcreve o arquivo de áudio fornecido de forma assíncrona com o modelo selecionado."" "Do Google.Cliente de fala de importação em nuvem = discurso.Discursclient () áudio = discurso.Reconhecionaudio (URI = GCS_URI) Config = Discurso.ReconhitionConfig (codificação = discurso.ReconhecimentoConfig.AudioEncoding.Linear16, sample_rate_hertz = 16000, idioma_code = "en-us", modelo = modelo,) operação = cliente.long_running_recognize (config = config, áudio = áudio) print ("aguardando a operação para concluir. ") Resposta = operação.resultado (tempo limite = 90) para i, resultar em enumerar (resposta.Resultados): Alternativo = Resultado.alternativas [0] print ("-" * 20) print (f "primeira alternativa de resultado") print (f "transcript:") 

Idiomas Adicionais

C#: Siga as instruções de configuração C# na página Bibliotecas de clientes e visite a documentação de referência de fala para texto para .LÍQUIDO.

Php: Siga as instruções de configuração do PHP na página Bibliotecas de clientes e visite a documentação de referência de fala para texto para PHP.

Rubi: Por favor, siga as instruções de configuração do rubi na página de bibliotecas de clientes e visite a documentação de referência de fala para texto para Ruby.

Limpar

Para evitar incorrer em cobranças na sua conta do Google Cloud para os recursos usados ​​neste tutorial, exclua o projeto que contém os recursos ou mantenha o projeto e exclua os recursos individuais.

Exclua o projeto

A maneira mais fácil de eliminar o faturamento é excluir o projeto que você criou para o tutorial.

    Cuidado: Excluir um projeto tem os seguintes efeitos:

    • Tudo no projeto é excluído. Se você usou um projeto existente para este tutorial, ao excluí -lo, também exclui qualquer outro trabalho que fez no projeto.
    • IDs de projeto personalizados estão perdidos. Quando você criou este projeto, você pode ter criado um ID de projeto personalizado que deseja usar no futuro. Para preservar os URLs que usam o ID do projeto, como um AppSpot.com url, exclua recursos selecionados dentro do projeto, em vez de excluir todo o projeto.

Se você planeja explorar vários tutoriais e iniciantes rápidos, a reutilização de projetos pode ajudar a evitar exceder os limites das cotas do projeto.

Excluir instâncias

  1. No console do Google Cloud, vá para o Instâncias da VM página. Vá para instâncias da VM
  2. Selecione a caixa de seleção para a instância que você deseja excluir.
  3. Para excluir a instância, clique em More_vert Mais ações, clique Excluir, e depois siga as instruções.

Excluir regras de firewall para a rede padrão

  1. No console do Google Cloud, vá para o Firewall página. Vá para o firewall
  2. Selecione a caixa de seleção para a regra do firewall que você deseja excluir.
  3. Para excluir a regra do firewall, clique em Excluir Excluir.

Qual é o próximo

  • Aprenda a obter registros de data e hora para o áudio.
  • Identifique diferentes alto -falantes em um arquivo de áudio.

Experimente por si mesmo

Se você é novo no Google Cloud, crie uma conta para avaliar como a fala em texto se apresenta em cenários do mundo real. Novos clientes também recebem US $ 300 em créditos gratuitos para executar, testar e implantar cargas de trabalho.

Enviar comentários

Exceto quando observado de outra forma, o conteúdo desta página é licenciado sob a atribuição Creative Commons 4.0 licença e amostras de código são licenciadas sob o Apache 2.0 licença. Para detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou de suas afiliadas.

Última atualização 2023-05-19 UTC.

Transcrever no Google Docs: áudio para transcrição de texto

Novo arquivo de transcrição

Este artigo analisará como transcrever no Google Docs usando o recurso de digitação de voz. Esta ferramenta de transcrição gratuita é útil para muitas tarefas além da digitação regular de voz: você pode colocar suas idéias em forma escrita rapidamente, obter notas difíceis de reuniões e criar scripts para discursos também. As transcrições são úteis por vários motivos: são pesquisáveis, você pode usá -las para criar legendas e&rsquo;é fácil salvá -los para referência futura.

O Google Docs pode transcrever um arquivo de áudio?

Muitas pessoas não sabem que você pode usar o Google Docs para transcrever arquivos de áudio (embora não vamos&rsquo;eu recomendo! Em vez disso, use uma ferramenta de terceiros como SPF.io para obter transcrições precisas e rápidas de arquivos de áudio). Lembre -se de que o uso de uma ferramenta para algo diferente de seu objetivo principal lhe dará menos do que os resultados ideais. Se você usar a digitação de voz para obter transcrições gratuitas de arquivos de áudio, a escrita não terá pontuação, provavelmente terá palavras incorretas ou ausentes e precisará de edição substancial depois.

Esses são alguns benefícios para usar o recurso de digitação de voz do Google Docs:
-GRÁTIS: O Google Docs não requer taxas para começar.
-Editável: o texto em um documento do Google é fácil de modificar, comentar e usar com colaboradores que estão ajudando você
-Facilmente compartilhável: desde que você&rsquo;está trabalhando diretamente no Google Docs, você pode usar o
&ldquo;compartilhar&rdquo; recurso para enviar sua transcrição para amigos e colegas de trabalho

Desvantagens do uso de ferramentas de transcrição gratuitas como o Google Docs:
-Sem tradução
-Sem carimbos de hora
-Sem pontuação automática (você pode dizer verbalmente &ldquo;período&rdquo; ou &ldquo;vírgula,&rdquo; Mas os documentos não transcrevem com pontuação. Leia mais sobre comandos de voz aqui).
-Nenhum dicionário personalizado ou correções de ortografia automática (se você quiser esse recurso, use SPF.io e crie seu próprio banco de dados de auto -instalação)

Como usar o Google&rsquo;S Ferramenta de texto em fala

Depois de ter um arquivo de áudio, siga estas etapas para transcrever no Google Docs:

  1. Crie um novo DOC:
    Abra um novo arquivo do Google Doc em https: // docs.Google.com/documento/ Novo arquivo de transcrição
  2. Habilite o texto em fala:
    Em ferramentas, selecione &ldquo;Digitação de voz&rdquo; Transcrever no Google Docs - Funcionários para ferramentas de texto
  3. Selecione seu idioma de transcrição:
    Quando o microfone aparecer, você pode usar a seta suspensa ao lado da linguagem exibida (neste caso, inglês (EUA)) para selecionar seu idioma. Quando você transcreve no Google Docs para um trabalho bilíngue, você&rsquo;Eu precisará pausar e desligar o microfone antes de mudar para um novo idioma toda vez que você quiser falar um diferente. Google Docs Languages
  4. Comece a transcrever seu arquivo de áudio:
    Comece a reproduzir seu arquivo de áudio em uma janela diferente (verifique se está jogando sobre seus alto -falantes, não através de um fone de ouvido!). Clique no microfone no Google Docs o mais rápido possível para capturar o som. O motivo pelo qual você precisa fazer isso para que, se você clicar longe da janela do Google Docs, a transcrição será interrompida. A desvantagem é que você&rsquo;LL perderá a primeira parte do seu arquivo de áudio ou vídeo ao clicar no Google Docs para iniciar a transcrição. Transcrição gratuita Google
  5. Edite sua transcrição:
    Esta é a parte mais demorada desse processo desde que você ganhou&rsquo;T Obtendo pontuação adicionada automaticamente quando você transcreve no Google Docs. Observe que você pode&rsquo;t Edite o texto no documento como seu vídeo/áudio está sendo transcrito – a digitação de voz adicionará texto onde quer que você coloque seu cursor.

Outras maneiras de usar o Google Docs fala para texto:

  • Escreva mais rapidamente
  • Tome anotações de uma reunião
  • Crie um script para um discurso

Transcrições fáceis e precisas de áudio/vídeo com SPF.io

Embora o processo a transcrever no Google Docs seja gratuito, pode levar muito do seu tempo (o que pode acabar sendo mais caro no final!). Recomendamos usar ferramentas de terceiros como SPF.IO para obter transcrições precisas que exigem menos edição demorada do que as ferramentas gratuitas exigirão. Isso é especialmente necessário se você tiver muitas horas de vídeo/áudio para transcrever.

Com spf.io, você pode até usar sua transcrição para criar legendas e legendas. Como oferecemos muitas opções em nossa ferramenta tudo em um, você tem a liberdade de traduzir seu texto para mais de 60 idiomas! Também oferecemos legendas ao vivo para a maioria das plataformas como Zoom, Streamyard, YouTube e muito mais.

Cansado de tentar transcrever no Google Docs? Simplifique seu processo e obtenha uma cotação do SPF.io para o seu projeto de transcrição!

Transcrição do conteúdo de áudio: recursos e instruções

Ícones repetidos de microfones e papel com lápis

Se você deseja transcrever o conteúdo de áudio, então você&rsquo;Venha para o lugar certo. Se você optar por usar um serviço de transcrição de terceiros ou DIY (faça você mesmo), ele&rsquo;é importante pesar os prós e contras e escolher qual opção funciona melhor para você.

Benefícios da transcrição de áudio

  1. Crie uma melhor experiência do usuário
  2. Aumente suas chances de ser citado e creditado
  3. Boost Search Engine Optimization (SEO)
  4. Melhore a acessibilidade para usuários que são surdos ou com deficiência auditiva

Além disso, muitas empresas e organizações são legalmente necessário para criar transcrições para seu conteúdo Com base na Lei dos Americanos com Deficiência e na Seção 504 e 508 da Lei de Reabilitação. WCAG 2.0 é um conjunto de diretrizes implementadas pelo Consórcio da World Wide Web para tornar o conteúdo digital mais acessível para usuários, incluindo aqueles com deficiência. WCAG 2.0 tem três níveis de conformidade: Nível A, AA e AAA. A Seção 508 foi revisada para cumprir com o WCAG 2.0 Nível A e AA. De acordo com o nível mais baixo, o nível A, as transcrições são recomendadas para conteúdo somente em áudio.

Nós&rsquo;fornecerei os diferentes recursos que você&rsquo;precisarei transcrever de um arquivo de áudio e ajudá -lo a determinar a escolha mais viável com base no seu orçamento, tempo e necessidades particulares. Boa sorte e feliz transcrição!

Transcrição DIY

Transcrever manualmente o áudio pode ser uma tarefa assustadora, especialmente quando você tem formas mais longas de conteúdo. Geralmente leva 5-6 vezes o tempo real do conteúdo. Felizmente, existem muitas ferramentas gratuitas e de baixo custo disponíveis para simplificar o processo. Antes de começar a transcrever, verifique se você Capture áudio claro e alto. Isso ajudará a reduzir bandeiras vermelhas e sons inaudíveis em sua transcrição.

YouTube

Ícone do YouTube na Blob Blue

Se você hospedar seu conteúdo de áudio no YouTube, poderá utilizar a ferramenta de transcrição de vídeo automática gratuita. Esta ferramenta transcreve automaticamente o áudio para o texto, mas lembre -se de que vem com muitos erros. Transcrições produzidas pelo YouTube&rsquo;a ferramenta é muito imprecisa para ser usada por conta própria. Portanto, é&rsquo;é altamente recomendado para limpá -los, pois eles podem prejudique sua acessibilidade ao vídeo e classificação nas páginas de resultados do mecanismo de pesquisa (SERP).

Aqui&rsquo;s Como aproveitar o YouTube&rsquo;s Transcrição automática de vídeo:

  1. No gerenciador de vídeo, selecione seu vídeo e clique Editar> Legendas e CC. Selecione Adicione legendas ou CC e escolha seu idioma.
  2. Selecione Transcrever e definir horários, e digite a transcrição no espaço fornecido. O YouTube vai pausar automaticamente o vídeo conforme você digita para que você possa transcrever com mais rapidez e precisão.
  3. Depois de ficar satisfeito, selecione Defina horários. Isso irá sincronizar sua transcrição com o vídeo.

Da mesma forma, você pode criar uma transcrição de antemão e enviá -la para o YouTube:

  1. Primeiro, crie uma transcrição com YouTube&rsquo;s recomendações para formatação.
  2. Vá para o gerenciador de vídeo no YouTube e clique Editar> Legendas e CC. Selecione Adicionar legendas ou CC e escolha seu idioma.
  3. Escolher Enviar um arquivo, Selecione Transcrição, e escolha o seu .Arquivo TXT para upload.
  4. Depois que sua transcrição estiver carregada, clique Defina horários Para sincronizar sua transcrição com o vídeo e criar legendas fechadas.

Você também pode baixar o arquivo de transcrição posteriormente com os horários como um arquivo de legenda:

  1. Vá para o vídeo do qual você gostaria de baixar a transcrição. Clique no Mais ações botão (3 pontos horizontais). Dica: é&rsquo;está localizado ao lado do botão de compartilhamento.
  2. Selecione os Transcrição opção.
  3. Uma transcrição das legendas fechadas com os códigos de tempo gerará automaticamente.

Software ASR

Ícone de microfone no fundo amarelo

O reconhecimento automático de fala, também conhecido como ASR, é uma tecnologia que capta a fala humana e a converte em texto. Você pode fazer upload de sua mídia para o software ASR e ele transcreverá automaticamente o áudio para o texto. Este método ainda vem com muitos erros, mas&rsquo;é muito mais fácil e rápido para limpar uma transcrição imprecisa do que começar do zero.

Existem muitas opções para software de transcrição que são gratuitos ou disponíveis por um pequeno custo, como Scribe Express, Euscribe e Dragon naturalmente espancam.

documentos Google

O Google oferece um recurso incrível que permite que você transforme documentos em software de transcrição gratuito. Se você não for&rsquo;T tem uma conta do Gmail, você pode se inscrever para um gratuitamente. Se você tem uma conta existente, você já tem acesso a um recurso chamado documentos Google; Google Docs é uma ferramenta de processamento de texto que permite criar documentos de texto em seu navegador da web. Usando a digitação de voz, a transcrição de voz do Google pode criar transcrições de texto a partir de áudio. Como muitas das outras ferramentas de transcrição manual, haverá erros, portanto, limpe -o antes de usá -lo.

Siga estas etapas para criar sua transcrição:

  1. Usando qualquer navegador de sua escolha, vá para o site do Google Docs e Inicie um novo documento.
  2. Clique em Ferramentas e selecione Digitação de voz. Isso permitirá o reconhecimento de voz.
  3. Clique no Microfone ícone à esquerda para ativar Digitação de voz. O Google transcreverá qualquer coisa que está sendo dita para o documento do Word.

iOS/Android

Smartphone em Blob Pink

Outra maneira de transcrever o conteúdo de áudio é usando seu smartphone. Semelhante ao Google Docs, o microfone pegará em áudio e transcreve -o para o texto. A transcrição do seu smartphone tende a funcionar um pouco melhor do que o Google Docs, pois o microfone no seu telefone recebe menos ruído de fundo; No entanto, ainda não&rsquo;T compare com um microfone de alta qualidade. Gravar no seu smartphone venceu&rsquo;t Garantir uma alta taxa de precisão, para que você precise limpar a transcrição final.

Aqui estão instruções passo a passo sobre como transcrever áudio para texto com seu smartphone:

  1. Abra um aplicativo de processamento de palavras No seu smartphone.
  2. No teclado do seu smartphone, selecione o Microfone botão, e ele começará a gravar.
  3. Segure seu telefone perto do computador ou outro dispositivo e Reprodução do vídeo. Seu telefone vai transformar o áudio automaticamente em texto.

Pros vs. Contras das transcrições de bricolage

Prós

  • Mais amigável ao orçamento
  • Bom para conteúdo mais curto

Contras

  • Demorado para criar
  • Trabalho intensivo
  • Baixo nível de precisão

Serviços de transcrição

Outra opção para transcrever o conteúdo de áudio para o texto é usar um serviço de transcrição de terceiros. Se você&rsquo;estou procurando transcrições precisas de alta qualidade, este é definitivamente o caminho a seguir!

3Play Media oferece um Processo de transcrição em 3 etapas que usa tecnologia e transcriptionistas humanos, garantindo um 99.Taxa de precisão de 6%. Quando o arquivo de áudio consiste em conteúdo difícil, tem ruído de fundo ou contém detalhes, a taxa de precisão diminui. O ASR normalmente fornece precisão de 60 a 70%, portanto o uso de transcriptionists humanos distingue 3play de outras opções de transcrição.

Nossa tecnologia patenteada usa o ASR para produzir automaticamente uma transcrição aproximada, que é útil para criar horários precisos, mesmo que as palavras e a gramática estejam incorretas. Usando o software proprietário, nossos transcricionários passam e editam a transcrição. Todos os nossos transcriptionists passam por um rigoroso processo de certificação e têm uma forte compreensão da gramática inglesa, o que é importante para entender todas as nuances do seu conteúdo. Após o processo de edição, seu arquivo passa por uma revisão final chamada de garantia de qualidade. Seu arquivo é revisado por nossos principais editores, que garantem que sua transcrição seja praticamente perfeita.

Um recurso que também oferecemos é o 3Play Transcrição interativa. Esse recurso permite que os usuários interajam com o seu vídeo pesquisando o vídeo, navegando clicando em qualquer palavra e lendo junto com o áudio. Transcrições interativas tornam seu conteúdo mais acessível e melhore a experiência do usuário.

Pros vs. Contras de um serviço de transcrição

Prós

  • Alto nível de precisão
  • Mais confiável
  • Lida com grandes quantidades de conteúdo
  • Acesso a ferramentas exclusivas
  • Acesso a funcionários qualificados

Contras

  • Mais caro

Práticas recomendadas da transcrição

Agora que você tem uma melhor compreensão da transcrição manual versus um serviço de transcrição, você pode tomar uma decisão informada. Não importa qual opção você escolher, é&rsquo;é importante saber como aproveite ao máximo suas transcrições.

  • Gramática e pontuação: Certifique -se de que não há erros na sua transcrição para que seja fácil de ler.
  • Identificação do alto -falante: Use rótulos dos alto -falantes para identificar quem está falando, especialmente quando há vários alto -falantes.
  • Sons não de fala: Comunicar sons não de fala em transcrições. Estes são normalmente indicados com [colchetes quadrados].
  • Literalmente: Transcreva o conteúdo o mais próximo possível do literalmente. Deixe de fora palavras de preenchimento, como &ldquo;hum&rdquo; ou &ldquo;como&rdquo; A menos que eles&rsquo;estou intencionalmente incluído no áudio.

Quero aprender mais?

Descubra os benefícios da legenda e transcrição. Baixe o e -book

Este post foi publicado originalmente por Samantha Sauld em 30 de agosto de 2018 e foi atualizada desde então.

Transcreva o discurso para o texto usando o Google Cloud Console

Este Quickstart apresenta você ao console de fala para texto em nuvem. Neste QuickStart, você criará e refina uma transcrição e aprenderá a usar essa configuração com a API de fala para texto para seus próprios aplicativos.

Para aprender a enviar solicitações e receber respostas usando a API REST em vez do console, consulte a página antes de começar.

Antes de você começar

Antes de começar a usar o console de fala para texto, você deve ativar a API no console da plataforma do Google Cloud. As etapas abaixo o orientam nas seguintes ações:

  • Habilite a fala para texto em um projeto.
  • Verifique se o faturamento está ativado para o texto para o texto.

Configure seu projeto do Google Cloud

  1. Faça login no Google Cloud Console
  2. Vá para a página do seletor de projeto, você pode escolher um projeto existente ou criar um novo. Para mais detalhes sobre a criação de um projeto, consulte a documentação da plataforma do Google Cloud.
  3. Se você criar um novo projeto, você será solicitado a vincular uma conta de cobrança a este projeto. Se você estiver usando um projeto pré-existente, verifique se você tem cobrança ativada. Aprenda a confirmar que o faturamento está ativado para o seu projetoObservação: Você deve permitir que o faturamento use a API de fala para texto, no entanto, não será cobrado, a menos que exceda a cota gratuita. Veja a página de preços para obter mais detalhes.
  4. Depois de selecionar um projeto e vinculá-lo a uma conta de cobrança, você pode ativar a API de fala para texto. Vou ao Pesquisar produtos e recursos bar no topo da página e digite “discurso”.
  5. Selecione os API de fala para texto em nuvem Da lista de resultados.
  6. Para tentar o texto da fala sem vinculá-lo ao seu projeto, escolha o Experimente esta API opção. Para ativar a API de fala para texto para uso com seu projeto, clique HABILITAR.

Crie uma transcrição

Use o Google Cloud Console para criar uma nova transcrição:

Configuração de áudio

  1. Abra o Fala para texto visão geral. Captura de tela da página de visão geral de fala para texto
  2. Clique Crie transcrição.
    • Se esta é a sua primeira vez usando o console, você será solicitado a escolher onde no Cloud Storage para armazenar suas configurações e transcrições. Captura de tela da página de transcrição de fala para texto
  3. No Crie transcrição página, Carregue um arquivo de áudio de origem. Você pode escolher um arquivo que já está salvo no armazenamento em nuvem ou fazer upload de um novo para o seu destino de armazenamento em nuvem especificado.
  4. Selecione o arquivo de áudio carregado Tipo de codificação.
  5. Especificar seu taxa de amostragem.
  6. Clique Continuar. Você será levado para Opções de transcrição.

Opções de transcrição

Captura de tela da página de transcrição de fala para texto

  1. Selecione os Código do idioma do seu áudio de origem. Este é o idioma que está sendo falado na gravação.
  2. Escolha o Modelo de transcrição você gostaria de usar no arquivo. A opção padrão é pré-selecionada e, geralmente, não é necessária alteração, mas combinar o modelo com o tipo de áudio pode resultar em maior precisão. Observe que os custos do modelo variam.
  3. Clique Continuar. Você será levado para Adaptação de modelo.

Adaptação de modelo (opcional)

Se o seu áudio de origem contiver coisas como palavras raras, nomes adequados ou termos proprietários e você tiver problemas com reconhecimento, a adaptação do modelo pode ajudar.

Captura de tela da página de transcrição de fala para texto

  1. Verificar Ligue a adaptação do modelo.
  2. Escolher Recurso de adaptação única.
  3. Adicione relevante frases e dê a eles um valor de aumento.
  4. Na coluna esquerda, clique Enviar Para criar sua transcrição.

Revise sua transcrição

Dependendo do tamanho do seu arquivo de áudio, uma transcrição pode levar de minutos a horas para criar. Depois que sua transcrição for criada, ela está pronta para revisão. Classificar a tabela por timestamp pode ajudá -lo a localizar facilmente suas transcrições recentes.

  1. Clique no Nome da transcrição que você gostaria de revisar. Captura de tela da página de transcrição de fala para texto
  2. Compare o Transcrição texto para o arquivo de áudio Captura de tela da página de transcrição de fala para texto
  3. Se você gostaria de fazer alterações, clique Reutilizar configuração. Isso o levará ao Crie transcrição fluir com as mesmas opções pré-selecionadas, permitindo alterar algumas coisas, criar uma nova transcrição e comparar os resultados.

Qual é o próximo

  • Prática transcrevendo arquivos de áudio curtos.
  • Aprenda a lotar arquivos de áudio longos para reconhecimento de fala.
  • Aprenda a transcrever o streaming de áudio como de um microfone.
  • Comece com a fala para texto em seu idioma de escolha usando uma biblioteca de fala para texto.
  • Trabalhe através dos aplicativos de amostra.
  • Para melhor desempenho, precisão e outras dicas, consulte a documentação das melhores práticas.

Enviar comentários

Exceto quando observado de outra forma, o conteúdo desta página é licenciado sob a atribuição Creative Commons 4.0 licença e amostras de código são licenciadas sob o Apache 2.0 licença. Para detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou de suas afiliadas.

Última atualização 2023-05-16 UTC.