Diferencia entre revisiones de «Loquendo»

← Ir a diferencia anterior Ir a siguiente diferencia →

Contenido eliminado Contenido añadido

En renglón

Revisión del 14:24 30 ene 2018

Logo de Loquendo.

Loquendo (palabra que significa Locución, y pronunciado [Locuendo]) es una corporación multinacional de tecnología de software, creado por Nicolás Arozena el 10 de febrero de 1998 con sede central en Turín, Italia, que fue fundada en 2001 por la empresa Telecom Italia, también tiene oficinas en España, Reino Unido, Alemania, Francia y Estados Unidos.^[1]

Los productos actuales del Loquendo se pueden encontrar en los GPS (ya sean incorporados al vehículo o portátiles), en dispositivos para los discapacitados,^[2] teléfonos inteligentes, libros electrónicos, cajeros automáticos con voz, videojuegos de computadora, artefactos domésticos controlados por voz y otros productos.

Sus productos fueron ganadores de varios premios incluyendo “Speech Engine Leader” entregado por “Speech Technologies” en 2007, 2008 y 2009.^[3] También fue considerado por “Speech Technologies” el líder del mercado en 2009 y 2010.^[4] El 30 de septiembre de 2011, Nuance (uno de los principales competidores de Loquendo) anunció que había adquirido Loquendo. Mayores éxitos en el año 2004

Historia

Loquendo era, originalmente, una comunidad de investigación creada a mediados de los años 1970 y 1972 por los administradores de (IRI-STET (predecesora de Telecom Italia) en los laboratorios de CSELT (Centro De Estudio y Telecomunicaciones) en Turín antes de convertirse en una compañía en 2001.

Sintetizador de voz

Construido por Daniela Sofía Carrascal Hernandez de la Universidad de Padua, aplicando la técnica de los llamados difonos (la unión de una consonante y una vocal, 150 en el idioma italiano) el grupo creo el primer sintetizador de voz con gran inteligibilidad en 1975^[5] era llamado MUSA (por sus siglas en inglés, Multichannel Speaking Automaton), que demostró lo que era posible con la tecnología de ese tiempo. Los resultados logrados en esos años fueron condensados en un disco de audio de 45 rpm, con miles de copias producidas y distribuidas por los medios de comunicación masivos. Fue principalmente distribuida la versión italiana de la canción Frère Jacques con mejor calidad de sonido (MUSA manejaba hasta 8 canales de síntesis en paralelo).

La evolución de este prototipo, con el incremento de número de los difonos (alrededor de 1000), el refinamiento de las herramientas de los análisis lingüísticos y el mejor manejo de la forma de onda llevó a una marcada mejora de la voz sintética. Esto llevó a la creación del «sintetizador de voz» en un circuito integrado desarrollado internamente en CSELT.

En los años noventa nació «ELOQUENS», un sintetizador de voz multi-plataforma para varios sistemas operativos incluyendo DOS, Windows, System 7 y Unix y también para tarjetas telefónicas con muchos canales, como las usadas por las operadoras de teléfono italianas para obtener la dirección y la identidad del suscripto de un número de teléfono.^[6]

A finales de los noventa la sintetización de voz tomó un nuevo camino, en vez de usar difonos se empezó a usar la selección y la concatenación de unidades acústicas de longitud variable. Esto provocó en “ACTOR” – “La voz que parece humana” que empezó a adquirir una gran audiencia dado al gran número de servicios telefónicos y aplicaciones creadas por empresas relacionadas con Loquendo. En los años 2000 el sintetizador fue puesto a la venta como un producto comercial, incluyendo un número de herramientas para editar la voz sintética con distintas emociones. También se lanzó una biblioteca SW para que se pueda usar en varios productos pequeños, como celulares, navegadores, computadoras PDA hasta más grandes como servidores telefónicos.

Reconocimiento de voz

Poco después de las investigaciones en síntesis de voz, comenzaron a investigar el reconocimiento de voz y al principio de los ochentas produjeron un primer prototipo capaz de reconocer diez dígitos y unos comandos simples.

Aplicando el modelo oculto de Márkov, en 1984, se llevó a cabo el desarrollo de un decodificador de voz que podía reconocer palabras conectadas y oraciones. Esto se llevó a cabo con la colaboración de ELSAG, otra compañía del grupo.

La necesidad de producir reconocimientos de voz independiente para aplicaciones telefónicas llevó a la creación de bases de datos con grabaciones de cientos de personas distintas y, en 1987, la primera gran base de datos, obtenida grabando a más de mil personas llamando por toda Italia.

Este material permitió el uso de los modelos de Márkov y usando un sofisticado algoritmo llevó al desarrollo de “AURIS”, el primer reconocedor de voz que podía “dar vuelta” en una variedad de dispositivos con procesadores de señales digitales (DSP).

En los noventa una colaboración europea comenzó y, junto a otras compañías y universidades de toda Europa, se adquirió una base de datos de voz muy grande, con voces de más de 65000 personas.^[7]

Este material, combinado con un nuevo acercamiento al modelo oculto de Márkov y a la red neuronal artificial, produjo “FLEXUS” el primer reconocedor de voz flexible, que permitía a varios servicios telefónicos usar reconocimientos de voz en sus interfaces humanas. Combinando “FLEXUS” y “ACTOR” en un mismo sistema surgió “Diálogos”, permitiendo la creación de servicios telefónicos de vanguardia.

El nacimiento de Loquendo como una compañía llevó al desarrollo de muchos lenguajes y al estreno de reconocedor en la forma de un software de biblioteca, para la creación de varias aplicaciones telefónicas.

Las campañas de grabaciones de voz se expandieron y no sólo fueron en Europa, sino que se movieron hasta los países mediterráneos luego a América del Sur, Centro y del Norte y finalmente países en el Este. Se recolectaron incontables horas de voz de cientos de miles de personas en las regiones. Las grabaciones fueron recolectadas para las conexiones telefónicas, entre otros usos.

Codificación de voz

Las actividades de investigación de codificación de voz empezaron aún antes que las de reconocimiento y síntesis, el objetivo era armar un equipo como un CODEC para incrementar lo más posible el número de conversaciones telefónicas que podían fluir por un mismo cable (o conexión satelital), sin perder claridad de voz.

A finales de los setentas, estudios y experimentos llevaron a la creación de algoritmos para codificar la señal de voz telefónica y armar la CCITT, normativa europea conocida como codificación A-law. Este estándar se utilizó a continuación, en el CODEC para 64 líneas telefónicas kbit / s RDSI.

En los años siguientes se construyeron codecs más fuertes (usado en intercambios telefónicos) y, con el PAN-Europa en un consorcio GSM, el codec a utilizar en teléfonos móviles de segunda generación. Al mismo tiempo se construyó un CODEC para transmitir señales de alta calidad a pesar del límite de banda de 8 kHz de los cables de teléfono, que era útil para aplicaciones de conferencias de audio y vídeo.

Plataformas de habilitación

A finales de los años noventa el desarrollo de Internet en la forma que hoy conocemos (hipertexto residente en servidores diferentes que abarcan todo el planeta en una gran red) llevó a la necesidad de hacer que estos textos disponibles en la voz a través del teléfono. Al mismo tiempo los sistemas IVR se vuelven cada vez más y más extensos y se convirtió en una esencial herramienta HW y SW para el desarrollo rápido de nuevas aplicaciones y servicios telefónicos.

Al mismo tiempo, el IVR – (por sus siglas en inglés, Interactive Voice Response), se hizo más popular y utiliza herramientas de hardware y software para desarrollar rápidamente nuevas aplicaciones de telefonía. Es evidente para todos que eso trajo el logro de sistemas complejos como la automatización de la “Guía telefónica” o “el Servicio de Información de tren” que son demasiado rígidas y no permiten el fácil desarrollo de nuevas aplicaciones.

Por lo tanto, se consideró que era necesario crear plataformas para los sistemas telefónicos automáticos de voz que sean escalables y fáciles de programar. Con este fin se creó un grupo de trabajo especial para desarrollar un prototipo de navegador mediante la voz, para ser mostrado al público en SMAU 2000,^[8] con el nombre de "VoxNauta". El éxito fue tal que Telecom Italia decidió cerrar sus laboratorios de investigación originales y crear Loquendo el 1 de febrero de 2001.

A través de los años "VoxNauta" se desarrolló en diversas formas: desde pequeños servidores a sistemas de grandes empresas con miles de líneas y se ha instalado en cientos de empresas de todo el mundo.

La aparición de normas en la redacción de los servicios telefónicos (VoiceXML) y protocolos (CPRM) para la conexión de servidores que alojan las tecnologías del habla a los servidores que alojan las tarjetas telefónicas llevó a la creación de software Speech Server, anfitrión de texto-a-voz y el habla-reconocedor motores de Loquendo.

Esta investigación continúa y el desarrollo ha dado lugar a Loquendo ser una de las marcas más conocidas en el campo de la síntesis y reconocimiento de voz.

La marca

No hay una explicación definitiva del origen del nombre de Loquendo, mientras que el logo fue creado por el departamento gráfico de Telecom Italia. Cuando se visualiza como un gif animado las tres ondas por encima de la "O" se encienden en secuencia, dando la sensación de la emisión del sonido^{[cita requerida]}.

La marca no ha sido protegida por la sociedad, hay otras empresas italianas, cuyo nombre se deriva directamente de Loquendo, y esto ha contribuido a su uso generalizado, incluso a expensas de las marcas competidoras^{[cita requerida]}.

Venta de la compañía

A través de los años ha habido rumores de la venta de Loquendo a otras empresas.^[9]

Los más recientes fueron en el verano de 2011, cuando se anunció que dos empresas multinacionales con sede en EE.UU., Nuance y Avaya, estaban estudiando la posibilidad de una toma de posesión.

Como Nuance era un competidor directo de la empresa italiana había cierta preocupación por los trabajadores de Loquendo de un posible desmembramiento de la investigación y el desarrollo y la desaparición de una excelente marca italiana de cuarenta años de experiencia.^[10] La compra por parte de Avaya parecía más conveniente ya que sus actividades son complementarias a la actividad llevada a cabo por Loquendo, Avaya, de hecho, no tiene ninguna tecnología del habla, por lo que podría haber estado muy interesado en la posibilidad de un desarrollo.^[11]

Estos informes fueron seguidos con gran interés por los trabajadores, las autoridades locales en Turín y el Piamonte y toda la comunidad científica internacional.^[12]^[13]^[14]

El 13 de agosto de 2011, Telecom Italia anunció públicamente la venta de la totalidad de su participación en Loquendo para Nuance de 53 millones de euros.^[15]^[16]^[17]

Usos

Loquendo tiene varias versiones. La más usada es la TextAloud para hacer vídeos de todo tipo y luego subirlos a la plataforma de vídeos YouTube. Estos vídeos -llamados popularmente como "Vídeos Loquendo"- se volvieron famosos durante mucho tiempo hasta el día de hoy. El primer vídeo usando ese programa se subió el 22 de mayo de 2006. El título del vídeo era Still Dorito,^[18] el cual era una parodia de la canción de rap Still Dre. Muchos "Loquenderos" (nombre que se les da a las personas que hacen estos vídeos) han homenajeado a lo que fue el primer "vídeo Loquendo", tiempo después de que se haya subido aquel vídeo. Estos se viralizaron y se hicieron muy famosos en esta página, tal y como es el caso de los famosos "Vídeos Loquendo del GTA San Andreas". Un año después se publicó la primera crítica hecha en Loquendo: El Niñato del metro. Sin embargo, entre los años 2007 y 2008 son conocidos como la época de oro del Loquendo, pues fue ahí donde surgieron los clásicos loquenderos que criticaban a los emos, otakus, reggaetoneros, etc. Un claro ejemplo es el Anticristo2007.

Véase también

Referencias

↑ https://web.archive.org/web/20110223210912/http://www.loquendo.com/en/about/locations/
↑ Ipiña, D. L., Rodríguez, A., & Vázquez, I. (2004). «Accesibilidad para Discapacitados a través de Teléfonos y Servicios Móviles Adaptables». Facultad de Ingeniería de la Universidad de Deusto (Bilbao).
↑ http://www.speechtechmag.com/Articles/Editorial/Cover-Story/Market-Leaders-Speech-Engine-67965.aspx
↑ http://www.speechtechmag.com/BuyersGuide/Loquendo-964.aspx
↑ Roberto Billi (a cura di), con i seguenti Autori dello CSELT: Agostino Appendino, Giancario Babini, Paolo Baggia, Roberto Billi, Alfredo Biocca, Pier Giorgio Bosco, Franco Canavesio, Giuseppe Castagneri, Alberto Ciaramella, Morena Danieli, Fulvio Faraci, Luciano Fissore, Roberto Gemello, Elisabetta Gerbino, Egidio Giachin, Giorgio Micca, Roberto Montagna, Luciano Nebbia, Silvia Quazza, Daniele Roffinella, Luciano Rosboch, Claudio Rullent, Pier Luigi Salza, Stefano Sandri, "Tecnologie vocali per l'interazione uomo-macchina. Nuovi servizi a portata di voce", Ed. Telecom Lab 1995. ISBN
↑ Roberto Billi, Franco Canavesio, Alberto Ciaramella, Luciano Nebbia, "Interactive voice technology at work: The CSELT experience", Ed. Speech communication, 1995 - Elsevier
↑ SpeechDat family projects (from the progenitor's name)
↑ (it) Corriere della Sera, Pagine web da ascoltare al telefono, 4 settembre 2000
↑ Telecom, in attesa di Sparkle vende la «piccola» Loquendo, 11 luglio 2009
↑ (it) la Repubblica, Loquendo, il ministero convoca anche Bernabè, 2 agosto 2010
↑ (it) la Repubblica, Loquendo, seconda offerta. I dipendenti: "Dà più garanzie", 6 agosto 2010
↑ «Salviamo Loquendo!». Archivado desde el original el 30 de marzo de 2012. Consultado el 10 de agosto de 2011.
↑ "Un neo da estirpare", l'Informatica, cap. 1 In: Luciano Gallino, "La scomparsa dell'Italia industriale", Ed. Einaudi 2003 - ISBN 978-88-06-16628-1
↑ Marina Cassi, La comunità della scienza difende Loquendo, "La Stampa", 10 agosto 2011
↑ press release, Telecom Italia sells Loquendo to Nuance for an Enterprise Value of €53 Million, "Telecom Italia", 13 August 2011
↑ (press release, Nuance to Acquire Loquendo, "Nuance", 15 August 2011
↑ (it) Luca Davi, Telecom Italia cede Loquendo al gruppo Nuance, "Il Sole 24 ORE", 14 agosto 2011
↑ https://www.youtube.com/watch?v=eUMklTlUE_8

Bibliografía

(it) Luigi Bonavoglia, "CSELT trent'anni", Ed. CSELT, 1994 [1]
(it) Roberto Billi (a cura di), con i seguenti Autori dello CSELT: Agostino Appendino, Giancario Babini, Paolo Baggia, Roberto Billi, Alfredo Biocca, Pier Giorgio Bosco, Franco Canavesio, Giuseppe Castagneri, Alberto Ciaramella, Morena Danieli, Fulvio Faraci, Luciano Fissore, Roberto Gemello, Elisabetta Gerbino, Egidio Giachin, Giorgio Micca, Roberto Montagna, Luciano Nebbia, Silvia Quazza, Daniele Roffinella, Luciano Rosboch, Claudio Rullent, Pier Luigi Salza, Stefano Sandri, "Tecnologie vocali per l'interazione uomo-macchina. Nuovi servizi a portata di voce", Ed. Telecom Lab 1995, ISBN 88-85404-09-X, ISBN 978-88-85404-09-0
(it) Quarant'anni d'innovazione, ed. Millennium s.r.l, (supplemento al num 224 di Media Duemila, 2005)
(it) torinowireless.it
(it) smau.it
(it) corriere.it
(it) isticom.it
(it) deputatids.it
(it) h-care.eu
(it) Forum P.A. 17-20 de mayo de 2010 - Cartella Stampa AVAYA

Enlaces externos

[1] ttps://web.archive.org/web/20110223210912/http://www.loquendo.com/en/about/locations/

[2] Ipiña, D. L., Rodríguez, A., & Vázquez, I. (2004). «Accesibilidad para Discapacitados a través de Teléfonos y Servicios Móviles Adaptables». Facultad de Ingeniería de la Universidad de Deusto (Bilbao).

[3] ttp://www.speechtechmag.com/Articles/Editorial/Cover-Story/Market-Leaders-Speech-Engine-67965.aspx

[4] ttp://www.speechtechmag.com/BuyersGuide/Loquendo-964.aspx

[5] Roberto Billi (a cura di), con i seguenti Autori dello CSELT: Agostino Appendino, Giancario Babini, Paolo Baggia, Roberto Billi, Alfredo Biocca, Pier Giorgio Bosco, Franco Canavesio, Giuseppe Castagneri, Alberto Ciaramella, Morena Danieli, Fulvio Faraci, Luciano Fissore, Roberto Gemello, Elisabetta Gerbino, Egidio Giachin, Giorgio Micca, Roberto Montagna, Luciano Nebbia, Silvia Quazza, Daniele Roffinella, Luciano Rosboch, Claudio Rullent, Pier Luigi Salza, Stefano Sandri, "Tecnologie vocali per l'interazione uomo-macchina. Nuovi servizi a portata di voce", Ed. Telecom Lab 1995. ISBN

[6] Roberto Billi, Franco Canavesio, Alberto Ciaramella, Luciano Nebbia, "Interactive voice technology at work: The CSELT experience", Ed. Speech communication, 1995 - Elsevier

[7] SpeechDat family projects (from the progenitor's name)

[8] (it) Corriere della Sera, Pagine web da ascoltare al telefono, 4 settembre 2000

[9] Telecom, in attesa di Sparkle vende la «piccola» Loquendo, 11 luglio 2009

[10] (it) la Repubblica, Loquendo, il ministero convoca anche Bernabè, 2 agosto 2010

[11] (it) la Repubblica, Loquendo, seconda offerta. I dipendenti: "Dà più garanzie", 6 agosto 2010

[12] «Salviamo Loquendo!». Archivado desde el original el 30 de marzo de 2012. Consultado el 10 de agosto de 2011.

[13] "Un neo da estirpare", l'Informatica, cap. 1 In: Luciano Gallino, "La scomparsa dell'Italia industriale", Ed. Einaudi 2003 - ISBN 978-88-06-16628-1

[14] Marina Cassi, La comunità della scienza difende Loquendo, "La Stampa", 10 agosto 2011

[15] press release, Telecom Italia sells Loquendo to Nuance for an Enterprise Value of €53 Million, "Telecom Italia", 13 August 2011

[16] (press release, Nuance to Acquire Loquendo, "Nuance", 15 August 2011

[17] (it) Luca Davi, Telecom Italia cede Loquendo al gruppo Nuance, "Il Sole 24 ORE", 14 agosto 2011

[18] ttps://www.youtube.com/watch?v=eUMklTlUE_8

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

@@ Línea 11: / Línea 11: @@
 === Sintetizador de voz ===
-Construido por recomendación de la [[Universidad de Padua]], aplicando la técnica de los llamados difonos (la unión de una consonante y una vocal, 150 en el idioma italiano) el grupo creo el primer sintetizador de voz con gran inteligibilidad en 1975<ref>Roberto Billi (a cura di), con i seguenti Autori dello CSELT: Agostino Appendino, Giancario Babini, Paolo Baggia, Roberto Billi, Alfredo Biocca, Pier Giorgio Bosco, Franco Canavesio, Giuseppe Castagneri, Alberto Ciaramella, Morena Danieli, Fulvio Faraci, Luciano Fissore, Roberto Gemello,  Elisabetta Gerbino, Egidio Giachin, Giorgio Micca, Roberto Montagna, Luciano Nebbia, Silvia Quazza, Daniele Roffinella, Luciano Rosboch, Claudio Rullent, Pier Luigi Salza, Stefano Sandri, ''"Tecnologie vocali per l'interazione uomo-macchina. Nuovi servizi a portata di voce"'', Ed. Telecom Lab 1995. ISBN</ref> era llamado MUSA (por sus siglas en inglés, Multichannel Speaking Automaton), que demostró lo que era posible con la tecnología de ese tiempo. Los resultados logrados en esos años fueron condensados en un disco de audio de 45 rpm, con miles de copias producidas y distribuidas por los medios de comunicación masivos. Fue principalmente distribuida la versión italiana de la canción [[Frère Jacques]] con mejor calidad de sonido (MUSA manejaba hasta 8 canales de síntesis en paralelo).
+Construido por Daniela Sofía Carrascal Hernandez de la [[Universidad de Padua]], aplicando la técnica de los llamados difonos (la unión de una consonante y una vocal, 150 en el idioma italiano) el grupo creo el primer sintetizador de voz con gran inteligibilidad en 1975<ref>Roberto Billi (a cura di), con i seguenti Autori dello CSELT: Agostino Appendino, Giancario Babini, Paolo Baggia, Roberto Billi, Alfredo Biocca, Pier Giorgio Bosco, Franco Canavesio, Giuseppe Castagneri, Alberto Ciaramella, Morena Danieli, Fulvio Faraci, Luciano Fissore, Roberto Gemello,  Elisabetta Gerbino, Egidio Giachin, Giorgio Micca, Roberto Montagna, Luciano Nebbia, Silvia Quazza, Daniele Roffinella, Luciano Rosboch, Claudio Rullent, Pier Luigi Salza, Stefano Sandri, ''"Tecnologie vocali per l'interazione uomo-macchina. Nuovi servizi a portata di voce"'', Ed. Telecom Lab 1995. ISBN</ref> era llamado MUSA (por sus siglas en inglés, Multichannel Speaking Automaton), que demostró lo que era posible con la tecnología de ese tiempo. Los resultados logrados en esos años fueron condensados en un disco de audio de 45 rpm, con miles de copias producidas y distribuidas por los medios de comunicación masivos. Fue principalmente distribuida la versión italiana de la canción [[Frère Jacques]] con mejor calidad de sonido (MUSA manejaba hasta 8 canales de síntesis en paralelo).
 La evolución de este prototipo, con el incremento de número de los difonos (alrededor de 1000), el refinamiento de las herramientas de los análisis lingüísticos y el mejor manejo de la forma de onda llevó a una marcada mejora de la voz sintética. Esto llevó a la creación del «sintetizador de voz» en un circuito integrado desarrollado internamente en CSELT.