{"id":2801,"date":"2020-12-06T13:21:16","date_gmt":"2020-12-06T12:21:16","guid":{"rendered":"https:\/\/aholab.ehu.eus\/aholab\/?p=2801"},"modified":"2021-05-04T17:01:06","modified_gmt":"2021-05-04T15:01:06","slug":"restauracion-de-la-frecuencia-fundamental-mediante-aprendizaje-profundo","status":"publish","type":"post","link":"https:\/\/aholab.ehu.eus\/aholab\/restauracion-de-la-frecuencia-fundamental-mediante-aprendizaje-profundo\/","title":{"rendered":"Restauraci\u00f3n de la frecuencia fundamental mediante aprendizaje profundo"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Uno de los mayores problemas en la producci\u00f3n de voz esof\u00e1gica en pacientes laringectomizados es la falta de pitch o frecuencia fundamental que produce se\u00f1ales poco naturales. Aplicando t\u00e9cnicas de conversi\u00f3n de voz se puede mejorar la calidad de sus voces [1][2], pero la ausencia de frecuencia fundamental es un problema que persiste en las se\u00f1ales convertidas limitando su calidad. Las redes generativas antag\u00f3nicas (Generative Adversarial Networks, GANs) han sido aplicadas con \u00e9xito en la conversi\u00f3n de voz susurrada (carente de frecuencia fundamental) a voz sonora [3]. En este trabajo se propone explorar estas t\u00e9cnicas basadas en aprendizaje profundo para restaurar la frecuencia fundamental en se\u00f1ales sonoras a las que se les habr\u00e1 eliminado previamente la informaci\u00f3n de frecuencia fundamental, como primer paso para obtener un sistema de restauraci\u00f3n de pitch v\u00e1lido para pacientes laringectomizados. Para ello, se propone aplicar la arquitectura disponible en [4].<br><br>Para la realizaci\u00f3n del trabajo se requieren conocimientos de programaci\u00f3n, principalmente Python y scripts de Shell de Unix.<br><br>Directoras: Inma Hern\u00e1ez (inma.hernaez@ehu.eus) y Eva Navas (eva.navas@ehu.eus)<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">[1] Doi, H., Nakamura, K., Toda, T., Saruwatari, H., &amp; Shikano, K. (2010). Esophageal speech enhancement based on statistical voice conversion with Gaussian mixture models. IEICE TRANSACTIONS on Information and Systems, 93(9), 2472-2482.<br>[2] Serrano, L., Tavarez, D., Sarasola, X., Raman, S., Saratxaga, I., Navas, E., &amp; Hernaez, I. (2018). LSTM based voice conversion for laryngectomees. In IberSPEECH (pp. 122-126).<br>[3] Pascual, S., Bonafonte, A., Serr\u00e0, J., &amp; Gonzalez, J. A. (2018). Whispered-to-voiced alaryngeal speech conversion with generative adversarial networks. arXiv preprint arXiv:1808.10687.&nbsp;<a href=\"https:\/\/arxiv.org\/pdf\/1808.10687.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/arxiv.org\/pdf\/1808.10687.pdf<\/a><br>[4]&nbsp;<a href=\"https:\/\/github.com\/santi-pdp\/segan_pytorch\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/github.com\/santi-pdp\/segan_pytorch<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Uno de los mayores problemas en la producci\u00f3n de voz esof\u00e1gica en pacientes laringectomizados es la falta de pitch o frecuencia fundamental que produce se\u00f1ales poco naturales. Aplicando t\u00e9cnicas de conversi\u00f3n de voz se puede mejorar la calidad de sus voces [1][2], pero la ausencia de frecuencia fundamental es un problema que persiste en las&#8230;<\/p>\n","protected":false},"author":3,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_es_post_content":"","_es_post_name":"","_es_post_excerpt":"","_es_post_title":"","_eu_post_content":"","_eu_post_name":"","_eu_post_excerpt":"","_eu_post_title":"","_en_post_content":"<!-- wp:paragraph -->\n<p>Uno de los mayores problemas en la producci\u00f3n de voz esof\u00e1gica en pacientes laringectomizados es la falta de pitch o frecuencia fundamental que produce se\u00f1ales poco naturales. Aplicando t\u00e9cnicas de conversi\u00f3n de voz se puede mejorar la calidad de sus voces [1][2], pero la ausencia de frecuencia fundamental es un problema que persiste en las se\u00f1ales convertidas limitando su calidad. Las redes generativas antag\u00f3nicas (Generative Adversarial Networks, GANs) han sido aplicadas con \u00e9xito en la conversi\u00f3n de voz susurrada (carente de frecuencia fundamental) a voz sonora [3]. En este trabajo se propone explorar estas t\u00e9cnicas basadas en aprendizaje profundo para restaurar la frecuencia fundamental en se\u00f1ales sonoras a las que se les habr\u00e1 eliminado previamente la informaci\u00f3n de frecuencia fundamental, como primer paso para obtener un sistema de restauraci\u00f3n de pitch v\u00e1lido para pacientes laringectomizados. Para ello, se propone aplicar la arquitectura disponible en [4].<br><br>Para la realizaci\u00f3n del trabajo se requieren conocimientos de programaci\u00f3n, principalmente Python y scripts de Shell de Unix.<br><br>Directoras: Inma Hern\u00e1ez (inma.hernaez@ehu.eus) y Eva Navas (eva.navas@ehu.eus)<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>[1] Doi, H., Nakamura, K., Toda, T., Saruwatari, H., &amp; Shikano, K. (2010). Esophageal speech enhancement based on statistical voice conversion with Gaussian mixture models. IEICE TRANSACTIONS on Information and Systems, 93(9), 2472-2482.<br>[2] Serrano, L., Tavarez, D., Sarasola, X., Raman, S., Saratxaga, I., Navas, E., &amp; Hernaez, I. (2018). LSTM based voice conversion for laryngectomees. In IberSPEECH (pp. 122-126).<br>[3] Pascual, S., Bonafonte, A., Serr\u00e0, J., &amp; Gonzalez, J. A. (2018). Whispered-to-voiced alaryngeal speech conversion with generative adversarial networks. arXiv preprint arXiv:1808.10687.&nbsp;<a href=\"https:\/\/arxiv.org\/pdf\/1808.10687.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/arxiv.org\/pdf\/1808.10687.pdf<\/a><br>[4]&nbsp;<a href=\"https:\/\/github.com\/santi-pdp\/segan_pytorch\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/github.com\/santi-pdp\/segan_pytorch<\/a><\/p>\n<!-- \/wp:paragraph -->","_en_post_name":"restauracion-de-la-frecuencia-fundamental-mediante-aprendizaje-profundo","_en_post_excerpt":"","_en_post_title":"Restauraci\u00f3n de la frecuencia fundamental mediante aprendizaje profundo","edit_language":"en","footnotes":""},"categories":[228],"tags":[],"class_list":["post-2801","post","type-post","status-publish","format-standard","hentry","category-master-thesis-finished-positions"],"_links":{"self":[{"href":"https:\/\/aholab.ehu.eus\/aholab\/wp-json\/wp\/v2\/posts\/2801","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/aholab.ehu.eus\/aholab\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/aholab.ehu.eus\/aholab\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/aholab.ehu.eus\/aholab\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/aholab.ehu.eus\/aholab\/wp-json\/wp\/v2\/comments?post=2801"}],"version-history":[{"count":1,"href":"https:\/\/aholab.ehu.eus\/aholab\/wp-json\/wp\/v2\/posts\/2801\/revisions"}],"predecessor-version":[{"id":2802,"href":"https:\/\/aholab.ehu.eus\/aholab\/wp-json\/wp\/v2\/posts\/2801\/revisions\/2802"}],"wp:attachment":[{"href":"https:\/\/aholab.ehu.eus\/aholab\/wp-json\/wp\/v2\/media?parent=2801"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/aholab.ehu.eus\/aholab\/wp-json\/wp\/v2\/categories?post=2801"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/aholab.ehu.eus\/aholab\/wp-json\/wp\/v2\/tags?post=2801"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}