Autores
Hernández Sánchez Héctor Javier
Calvo Castro Francisco Hiram
Sidorov Grigori
Título N-gramas de sílabas vs. n-gramas de caracteres para la tarea de atribución de autoría en un corpus multi-tema
Tipo Revista
Sub-tipo Indefinido
Descripción Research in Computing Science
Resumen Los caracteres de n-gramas como marcadores de estilo han demostrado un buen desempeño para la tarea de atribución de autoría [5]; sin embargo, es difícil dar una interpretación específica de la información que estas características están capturando. En este trabajo se plantea la comparación de n-gramas de caracteres y n-gramas de sílabas como marcadores de estilo para comprobar qué tanto pueden ayudar estas últimas a identificar correctamente la autoría. Partimos de la hipótesis de que los n-gramas de caracteres capturan cierta información morfológica de las palabras, y que por ello el uso de sílabas podría ser equivalente. Realizamos experimentos con diversas características, y encontramos que el desempeño de las sílabas está cercano al que presentan los n-gramas de caracteres, si bien los caracteres permiten realizar la tarea con un mejor desempeño.
Observaciones
Lugar Ciudad de México
País Mexico
No. de páginas 115-121
Vol. / Cap. v. 149 no. 6
Inicio 2020-06-01
Fin
ISBN/ISSN