miércoles, 7 de enero de 2015

Plagios, genomas y alineación de textos

Por Martín Bonfil Olivera
Dirección General de Divulgación de la Ciencia, UNAM
Publicado en Milenio Diario, 7 de enero  de 2015

El paludismo o malaria es una enfermedad causada por un parásito microscópico que entra al cuerpo humano cuando lo pica el mosquito Anopheles. Es un grave problema mundial de salud: causa más de medio millón de muertes anuales (en comparación, el sida mata a millón y medio de personas anualmente; la epidemia de Ébola del año pasado ha ocasionado casi 8 mil 200 muertes).

En su edición de esta semana, la revista científica Science publica un artículo (dado a conocer online a fines de noviembre) que analiza los genomas de 16 especies de mosquitos Anopheles de África, Asia, Europa y Latinoamérica para tratar de detectar qué factores genéticos les han permitido adaptarse tan bien como transmisores del paludismo.

Pero no es esa noticia la que quiero comentar, sino otra dada a conocer por Milenio Diario el pasado lunes 5. Un estudiante de la Maestría en Ciencias de la Computación del Centro de Investigación en Computación del Instituto Politécnico Nacional (CIC-IPN), Miguel Ángel Sánchez Pérez, ganó el primer lugar en el importante concurso internacional del 11th Evaluation Lab on Uncovering Plagiarism, Authorship and Social Software Misuse (11avo. Laboratorio de evaluación para descubrir plagio y mal uso de derechos de autor y software social, al que por alguna razón se conoce como “PAN”), en la categoría de “alineación de textos”. El triunfo no es trivial, pues se impuso a concursantes “de países como Chile, Ucrania, Estados Unidos, España, Alemania, China y Reino Unido”, según la nota.

La tesis de Sánchez Pérez, asesorada por los investigadores Alexander Gelbukh y Grigori Sidorov, del CIC –trabajo que por cierto ya había ganado el segundo lugar nacional en el Concurso de Mejor Tesis en Inteligencia Artificial de la Sociedad Mexicana de Inteligencia Artificial (SMIA)– consiste en un algoritmo de cómputo que permite detectar plagios al analizar un texto y compararlo con otros, para detectar similitudes (en el concurso PAN, el reto era comparar cinco mil pares de documentos, que podían o no contener plagios). Parece sencillo, pero en realidad es un problema muy complejo.

En primer lugar se necesita un gran poder de cómputo para comparar rápidamente los textos. En segundo, no basta con simplemente tomar fragmentos, alinearlos y ver si coinciden letra por letra con algún fragmento de otro texto (lo cual en sí ya es un problema, pues dependiendo del tamaño de los fragmentos, cambia la respuesta de si se trata o no de un plagio). Muchas veces el plagiario cambia, añade o elimina algunas palabras, lo cual hace que detectar los fragmentos plagiados sea mucho más difícil. (De hecho, en Sánchez Pérez explica que en un futuro quisiera ampliar su sistema para hacerlo capaz de detectar paráfrasis, es decir, casos en que el plagiario use sinónimos o cambie la estructura de las oraciones para disfrazar su plagio.)

A estas alturas ya tendrá usted claro que, en estos tiempos de internet y de copiar y pegar, es importantísimo contar con herramientas como ésta para detectar los plagios que cometen los estudiantes cuando entregan trabajos en la escuela (un problema que padecemos todos los profesores). Pero el plagio también es un problema grave en el mundo de la cie
ncia, donde la cantidad de artículos científicos plagiados que son presentados para su publicación como originales por científicos deshonestos ha crecido enormemente. Y no se diga de otras áreas, como la literatura, con algunos sonados escándalos recientes, y la política, donde, por ejemplo, dos altos funcionarios del gobierno de Angela Merkel en Alemania tuvieron que presentar sus renuncias hace unos años, al comprobarse que sus tesis doctorales (de 1980 y 2006) contenían plagios (no quiero imaginar qué pasaría si se aplicara el método a los políticos mexicanos).

Por supuesto, ya existen sistemas como éste, muchos disponibles en internet. Pero la mayoría cobran. Por eso es importante que, a diferencia incluso de otros concursantes, el algoritmo de Sánchez Pérez está disponible al público en internet, bajo el esquema de código abierto, por lo que puede no sólo ser usado, sino incluso mejorado por otros investigadores.

Alineamiento y comparación
de secuencias genéticas
por computadora
Bueno, ¿y el paludismo? Pues resulta que las técnicas computacionales que se usan en la detección de plagios son básicamente las mismas que se usan para buscar similitudes entre los genomas de distintas especies (como los mosquitos de la investigación que mencioné). Todos los actuales estudios de genómica se basan en comparar secuencias genéticas, lo cual requiere alinear textos y determinar su grado de semejanza. Estos métodos bioinformáticos permiten determinar la proporción de parentesco, desentrañar la historia evolutiva e incluso calcular la antigüedad de cada cambio. Y estos métodos se usan también en áreas como la lingüística comparada. Un ejemplo más de la relación entre ciencia y otras áreas de la actividad humana.

Yo ya no escribo cartas a los Reyes Magos (que en mi época se ponían en el zapato, no amarradas a un globo para que se atoren en el primer árbol o cable…). Pero me pregunto si, en esta época de plagios en internet por estudiantes que deben entregar trabajos escritos, habrá niños que lleguen al grado de copiar sus cartas a los Reyes. Espero que no, porque ¡los pueden cachar!

¿Te gustó? ¡Compártelo en Twitter o Facebook!:

Contacto: mbonfil@unam.mx

Para recibir La ciencia por gusto cada semana
por correo electrónico, ¡suscríbete aqui!

2 comentarios:

Shahzaib Ahyaan dijo...

very nice for post and how about educational websites for kids

xyz dijo...

very nice for post and how about diy videos for valentines day gifts for him