13º Fórum de Informática SETREM - Anotações da segunda noite, trabalho de mestrado de Raquel Dias.
Atividades de um "Informata" na Biologia.
Raquel é formada em Biologia e está fazendo mestrado em Computação.
Laboratório de Alto Desempenho - PUCRS
Raquel.dias.001@acad.pucrs.br
www.lad.pucrs.br
Otimizações quantitativas
Processamento paralelo e distribuído
Otimização qualitativa
- altera a estratégia para encontrar uma solução
APLICAÇÕES DE TI NA BIOLOGIA
Genética
- Bases de dados (NCBI, GenBank)
- Pós-Processamento Genômico
- Pós-processamento metagenômico
- Análise filogenética
- Simulações evolutivas
Bioquímica
- Bando de dados de proteínas (PDB)
- Modelagem molecular
- Visualização de proteínas
- Dinâmica molecular (reações enzimáticas)
ÁREA DO TRABALHO DE MESTRADO DA RAQUEL
Metagenômica
- Sequenciamento genético
- Abordagens
- Metatranscriptônicas
- Sequenciamento baseado no gene 16S
Inicialmente são coletadas amostras ambientais, após estas amostras passam por um sequenciador (hardware - verifica pelo PH da amostra em um solvente - pega letra por letra) que gera um TXT com os dados genéticos.
Após o sequenciamento é necessário a análise dos dados genéticos para descobrir de que organismos são as sequencias genéticas encontradas, para isso utiliza-se bases de dados como NCBI.
Também é feito uma análise filogenética verificando mutações e comparando com outros organismos da mesma amostra etc.
Illumina: Sequenciamento em larga escala
Como melhorar estas etapas necessárias para analisar os dados genéticos?
- Dados de entrada: bases nucleotídicas, várias amostras.
- Pós-processamento metagenômico.
- Pipelines metagenômicos: Mothur, RDP, Galaxy, MEGAN, RAST, PANGEA.
- Versões offline são de código-aberto, PANGEA é um dos mais completos, por isso foi escolhido para o trabalho.
- Linguagem PERL é ótima para trabalhar com strings/textos, então foi escolhida para manipulação das sequencias genéticas.
- C foi escolhido para cálculos, processamentos.
- Java para visualização dos dados.
Etapas - fases de processamento
1. Entrada de dados
1.1 Filtro de qualidade das sequencias genéticas
2. Métodos de Classificação de Espécies utilizados paralelamente para chegar ao resultado:
- BLAST
- RDP
- SOAP2
3. Comparação dos resultados encontrados pelos 3 métodos para chegar a consenso.
4. Pós-processamento: análise e resumo dos resultados para apresentação ao usuário.
Otimizações execução
- Paralelização do algoritmo BLAST que é o mais demorado e completo, distribui a execução em várias máquinas/processadores.
Melhorias
- Resultados exibidos de forma mais clara, com mais dados, náo apenas o código do banco de dados.
Resultados
- 500x mais rápido a execução
- 125x mais rápido leitura dados NCBI
- Aumentou o nível de certeza dos resultados
Atividades pendentes
- publicação: BMC Bioinformatics
Exemplo apresentado: GenomaQuest - online, modificação do PANGEA.
Nenhum comentário:
Postar um comentário