Notícias
-
Aula extra dia 13 de Maio, 14:30/17:00/ Extra class covering Phylogeny and Clustering May 13. 2:30/5:00 pm.
-
Teste para dia 22 de Maio, 9:00/ Test May 22, 9:00 am
-
Última Semana reservada para apresentações/ Last week reserved for student seminars.
Objectivos, Programa, Docente
Objectivos
Pretende-se que o aluno:
-
Se familiarize com os conceitos básicos de Biologia Molecular Computacional
-
Entenda os algoritmos básicos de Bioinformática, nomeadamente em emparelhamento de sequências, filogenia e reconhecimento de padrões no genoma e proteoma.
-
Tenha uma perspectiva das questões abertas na área.
Programa
-
Problemas Computacionais em Biologia Molecular
-
Revisão dos Conceitos Fundamentais da Biologia Molecular
-
DNA
-
Proteínas
-
Bases de Dados
-
-
Alinhamento de Pares de Sequências
-
Homologia
-
Alinhamento Globais: Algoritmo de Needleman e Wunsch
-
Alinhamento Locais: Algoritmo de Smith e Waterman
-
Alinhamento para Funções de Penalização Afins
-
Métodos Heurísticos: BLAST
-
Modelos para Alinhamentos: BLOSUM
-
-
Alinhamentos Múltiplos
-
Avaliação de Alinhamentos Múltiplos
-
Alinhamento em Estrela
-
Alinhamento em Árvore: Clustal-W
-
-
Árvores Filogenéticas
-
Métodos de Construção
-
UPGMA
-
Junção de Vizinhos
-
Parcimónia
-
Branch & Bound
-
-
Modelos Probabílisticos
-
Conceitos Básicos de Probabilidade
-
Cadeias de Markov
-
Aplicações: Encontrar Genes
-
HMMs
-
Aprendizagem de HMMs: “Forward-Backward”
-
Aplicações: Profile HMMs
-
-
Expressão de Genes
-
Clustering Hierárquico
-
Clustering por K-Médias
-
Clustering EM
-
-
Estrutura de Proteínas
-
Níveis de Descrição
-
Modelação Por Homologia
-
Threading
-
-
Novas Áreas
-
Biologia Comparativa
-
Biologia de Sistemas
-
Ontologias
-
Medicina Molecular
-
Docente
- Vítor Santos Costa. Email: vsc@dcc.fc.up.pt
Aulas
Esquema Previsto de Aulas
: Introdução à cadeira
: Alinhamento de Sequências
: Alinhamento de Sequências/BLAST
: Alinhamento Múltiplo de Sequências
: Árvores Filogenéticas
: HMMs
: Clustering
: High Throughput
: TBA
: TBA
: Apresentação de Trabalhos
: Teste
Avaliação e funcionamento das aulas
-
Mini Trabalhos: 2x3 Valores
-
Monografia: 8 Valores
-
Teste: 6 Valores
O teste do ano passado está aqui.
Mini Trabalhos
A entrega consiste num arquivo zip ou tar a enviar por mail para
vsc AT dcc.fc.up.pt com o subject BIOINFO: Mini-Trabalhos. O arquivo
zip deverá conter o código e um pequeno relatório de 1 ou 2 páginas por
trabalho descrevendo a implementação, e dando exemplos.
-
Implementação de Serviços Web para acesso ao EBI:
-
Escreva uma interface para diferentes algoritmos de alinhamentos locais e globais (3 pelo menos)
-
Experimente com diferentes tipos de matrizes de custo, usando BLOSUM, PAM
-
Experimente com custos de buracos lineares e afins.
-
Pode usar qq linguagem que prefira.
-
Compare com a sua própria implementação
-
-
Utilização de Blast (extra):
-
Escolha uma proteína
-
Procure essa proteína no BLAST
-
Varie os parâmetros e altere as bases de dados, indicando como isso altera os resultados.
-
-
Implementação de HMMs:
-
Implemente os Algoritmos de Viterbi para HMM.
-
Experimente com um modelo de genoma bacterial.
-
Implemente o algoritmo de aprendizagem de parâmetros para HMMs (EM ou forward backwards)
-
Experimente o seu algoritmo para o reconhecimento de genes num genoma bacterial e compare com uma ferramenta pré-existente.
-
-
Implementação de Árvores Filogenéticas:
-
Implemente o algoritmo UPGMA.
-
Implemente o algoritmo de parcimónia usando uma ferramenta de alinhamento.
-
Compare estes dois algoritmos numa família de proteínas do PFAM. Como computar as distâncias?
-
Artigos de Investigação
Os seguintes artigos não são um estudo exaustivo da área, mas tentam mostrar algumas áreas recentes de interesse:
-
Temas Quentes e Grandes Projetos:
-
Artigos na Bioinformatics:
-
NÃO ESCOLHER: MEGA2: molecular evolutionary genetics analysis software
-
Haploview: analysis and visualization of LD and haplotype maps
-
Naïve Bayes for microRNA target predictions—machine learning for microRNA targets
-
Haploview: analysis and visualization of LD and haplotype maps
-
False discovery rate, sensitivity and sample size for microarray studies
-
ISMB:
-
Outros:
Apresentações de Alunos
No ano de 2012/2013 foram recebidas as seguintes apresentações:
Algumas Monografias:
Sumários das aulas teóricas
Sumários estarão disponíveis no sigarra.
Bibliografia e material complementar
Slides do Curso
Livros recomendados
-
Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. R. Durbin, S. Eddy, A. Krogh, and G. Mitchison. Cambridge University Press, 1998.
-
Computational Genome Analysis An Introduction, Richard Deonier, S Tavaré, and Michael S. Waterman, Springer Verlag, 2005.
Material de Apoio
-
Introdução a Biologia Molecular:
-
L. Hunter. Life and Its Molecules: A Brief Introduction. AI Magazine 25(1):9-22, 2004. Uma versão mais antiga mas mais detalhada está como introduction to molecular biology for the computer scientist
-
Livro WEB: Genomes, T.A. Brown
-
Livro WEB: Molecular Cell Biology by Lodish, Berk, Matsudaira, Kaiser, Krieger, Scott, Zipursky, and Darnell
-
-
Alinhamento de Pares de Sequências:
-
Secções 2.1-2.7 de Durbin et. al.
-
-
Alinhamento Múltiplo:
-
Modelos de Markov e Análise de Genes:
-
pHMMs:
-
Secções 5.2-5.4 de Durbin et. al.
-
-
Árvores Filogenéticas:
-
Cap 6 e Secções 7.1-7.4 de Durbin et. al.
-
-
Expressão de Genes:
-
Cap 6 e Secções 7.1-7.4 de Durbin et. al.
-
-
Estrutura de Proteínas:
Cursos Relacionados
-
Introduction to BioInformatics, Mark Craven, UW-Madison
-
Computational Molecular Biology, Sean Eddy, Washington University
-
Algorithms for Molecular Biology, Ron Shamir, Tel Aviv University
-
Computational Molecular Biology, Doug Brutlag & Lee Kozar, Stanford
-
Representations and Algorithms for Computational Molecular Biology, Russ Altman, Stanford
-
MO640/MC931 Biologia Computacional, João Meidanis, UNICAMP
Variado
Temas Não Cobertos
-
Montagem de Sequências e “Base Calling”
-
Sinais de DNA: “DNA Binding Sites”
-
Compilação de Genomas Completos
-
Rearranjos do Genoma
-
Estrutura Secundária de RNA
-
Biologia de Sistemas, eg Dana Pe’er
Projectos de Trabalho
Propôe-se um conjunto de projectos a realizar durante o curso. A entrega de cada projecto deverá incluir:
-
Um relatório discutindo o problema, técnicas usadas, problemas encontrados, avaliação experimental, conclusões e bibliografia.
-
O programa fonte.
-
Uma apresentação ao professor/colegas.
Os trabalhos de aprendizagem devem incluir avaliação de confiança nos resultados, usando técnicas como validação cruzada.
ColdPenguim
Implementar um conjunto de ferramentas capazes de automatizar a análise de amostras de populações de genes. Inclui:
-
Interface WEB;
-
pipeline
-
BD especializadas e atualização
Aprendizagem em High-Throughput Data
Use as ferramentas weka/R de machine learning para
-
Aprender classificadores que distinguem entre amostras de RNA obtidas em condições normais e stress
-
Use técnicas de seleção de atributos para encontrar um subconjunto de genes representativo.
-
Compare os seus genes com resultados obtidos por algoritmos especializados como o limma ou deseq/ebseq (pacotes R) e com algoritmos simples como ganho de informação.
-
Conjunto de Dados: TBA
Montagem de Dados em High Throughput RNA-Seq
Monte um pipeline com diversas ferramentas para processar dados de RNA-SEQ, usando dados de dois organismos: 1
-
Trimmomatic e Picard para limpar.
-
Use Bow-Tie 2, BWA, ou SOAP2/3 para alinhamento.
-
HTSEq, RSEM, TOPHATpara montar. GenePattern como exemplo de pipeline e problemas.
-
Analizar tempo e qualidade dos resultados.
-
Dados: comece por página de treino do EBI
-
http://www.broadinstitute.org/cancer/software/genepattern/modules/RNA-seq/
Module Networks
-
Avalie module networks usando dados de expressão de RNA para levedura. Compare resultados, em particular para diferentes ferramentas.
-
Software original: Genomica
-
Software recente: LeMoNe
-
Também pode experimentar GRAM
-
Use dados de expressão fornecidos por António Gonçalves.
Double Mutant Analysis
O objetivo do trabalho é estudar as vantagens de mutação duplas para entender causalidade no genoma.
-
Selecione um dos artigos em
-
Repita as experiências
Anti-Sense Transcription
O objetivo do trabalho é estudar a importância de transcrição na faixa inversa.
-
Estude expressão diferencial usando os dados de António Gonçalves.
Web Services
O objetivo deste trabalho é implementar um servidor SOAP ou REST, incluindo suporte para
-
servidor blast local;
-
uma ou duas bases de dados diferentes e configuráveis;
-
serviço de alinhamento múltiplo com difereentes pacotes;
-
serviço de filogenia.
-
acesso a base de dados/serviços externas, eg EBI, NCBI;
Text Networks
-
Minerar bases de dados sobre publicações paraa encontrar genes muito relacionados
-
Implementar um web-crawler
-
Use um analizador morfológico/sintático para codificar informação
-
gerar atributos (eg bag of words, regras Prolog)
-
clusterizar
-
construir um grafo de linkagem.
Expressão de Genes com ProbLog
O objectivo do trabalho é o de encontrar as pathways interactivas no genoma de um organismo como a Drosophila Melanogaster usando um modelo probabilistico:
-
Obtenha um mapa de interacções de proteínas do BioGRID
-
Obtenha datasets de expressão genética, eg from fruitfly
-
Calcule as correlações entre os elementos
-
Use ProbLog para estabelecer um grafo entre os elementos.
Encontrar Padrões em Fármacos
O objectivo do trabalho é o de encontrar padrões típicos em pequenas moléculas:
-