domingo, 12 de dezembro de 2010

BIOINFORMÁTICA

Desde o início até meados do século passado os geneticistas e químicos se questionaram sobre a natureza química do material genético. Das pesquisas desenvolvidas, surgiu a conclusão de que o DNA era a molécula que armazenava a informação genética e, em 1953, sua estrutura química foi desvendada no clássico trabalho de Watson e Crick.

Na segunda metade da década de 90, com o surgimento dos seqüenciadores automáticos de DNA, houve uma explosão na quantidade de seqüências a serem armazenadas, exigindo assim recursos computacionais cada vez mais eficientes. Além do armazenamento acontecia, paralelamente, a necessidade de análise desses dados, o que tornava indispensável à utilização das referidas plataformas computacionais para a interpretação dos resultados obtidos.

Como na evolução da genética também houve a evolução da informática o que fez com que surgissem diferentes áreas de estudo e técnicas. Foram criados inúmeros grupos de pesquisas para serem usadas na bioinformática nas mais variadas aplicações como: Simulação em ambientes virtuais de organismos semelhantes aos reais analisando o seu comportamento e obtendo resultados antes só adquiridos através de testes feitos com organismos reais.

O estudo do seqüenciamento genético foi o grande propulsor da bioinformática, surgiu da necessidade da integração de varias ciências dentre elas a informática que desempenha função fundamental nessa ciência. Na bioinformática são utilizadas técnicas de inteligência artificial tanto para fazer analises de dados quanto para tomadas de decisões.

Figura 1: O Dogma Central da Biologia Molecular


Uma das características mais deslumbrantes ocorrida nos últimos 10 anos, de projetos e consórcios destinados a compor o genoma completo dos mais diversos organismos, foi o estabelecimento de abordagens e tecnologias que permitiram um estilo “linha-de-montagem” na obtenção, em tempos cada vez mais curtos, de quantidades industriais de seqüências de ácidos nucleicos (DNA e RNA).


Bioinformática no Brasil

No Brasil a bioinformática teve o seu inicio com a vinda de Neshich de origem sérvia, segundo Gerhardt (2001), que foi o idealizador do projeto BBNet (BrazilianBioNet), uma rede de usuários da bioinformática, formada em 1992, que propiciou os primeiros contatos de cientistas brasileiros a programas de análise de seqüência de DNA de forma gratuita, por intermédio de um servidor da Embrapa Recursos Genéticos e Biotecnologia.

O elevado número de informações geradas todos os dias pelo mapeamento de genes necessitam ser armazenadas de forma sistemática em bancos de dados computacionais, servindo de base para estudos médicos e biológicos através da Bioinformática.


Referências

[1] AB3C, Associação Brasileira de Bioinformática e Biologia Computacional. Incentivo a Compreensão da importância da Biologia Computacional no Brasil e na América Latina. Disponível em: < http://www.ab3c.org/>.

[2] http://www.cnptia.embrapa.br/files/agrinforma04_06.pdf

[3] http://www.biotecnologia.com.br/revista/bio29/bioinf.pdf

[4] Programa para o alinhamento múltiplo de seqüências

Acesso on line - http://www.ebi.ac.uk/clustalw/

Download do clustal X para diversas plataformas:

http://inn-prot.weizmann.ac.il/software/ClustalX.html

[5] Prosdocimi F et al. Clustering of Schistosoma mansoni mRNA sequences and analysis of the most transcribed genes: implications in metabolism and biology of different developmental stages. MemInst Oswaldo Cruz 97: 61-69. 2002.

quarta-feira, 1 de dezembro de 2010

GA e o problema do caixeiro viajante

Entrando no assunto de GA, achei um link muito interessante.

Nessa página, é proposto um programa que visa solucionar o problema do caixeiro viajante utilizando algoritmos genéticos.

Informações mais detalhadas em: http://www.lalena.com/AI/Tsp/

No final tem o link do código-fonte e também o programa em si para usar. Bem legal.

domingo, 14 de novembro de 2010

Moradores e Turistas - Onde eles tiram mais fotos?



O programador Eric Fischer criou pequenos softwares que analisam a localização de fotos tiradas em importantes cidades do mundo e chegou à resposta. Através da distribuição de cores no mapa, é possível ver em que parte da cidade os turistas fotografam mais e em quais são que os moradores mais tiram fotos. A figura acima mostra a cidade de Nova York. Os pontos vermelhos representam fotos tiradas por turistas, os pontos azuis representam as fotos tiradas por moradores e os pontos amarelos mostram locais onde não foi possível distinguir se a fotografia foi tirada por um turista ou um morador. Essa distinção é feita analisando-se o tempo em que uma pessoa permanece fotografando uma cidade. Uma pessoa que tirou retratos em uma cidade por menos de um mês é classificada como turista e uma que fez o mesmo por mais de um mês é classificada como moradora.

Essa visualização de dados foi realizada para diversas cidades, como Londres, Veneza, Las Vegas, São Francisco e as brasileiras Rio de Janeiro [1], São Paulo [2] e Brasília [3].

Trata-se de um exemplo de como dados facilmente acessíveis podem ser analisados e transformados em conhecimento. Prefeituras e agências de turismo podem oferecer roteiros turísticos baseados não só em cartões postais, mas também em locais bastante frequentados pelos próprios moradores.

Os mapas com todas as cidades do projeto de Fischer estão disponíveis aqui [4].


[1] http://www.flickr.com/photos/walkingsf/4686660261/in/set-72157624209158632
[2] http://www.flickr.com/photos/walkingsf/4671446659/in/set-72157624209158632
[3] http://www.flickr.com/photos/walkingsf/4687296132/in/set-72157624209158632
[4] http://www.flickr.com/photos/walkingsf/sets/72157624209158632

segunda-feira, 1 de novembro de 2010

OLAP

Neste post segue uma breve introdução aos sistemas OLAP.

OLAP é o acrônimo de On-Line Analytical Processing. É uma solução utilizada no campo da chamada Inteligência Empresarial (Businees Intelligence) cujo objetivo é facilitar e agilizar a consulta de grandes quantidades de dados sob diferentes perspectivas. Para isto, utiliza estruturas multidimensionais (Cubos OLAP) que contém dados resumidos de grandes bases de dados. Os dados de origem do OLAP são bancos de dado OLTP (Online Transactional Processing) que são comumente armazenados em depósitos de dados. Ferramentas OLAP são usadas em negócios de vendas, marketing, endereçamento e similares. Abaixo algumas razões para usar-se OLAP:

  • Simples e intuitivo
  • Fácil de gravar e interpretar
  • Projetado para alto desempenho nas consultas

No núcleo de muitos sistemas OLAP está o conceito de Cubo OLAP (também chamado de cubo multidimensional ou hypercubo). As bases de dados OLAP contêm dois tipos básicos de dados: medidas, que são dados numéricos, as quantidades e médias que você usa para tomar decisões comerciais estando bem informado; e dimensões , que são as categorias que você usa para organizar essas medidas ( uma dimensão pode ser qualquer visão do negócio que faça sentido para sua análise, como produto, departamento ou tempo). Os bancos de dados OLAP ajudam a organizar os dados por muitos níveis de detalhe, usando as mesmas categorias com as quais você está familiarizado para analisar os dados.


Em geral os sitemas OLAP se classificam em ROLAP (utiliza um banco de dados relacional), MOLAP (banco de dados multidimensional) ou HOLAP (sistema híbrido).

Para maiores informações visite os links abaixo pois são muito detalhados para quem tiver interesse nesta área que está se destacando no mercado de TI:

quarta-feira, 27 de outubro de 2010

O Algoritmo de Agrupamento k-means

O algoritmo k-means é um método não-supervisionado de classificação que tem como objetivo particionar n registros em k agrupamentos, onde k < n. Seu funcionamento é descrito a seguir:

Dado um valor inicial de k médias (k-means), os registros são separados em agrupamentos, onde esses pontos (k-means) representam o centro de cada agrupamento. Normalmente, as coordenadas iniciais desses centróides são determinadas de forma aleatória. Em seguida, cada registro é associado ao cluster cujo centro está mais próximo, seguindo uma métrica de distância. Existem diversas métricas de distância, como a Euclidiana [1] e a de Mahalanobis [2]. Quando todos os registros estiverem classificados, os k centros são recalculados como as médias aritméticas dos registros de cada cluster. Então, os registros são novamente associados a um agrupamento segundo sua distância à média do cluster e os centros são novamente calculados. Esse passo se repete até que as médias dos clusters não se desloquem consideravelmente.

Segue o link [3] de uma demonstração interativa do k-means.


[1] http://pt.wikipedia.org/wiki/Distância_euclidiana
[2] http://pt.wikipedia.org/wiki/Distância_de_Mahalanobis
[3] http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html