quinta-feira, 23 de setembro de 2010

Stunning data visualization in the AlloSphere

JoAnn Kuchera-Morin demonstra a AlloSphere, uma nova forma de ver e interpretar dados científicos, em cores e sons dentro de uma esfera de metal maciço.

sábado, 18 de setembro de 2010

Business Intelligence

O termo Business Intelligence (ou Inteligência de Negócios, ou ainda Inteligência Empresarial) pode ser entendido como o conjunto de estratégias, processos, metodologias, tecnologias e ferramentas enfocadas na administração e criação de conhecimento mediante o processo de coleta, organização, análise, compartilhamento monitoramento de dados de uma empresa para oferecer suporte à gestão de negócios. Ou seja, todas a informações relevantes (e até as aparentemente irrelevantes) de uma corporação são devidamente armazenadas e classificadas para que, lançando mão de dispositivos computacionais de mineração de dados e inteligência artificial, sejam gerados indicadores que servem de apoio à tomada das melhores decisões. [1][2]

As empresas que utilizam BI em seus planos de gestão estratégica, buscam encontrar padrões, "acumular inteligência", prever acontecimento futuros e tentam ganhar vantagens competitivas em cima de concorrentes. As tecnologias de BI funcionam geralmente em conjunto com sistemas de informação inteligentes que são baseados nos dados de produção, venda, consumo, marketing, indicadores de qualidade entre outras variáveis interessantes para a empresa, que são geralmente guardados em um armazém de dados (data warehouse). Através de técnicas de ETL (extrair, transformar, carregar) [3], se extraem os dados de distintas fontes, depois depuram e preparam (homogenização dos dados) para poder carregá-los em um armazém de dados.

A vida útil de um software de BI será ditada praticamente pelo nível de êxito de uma empresa, quando usado por esta. Em outras palavras, se a empresa é capaz de incrementar de alguma forma que a interesse seu lucro, suas estratégias de mercado ou de qualquer outra maneira melhoras suas decisões tomadas, então os sistema de BI será mantido por muito tempo na companhia. Do contrário, será substituído por um mais novo, melhor e mais preciso nos resultados.



No site da Siemens em um artigo rápido e curto é citado um exemplo clássico: não é à toa que nos supermercados, fraldas se encontram próximas à latas e garrafas de cerveja. "Não se trata de mera coincidência, e sim do resultado da análise de sofisticados programas capazes de estudar milhões de combinações cruzadas entre produtos e hábitos de consumo."[4]

Finalizando este post sobre Business Intelligence, sabemos que nos últimos trinta ou quarenta anos, o capitalismo evoluiu radicalmente da era industrial para a era do conhecimento (outros chamam de era da informação). O que para uma empresa, na nova realidade da conjuntura internacional dos negócios, importa não é simplismente a informação, e sim o conhecimento que pode ser extraído da informação. Um dos grandes pecados de muitas corporações é investir pesadas cifras em sistemas de data warehousing caríssimos, onde muitos dados variam de supérfulos a inúteis. E é aí que entra Business Intelligence!

terça-feira, 14 de setembro de 2010

Weka

Já que estamos trabalhando atualmente com o KNIME, a seguir posto um pouco sobre o Weka, outro software relacionado à Inteligência Computacional. O Weka é um software muito popular de aprendizagem de máquina (machine learning) e mineração de dados totalmente desenvolvida em Java e desenvolvida pela Universidade de Waikato na Nova Zelândia. O nome Weka é o acrônimo de "Waikato Environment for Knowledge Analysis" e também é o nome de uma espécie de pássaro neozelandês.



Uma breve história do Weka:
-Em 1993 pesquisadores da Universidade de Waikato começaram o desenvolvimento de um software que implementasse algoritmos de mineração de dados e machine learning. O Weka foi desenvolvido em C e TCL/TK.
-Em 1997 o Weka teve seu código totalmente reescrito, dessa vez em Java e com a implementação de alguns algoritmos de modelagem de dados.
-Em 2005 o Weka recebe o prêmio Data Mining and Knowledge Discovery Service do SIGKDD (Special Interest Group on Knowledge Discovery and Data Mining), que é um grupo especial da ACM. [1]

De acordo com o próprio site do Weka os objetivos do projeto são:
-Tornar geralmente disponíveis técnicas de ML (machine learning);
-Aplicá-las a problemas que interessem à indústria da Nova Zelândia;
-Desenvolver novos algoritmos de aprendizagem de máquina e entregá-los ao mundo;
-E contribuir para um framework teórico para o campo. [2]


Alguns motivos especiais fizeram com que o Weka possuísse boa aceitação entre aqueles envolvidos nesta área de aprendizagem de máquina, mineração de dados e inteligência artificial tais como o fato de estar distribuído sob licença GNU General Public License, ser implementado em Java (o que permite sua execução em quase todas as plataformas modernas) e sua interface gráfica agradável que facilita a utilização pelos iniciantes.

O Weka contém uma extensa coleção de técnicas de pré-processamento de dados e modelagem de dados, além de suportar várias tarefas comuns em mineração de dados como clusterização, classificação, regressão, vizualização e seleção. Uma área considerada importante que não é coberta pelo algoritmos do Weka é a de modelagem de sequências. [1]

Para mais informações:

sábado, 11 de setembro de 2010

A Importância dos Dados

A IBM possui um portal chamado Smarter Planet [1], onde disponibiliza diversas discussões e estudos de caso sobre como o nosso planeta está se tornando mais inteligente. Ele também apresenta soluções para transformarmos o trânsito, os meios de produção, as telecomunicações e diversos outros tópicos dos quais dependemos. Todas essas mudanças só foram e só serão possíveis devido ao avanço tecnológico.

Entre os tópicos abordados também está a ciência analítica [2]. Como estudo de caso, a IBM explica a eficiência com a qual os bombeiros de Nova York (FDNY - Fire Department of the City of New York) combatem os incêndios da cidade com ajuda de dados obtidos na inspeção de prédios. Esses dados, como os materiais utilizados na construção, por exemplo, são provenientes de diversas fontes autorizadas a inspecionar os edifícios da cidade, sejam elas federais, estaduais ou municipais. Reunida toda essa informação, o FDNY pode responder às emergências da maneira mais adequada, prevenir problemas durante a emergência e até previní-las em primeiro lugar. Para se ter uma ideia, no ano de 2009 o FDNY conduziu 259.150 inspeções em edifícios, protegendo 8.250.567 pessoas em uma área de 322 milhas quadradas, cerca de 834 quilômetros quadrados.

Essa é apenas uma amostra da importância dos dados para a humanidade. E é a essa importância que o vídeo a seguir se refere. Traduzi a transcrição disponível na descrição do vídeo, que está em inglês.



Hoje, a inteligência está sendo inserida em sistemas e processos que fazem o mundo funcionar. Em coisas que ninguém reconheceria como computadores: carros, eletrodomésticos, estradas, redes elétricas e até mesmo roupas e abastecimento de água. Trilhões de dispositivos digitais, conectados através da Internet, estão produzindo um oceano de dados. Toda essa informação, do fluxo dos mercados à pulsação das sociedades, pode ser transformada em conhecimento. Porque agora nós temos o poder computacional e analítica avançada para compreender isso. Com esse conhecimento, podemos reduzir custos. Cortar desperdícios. Melhorar a eficiência, produtividade e qualidade de qualquer coisa, das empresas às cidades. Os sinais de um planeta mais inteligente estão à nossa volta. Sistemas mais inteligentes estão agregando valor às grandes indústrias. Através de todas as regiões, seja em países desenvolvidos ou em desenvolvimento. Em mais de 400 cidades, no último ano, sistemas de tráfego inteligente reduziram o desperdício de tempo no trânsito em mais de 700.000 horas. Cada cidade economizando cerca de 15 milhões de dólares. Em Washington, redes elétricas e sistemas de medição inteligentes possibilitaram aos cidadãos a economia de 10% em suas contas de luz e o corte de 15% do consumo de energia. Hamburgo tem um sistema de saúde inteligente. Madri tem uma segurança pública inteligente. Galway tem abastecimento de água inteligente. Cadeias inteligentes de fornecimento estão cortando os custos dos varejistas em 30%. Reduzindo os níveis de inventário em 25%. Aumentando as vendas em 10%. Bancos e organizações financeiras ao redor do globo estão alcançando novos níveis de controle de risco. Um planeta mais inteligente não é uma metáfora. Ou uma visão. Ou uma proposta. Um planeta mais inteligente é um acontecimento. No alvorecer deste novo milênio, líderes com visão, ao redor do mundo, estão criando resultados tangíveis e benefícios. Eles estão aprendendo a cumprir seus papeis para o nosso planeta, de forma mais inteligente. Bem-vindo à década da inteligência. Vamos construir um planeta mais inteligente.


[1] http://www.ibm.com/smarterplanet
[2] http://www.ibm.com/smarterplanet/us/en/business_analytics

quarta-feira, 1 de setembro de 2010

Inteligência Computacional

A inteligência é uma capacidade inerentemente humana, diz-se que é a característica que nos diferencia dos outros animais. É muito difícil definir inteligência e (talvez por isso) o termo vem sendo empregado em diversos contextos diferentes. Freqüentemente, a palavra “inteligência” ou o adjetivo “inteligente” é utilizado para valorizar algum produto; de suspensão inteligente a forno de microondas, qualquer produto que contenha algum grau de automação torna-se “inteligente”.
Na ciência da Computação, o termo “inteligência artificial[1][2]” surgiu em meados da década de 1950 como uma proposta de estudo[3] para o desenvolvimento de máquinas capazes de utilizar a linguagem e executar tarefas como seres humanos. No final da década de 1960 surgiram os primeiros provadores de teoremas que evoluíram para os “sistemas especialistas[4]” em 1970. A tecnologia se tornou comercial em 1980 com as chamadas “shells” de sistemas especialistas[5]. Logo ficou claro que a aquisição de conhecimento e sua representação não era uma tarefa trivial. Entre o final da década de 1970 e meados da década de 1980 surgiram resultados do desenvolvimento de modelos de dados fora da estatística com o algoritmo “backpropagation[6]” para o ajuste de redes neurais e também os algoritmos de indução de árvores de decisão surgindo então o termo “aprendizado de máquina”[7]. Na década de 1990 os algoritmos genéticos[8][9] tornam-se amplamente conhecidos. Nesta época surgem também as redes neurais de base radial[10] e as máquinas de vetor de suporte[11] que fomentaram o desenvolvimento de diversos algoritmos baseados em “kernels”[12]. A integração destas técnicas passa a ser conhecida como “soft computing[13]” ou “computational intelligence[14]”. No Brasil a área ficou conhecida como “inteligência computacional[15]”. Em 1990 aparecem os primeiros algoritmos de regras de associação[16] que se tornaram conhecidos com o caso das fraldas e cervejas[17] Ao longo da década de 1990, o termo “mineração de dados[18]” começa a se difundir como um conjunto de técnicas que incluem estatística, aprendizado de máquina, inteligência computacional, bancos de dados, entre outras, para o desenvolvimento de modelos a partir de dados. Em 1997 surge a primeira plataforma de código livre de mineração de dados o Weka[19], desenvolvido na Universidade de Waikato, Nova Zelândia, tornando-se uma referência no mundo acadêmico. A partir de 2000, é cada vez maior o número softwares comerciais e de código aberto que implementam algoritmos de mineração de dados[20]. Ao longo da década de 2000, as plataformas de “mineração de dados” comerciais começam a se apresentar como ferramentas de “inteligência analítica[21]” cujo foco é a análise dos resultados gerados e o alinhamento dos resultados com os objetivos do negocio.
Desde o início da década de 2000 tem havido um grande esforço no desenvolvimento de algoritmos específicos para o tratamento de textos, que levou o surgimento de uma nova área chamada de mineração de textos[22]. O tratamento de documentos trouxe novos desafios para os pesquisadores e levou uma aproximação da área de mineração de dados à duas áreas clássicas da ciência da computação, de processamento de linguagem natural[23] e recuperação da informação[24]. Outros tipos de estruturas complexas como compostos químicos, estruturas de proteínas, redes biológicas e redes complexas como a internet. A pesquisa nesse nessa linha levou os pesquisadores de mineração de dados ao encontro da física estatística e ao estudo de redes complexas[25] [2][3]. Atualmente, com as tecnologias de web 2.0[26] e a popularização das redes sociais e do twitter, uma grande quantidade de informação é gerada diariamente por pessoas comuns, gerando informação potencialmente útil para as empresas. Diversas empresas têm incluído as redes sociais em suas estratégias de relacionamento com clientes abrindo um enorme potencial para as tecnologias de mineração de dados e textos.
Atualmente é possível ter uma estimativa qualitativa do interesse das pessoas por algum assunto através da ferramenta Google Trends[27] que mostra o número de buscas realizadas por alguma palavra no site de buscas Google. Com cerca de 65% do mercado de buscas, a amostra realizada pelo Google é bastante significativa. Algumas comparações interessantes são comentadas abaixo, todas as pesquisas foram realizadas em julho/2010.
A Figura 1 mostra a comparação entre o número de buscas realizadas pelo Google utilizando os termos “business ingelligence” e “data mining”. O gráfico mostra que o número de buscas por estes dois termos é parecido e tem se mantido estáveis nos últimos anos. A Figura 2 mostra a comparação entre “data mining” e “cloud computing”, o modelo de computação em que os aplicativos ficam na internet. Observa-se o grande aumento do número de buscas por “cloud computing”.

Figura 1: Google trends: “data mining” (em azul) e “business intelligence” (em vermelho)
Figura 2: Google trends: “data mining” (em azul) e “cloud computing” (em vermelho)
A Figura 3 mostra a comparação entre “text mining” e “business analytics”, mostrando o aumento da procura pelo segundo a partir de 2007. A Figura 4 mostra a comparação pelo Google Trends do volume de buscas dos termos “text mining” e “social networks”, observa-se um aumento da procura por redes sociais nos último anos.
 
Figura 3: Google trends: “text mining” (em azul) e “business analytics” (em vermelho)
Figura 4: Google trends: “text mining” (em azul) e “social networks” (em vermelho)
É importante observar que existe hoje uma grande quantidade de algoritmos e ferramentas para o desenvolvimento de modelos de dados. A apresentação exaustiva das diversas técnicas para desenvolvimento de modelos de dados seria, além de enfadonho, de pouca utilidade prática, uma vez que as interfaces gráficas das ferramentas mais modernas permitem que se execute um modelo sem conhecer os detalhes técnicos e, principalmente, as limitações do algoritmo. Por outro lado, sem o conhecimento dos fundamentos dos métodos e das principais características dos problemas um usuário desatento pode retirar conclusões totalmente falsas sobre o desempenho dos modelos. Neste sentido, o objetivo deste livro é apresentar elementos que permitam ao leitor interpretar e analisar corretamente os resultados dos modelos, conhecendo as limitações do que se pode obter em termos de resultados. Em outras palavras, a “inteligência” no processo deve estar no ser humano e não na ferramenta.


[1] http://en.wikipedia.org/wiki/Artificial_intelligence
[2] http://pt.wikipedia.org/wiki/Intelig%C3%AAncia_artificial
[3] http://www-formal.stanford.edu/jmc/history/dartmouth/dartmouth.html
[4] http://pt.wikipedia.org/wiki/Sistema_especialista
[5] http://www.kbsc.com/rulebase.html
[6] http://en.wikipedia.org/wiki/Backpropagation
[7] http://en.wikipedia.org/wiki/Machine_learning
[8] http://en.wikipedia.org/wiki/Genetic_algorithm
[9] http://www.obitko.com/tutorials/genetic-algorithms/
[10] http://en.wikipedia.org/wiki/Radial_basis_function_network
[11] http://en.wikipedia.org/wiki/Support_vector_machine
[12] http://www.kernel-machines.org/
[13] http://en.wikipedia.org/wiki/Soft_computing
[14] http://en.wikipedia.org/wiki/Computational_intelligence
[15] http://www.das.ufsc.br/gia/softcomp/
[16] http://en.wikipedia.org/wiki/Association_rule_learning
[17] http://web.onetel.net.uk/~hibou/Beer%20and%20Nappies.html
[18] http://en.wikipedia.org/wiki/Data_mining
[19] http://www.cs.waikato.ac.nz/ml/weka/
[20] http://www.kdnuggets.com/software/index.html
[21] http://en.wikipedia.org/wiki/Business_analytics
[22] http://en.wikipedia.org/wiki/Text_mining
[23] http://en.wikipedia.org/wiki/Natural_language_processing
[24] http://en.wikipedia.org/wiki/Information_retrieval
[25] http://portal.acm.org/citation.cfm?id=1132954
[26] http://pt.wikipedia.org/wiki/Web_2.0
[27] http://www.google.com/trends