{"id":153,"date":"2009-05-22T16:47:13","date_gmt":"2009-05-22T21:47:13","guid":{"rendered":"http:\/\/blog.espol.edu.ec\/hadoop\/materia-de-graduacion\/proyectos\/"},"modified":"2009-07-22T09:01:50","modified_gmt":"2009-07-22T14:01:50","slug":"proyectos","status":"publish","type":"page","link":"https:\/\/blog.espol.edu.ec\/hadoop\/materia-de-graduacion\/proyectos\/","title":{"rendered":"Proyectos"},"content":{"rendered":"<p>Recursos sobre la Wikipedia:<\/p>\n<ul>\n<li>En el 2nd\u00a0Conference on Weblogs and Social Media (2008)\u00a0se <a href=\"http:\/\/www.aaai.org\/Library\/ICWSM\/icwsm08contents.php\">publicaron varios papers<\/a> con resultados de an\u00e1lisis de la Wikipedia, blogs y otros medios sociales. En la p\u00e1gina del evento del <a href=\"http:\/\/www.icwsm.org\/2009\/data\/\">2009<\/a> tambi\u00e9n hay informaci\u00f3n de inter\u00e9s.<\/li>\n<li>La informaci\u00f3n de la Wikipedia est\u00e1 disponible en <a href=\"http:\/\/en.wikipedia.org\/wiki\/Wikipedia_database\">formato XML y SQL<\/a>, con y sin la informaci\u00f3n de las ediciones. Tambi\u00e9n est\u00e1 disponible el front-end, el esquema de la base de datos, herramientas de conversi\u00f3n, y otras herramientas \u00fatiles.<\/li>\n<li>EL dataset de la Wikipedia disponible de manera gratuita en S3 (AWS) es f\u00e1cil de procesar en Hadoop ya que se encuentra en formato TSV (tab separated values). Los datasets originales de la Wikipedia en formato XML no pueden ser procesados directamente en Hadoop. Una alternativa es pre-procesarlos con scripts, pero otra alternativa interesante es usar la librer\u00eda <a href=\"http:\/\/www.umiacs.umd.edu\/~jimmylin\/cloud9\/docs\/index.html\">Cloud9<\/a>; espec\u00edficamente, el package\u00a0<a href=\"http:\/\/www.umiacs.umd.edu\/~jimmylin\/cloud9\/docs\/api\/edu\/umd\/cloud9\/collection\/wikipedia\/package-summary.html\">edu.umd.cloud9.collection.wikipedia<\/a>.<\/li>\n<\/ul>\n<p>Recursos sobre sistemas de recomendaciones:<\/p>\n<ul>\n<li>P\u00e1gina de <a href=\"http:\/\/lucene.apache.org\/mahout\/\">Apache Mahout<\/a> y <a href=\"http:\/\/cwiki.apache.org\/MAHOUT\/\">Wiki<\/a>.<\/li>\n<li>Tutorial \"<a href=\"http:\/\/developer.amazonwebservices.com\/connect\/entry.jspa?externalID=2294&amp;ref=featured\">Finding Similar Items with Amazon Elastic MapReduce, Python, and Hadoop Streaming<\/a>\"<\/li>\n<li>Posibles papers de inter\u00e9s:\n<ul>\n<li>Cohen et al. <a href=\"http:\/\/db.cs.berkeley.edu\/jmh\/papers\/madskills-032009.pdf\">\"MAD Skills: New Analysis Practices for Big Data\"<\/a>.<\/li>\n<li>Andr\u00e9 Vellino. \"<a href=\"http:\/\/cuvier.cisti.nrc.ca\/~vellino\/documents\/PageRankRecommender-Vellino2008.pdf\">The Effect of PageRank on the Collaborative Filtering\u00a0Recommendation of Journal Articles<\/a>\".<\/li>\n<li><!--mstheme--><span style=\"font-family: Trebuchet MS,Arial,Helvetica\"><strong><a href=\"http:\/\/www.cs.umd.edu\/%7Etelsayed\/publications\/acl\/acl08_elsayed_pairwise_sim.pdf\">Pairwise  \tDocument Similarity in Large Collections with MapReduce<\/a><\/strong><\/span>\n<p><span style=\"font-family: Trebuchet MS,Arial,Helvetica\"> <em><strong>Tamer Elsayed<\/strong>, Jimmy Lin, and Douglas W. Oard<\/em><\/span><\/p>\n<p><span style=\"font-family: Trebuchet MS,Arial,Helvetica\"><em> <\/em>Proceedings of the 46th Annual Meeting of the Association of Computational Linguistics (ACL 2008),  \tpp. 265-268, Columbus, OH, June 2008.<\/span><\/p>\n<p><span style=\"font-family: Trebuchet MS,Arial,Helvetica\"> <strong>Download: <\/strong>Paper  \t<a href=\"http:\/\/www.cs.umd.edu\/%7Etelsayed\/publications\/acl\/acl08_elsayed_pairwise_sim.pdf\"><span style=\"text-decoration: underline\">PDF<\/span><\/a>,     Slides <a href=\"http:\/\/www.cs.umd.edu\/%7Etelsayed\/publications\/acl\/acl08_elsayed_pairwise_sim.ppt\"><span style=\"text-decoration: underline\">PPT<\/span><\/a><\/span><\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>Recursos sobre b\u00fasquedas tipo grep:<\/p>\n<ul>\n<li>Caso de estudio <a href=\"http:\/\/jineshvaria.s3.amazonaws.com\/public\/cloudarchitectures-varia.pdf\">GrepTheWeb<\/a> (Alexa), que describe en detalle la arquitectura utilizada, la cual usa de manera extensiva los Amazon Web Services (AWS).<\/li>\n<li>Hace alg\u00fan tiempo Tom White (quien es miembro de <a href=\"http:\/\/www.cloudera.com\/about\">Cloudera<\/a>, y autor del <a href=\"http:\/\/oreilly.com\/catalog\/9780596521998\/\">libro gu\u00eda<\/a> de la materia), public\u00f3 una <a href=\"http:\/\/weblogs.java.net\/blog\/tomwhite\/archive\/2005\/09\/mapreduce.html\">entrada en su blog<\/a> sobre un grep distribuido usando Nutch MapReduce. Aclaraci\u00f3n: el proyecto\u00a0Nutch MapReduce\u00a0de Apache fue lo que posteriormente se independiz\u00f3 con el nombre de Hadoop.<\/li>\n<li>Algunos papers:\n<ul>\n<li>Junghoo Cho y Sridhar Rajagopalan, \"A Fast Regular Expression Indexing Engine,\" en\u00a0<em>Data Engineering, International Conference on<\/em>, pp. 0419, 18th International Conference on Data Engineering (ICDE'02), 2002. Disponible en:\u00a0<a href=\"http:\/\/oak.cs.ucla.edu\/~cho\/papers\/cho-regex.pdf\">http:\/\/oak.cs.ucla.edu\/~cho\/papers\/cho-regex.pdf<\/a>.<\/li>\n<li>Gonzalo Navarro y Jorma Tarhio. \"LZgrep: A Boyer-Moore String Matching Tool for Ziv-Lempel Compressed Text,\" en\u00a0<em>Software Practice and Experience (SPE)<\/em> 35(12):1107-1130, 2005. Disponible en:\u00a0<a href=\"http:\/\/www.dcc.uchile.cl\/~gnavarro\/publ.html\">http:\/\/www.dcc.uchile.cl\/~gnavarro\/publ.html<\/a><\/li>\n<li>Gonzalo Navarro. \"NR-grep: a Fast and Flexible Pattern Matching Tool,\" en\u00a0<em>Software Practice and Experience (SPE)<\/em> 31:1265-1312, 2001.\u00a0\u00a0Disponible en:\u00a0<a href=\"http:\/\/www.dcc.uchile.cl\/~gnavarro\/publ.html\">http:\/\/www.dcc.uchile.cl\/~gnavarro\/publ.html<\/a><\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>Recursos sobre Call Detail Records (CDRs):<\/p>\n<ul>\n<li>En google scholar se puede encontrar unos cuantos papers que pueden dar ideas del tipo de an\u00e1lisis que se puede hacer sobre los CDRs. Dos ejemplos son los papers de <a href=\"http:\/\/www.dia.uniroma3.it\/~vldbproc\/012_079.pdf\">Gilbert et al.<\/a> y de <a href=\"http:\/\/www.msci.memphis.edu\/~linki\/7118papers\/Rosset99Fraud.pdf\">Rosset et al<\/a>.<\/li>\n<li>Existe una base de datos masivamente escalable llamada Greenplum que tiene entre sus clientes varias telef\u00f3nicas, que ha implementado <a href=\"http:\/\/www.greenplum.com\/resources\/mapreduce\/\">MapReduce de manera nativa<\/a>. La informaci\u00f3n en los whitepapers de ellos puede servir de soporte para las secciones de descripci\u00f3n del problema y motivaci\u00f3n.<\/li>\n<\/ul>\n<p>Otos datasets:<\/p>\n<ul>\n<li>Hay una lista de datasets disponibles en la Web (muchos gratuitos) en\u00a0<a href=\"http:\/\/www.datawrangling.com\/some-datasets-available-on-the-web\">datawrangling.com<\/a>.<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Recursos sobre la Wikipedia: En el 2nd\u00a0Conference on Weblogs and Social Media (2008)\u00a0se publicaron varios papers con resultados de an\u00e1lisis de la Wikipedia, blogs y otros medios sociales. En la p\u00e1gina del evento del 2009 tambi\u00e9n hay informaci\u00f3n de inter\u00e9s. La informaci\u00f3n de la Wikipedia est\u00e1 disponible en formato XML y SQL, con y sin [&hellip;]<\/p>\n","protected":false},"author":1510,"featured_media":0,"parent":42,"menu_order":0,"comment_status":"open","ping_status":"open","template":"","meta":{"footnotes":""},"class_list":["post-153","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/pages\/153","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/users\/1510"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/comments?post=153"}],"version-history":[{"count":17,"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/pages\/153\/revisions"}],"predecessor-version":[{"id":155,"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/pages\/153\/revisions\/155"}],"up":[{"embeddable":true,"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/pages\/42"}],"wp:attachment":[{"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/media?parent=153"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}