Maximum CD 2010 November

home *** CD-ROM | disk | FTP | other *** search

/ Maximum CD 2010 November / maximum-cd-2010-11.iso / DiscContents / calibre-0.7.13.msi / file_3756 < prev next >

Wrap

Text File | 2010-08-04 | 2.7 KB | 75 lines

#!/usr/bin/env python __license__ = 'GPL v3' __copyright__ = '2010, Saverio Palmieri Neto <saverio.palmieri at gmail.com>' ''' folha.uol.com.br ''' from calibre.web.feeds.news import BasicNewsRecipe class FolhaOnline(BasicNewsRecipe): title = 'Folha de Sao Paulo' __author__ = 'Saverio Palmieri Neto' description = 'Brazilian news from Folha de Sao Paulo Online' publisher = 'Folha de Sao Paulo' category = 'Brasil, news' oldest_article = 2 max_articles_per_feed = 1000 summary_length = 2048 no_stylesheets = True use_embedded_content = False timefmt = ' [%d %b %Y (%a)]' encoding = 'cp1252' cover_url = 'http://lh5.ggpht.com/_hEb7sFmuBvk/TFoiKLRS5dI/AAAAAAAAADM/kcVKggZwKnw/capa_folha.jpg' cover_margins = (5,5,'white') remove_javascript = True keep_only_tags = [dict(name='div', attrs={'id':'articleNew'})] remove_tags = [ dict(name='script') ,dict(name='div', attrs={'id':[ 'articleButton' ,'bookmarklets' ,'ad-180x150-1' ,'contextualAdsArticle' ,'articleEnd' ,'articleComments' ]}) ,dict(name='div', attrs={'class':[ 'openBox adslibraryArticle' ]}) ,dict(name='a') ,dict(name='iframe') ,dict(name='link') ] feeds = [ (u'Em cima da hora', u'http://feeds.folha.uol.com.br/emcimadahora/rss091.xml') ,(u'Ambiente', u'http://feeds.folha.uol.com.br/ambiente/rss091.xml') ,(u'Bichos', u'http://feeds.folha.uol.com.br/bichos/rss091.xml') ,(u'Poder', u'http://feeds.folha.uol.com.br/poder/rss091.xml') ,(u'Ciencia', u'http://feeds.folha.uol.com.br/ciencia/rss091.xml') ,(u'Cotidiano', u'http://feeds.folha.uol.com.br/cotidiado/rss091.xml') ,(u'Saber', u'http://feeds.folha.uol.com.br/saber/rss091.xml') ,(u'Equil├¡brio e Sa├║de', u'http://feeds.folha.uol.com.br/equilibrioesaude/rss091.xml') ,(u'Esporte', u'http://feeds.folha.uol.com.br/esporte/rss091.xml') ,(u'Ilustrada', u'http://feeds.folha.uol.com.br/ilustrada/rss091.xml') ,(u'Ilustr├¡ssima', u'http://feeds.folha.uol.com.br/ilustrissima/rss091.xml') ,(u'Mercado', u'http://feeds.folha.uol.com.br/mercado/rss091.xml') ,(u'Mundo', u'http://feeds.folha.uol.com.br/mundo/rss091.xml') ,(u'Tec', u'http://feeds.folha.uol.com.br/tec/rss091.xml') ,(u'Turismo', u'http://feeds.folha.uol.com.br/turismo/rss091.xml') ] def preprocess_html(self, soup): for item in soup.findAll(style=True): del item['style'] return soup language = 'pt'