Als iemand nog goede tips, sites of software weet waarmee ik redelijk gestructureerde HTML bestanden kan omtoveren naar RSS-feeds of XML bestanden die ik daarna weer in een mySQL database kan importeren, dan hou ik me aanbevolen! Ik heb al reeds HTML2XML.com geprobeerd, maar die doet het niet (server plat) en van de template scraper van myHeadlines snap ik niks. Volgens mij kan ik daar namelijk geen loop aangeven om over een pagina te gaan en uit steeds een specifieke brok code content te filteren…Misschien vergis ik me, dan hoor ik het graag. Heb ik volgende week tenminste wat te doen in mijn vekaansie 🙂 Naast natuurlijk een biertje drinken met r-win! Check trouwens zijn Avantgo-channel, die is ook weer back on track! Update: Html2txt 6.01 Pro doet het werk wel enigszins, dus misschien is daar ook iets mee te doen. Maar is nog behoorlijk wat handwerk! Als ik maar gestructureerde txt of xml bestanden krijg, daar gaat het om!
toon says
Huh???
Heb je al een Hema schrijfblok met Hema potlood geprobeerd?? Samen met Hema gummetje een perfecte tool.
toon says
Huh???
Heb je al een Hema schrijfblok met Hema potlood geprobeerd?? Samen met Hema gummetje een perfecte tool.
joustie says
Voor mijn conversie van b2 naar moveabletype heb ik een perl filter moeten schrijven. Wat jij wilt is toch het uit die html’s is het postje, de datum en eventueel andere velden filteren en daarna iets uitpoepen (makkelijkst is komma delimited)wat je in mysql kan frotten ?(liefst met movable type import functie neem ik aan?)
Voor dit soort shit is perl gemaakt.
joustie says
Voor mijn conversie van b2 naar moveabletype heb ik een perl filter moeten schrijven. Wat jij wilt is toch het uit die html’s is het postje, de datum en eventueel andere velden filteren en daarna iets uitpoepen (makkelijkst is komma delimited)wat je in mysql kan frotten ?(liefst met movable type import functie neem ik aan?)
Voor dit soort shit is perl gemaakt.
dennis says
Scraping is simple 🙂
Geef me de url eens, ga ik kijken of ik een feed voor je kan bakken met een scrape voorbeeld.
Wat je wil kan volgens mij heel makkelijk.
Zie alle scrape voorbeelden die ik gemaakt hebt ..
Ik kan zelfs van 1 html page 3 verschillende feeds bakken (zie http://www.tvgids.nl)
Mail me!
dennis says
Scraping is simple 🙂
Geef me de url eens, ga ik kijken of ik een feed voor je kan bakken met een scrape voorbeeld.
Wat je wil kan volgens mij heel makkelijk.
Zie alle scrape voorbeelden die ik gemaakt hebt ..
Ik kan zelfs van 1 html page 3 verschillende feeds bakken (zie http://www.tvgids.nl)
Mail me!
Punkey says
@joustie: Laat Perl nou echt even niet mijn sterkste kant zijn. Als je scripts hebt die ik kan gebruiken, hou ik me aanbevolen!
Punkey says
@joustie: Laat Perl nou echt even niet mijn sterkste kant zijn. Als je scripts hebt die ik kan gebruiken, hou ik me aanbevolen!
Tjarko says
He Punkey,
Even een cfdirectory over de html en een regular expression om de titel en content uit het stukje tabel code te halen en in je DB of xml bestand te proppen. Stuur anders eens zo’n html pagina… kijk ik ff of ik er wat mee kan.
Tjarko says
He Punkey,
Even een cfdirectory over de html en een regular expression om de titel en content uit het stukje tabel code te halen en in je DB of xml bestand te proppen. Stuur anders eens zo’n html pagina… kijk ik ff of ik er wat mee kan.
Remy says
http://www.reflectionit.nl/Html2Xml.aspx
Converteren van hele html pagina’s naar XML nodes. Duurt ff maar dan heb je ook wat.
Remy says
http://www.reflectionit.nl/Html2Xml.aspx
Converteren van hele html pagina’s naar XML nodes. Duurt ff maar dan heb je ook wat.
joustie says
@punkey: Ik heb geen kant-en-klare scripts liggen , maar als ik een voorbeeldpagina van je heb, kan ik even iets knutselen met scripts die ik wel heb.
joustie says
@punkey: Ik heb geen kant-en-klare scripts liggen , maar als ik een voorbeeldpagina van je heb, kan ik even iets knutselen met scripts die ik wel heb.
Thijs says
De html converteren naar xhtml (valide xml dus) met tidy, en dan xslt gebruiken om het te converteren naar wat je maar wilt.
Ik zal er binnenkort een stukje over op m’n weblog schrijven.
Thijs says
De html converteren naar xhtml (valide xml dus) met tidy, en dan xslt gebruiken om het te converteren naar wat je maar wilt.
Ik zal er binnenkort een stukje over op m’n weblog schrijven.