2006/05/22

用HTML::Scrubber把HTML格式淨化簡化

從Word另存成html格式,令人不敢恭維,沒幾個字的檔案,
就肥化成數十K的檔案,用這肥檔寄公告信實不妥;
總算發現HTML::Scrubber可輕易做到這簡化的功能。

use HTML::Scrubber;
my $scrubber = HTML::Scrubber->new( allow => [ qw[ center a b i u hr p br table tr td th] ] );
$scrubber->rules(
table => {
border => 1
},
td => {
colspan => 1
},
b => 1,
i => 1,
a => {
href => 1
}
);


$filename = $ARGV[0];
$html = $scrubber->scrub_file("$filename");

print $scrubber->scrub($html); ## returns giant string

0 Comments:

Post a Comment

<< Home