用HTML::Scrubber把HTML格式淨化簡化
從Word另存成html格式,令人不敢恭維,沒幾個字的檔案,
就肥化成數十K的檔案,用這肥檔寄公告信實不妥;
總算發現HTML::Scrubber可輕易做到這簡化的功能。
use HTML::Scrubber;
my $scrubber = HTML::Scrubber->new( allow => [ qw[ center a b i u hr p br table tr td th] ] );
$scrubber->rules(
table => {
border => 1
},
td => {
colspan => 1
},
b => 1,
i => 1,
a => {
href => 1
}
);
$filename = $ARGV[0];
$html = $scrubber->scrub_file("$filename");
print $scrubber->scrub($html); ## returns giant string
0 Comments:
Post a Comment
<< Home