2005-09-07

    利用 PHP 将 HTML 转化为 WML

    版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
    http://sunswin.blogbus.com/logs/1417018.html

    <?php 
        
    /** 
    * @author 马秉尧 
    * @copyright 2005 CoolCode.CN 
    */ 
        
    function text2wml($content) { 
        // 将 WML 变量前缀"$"转义 
        $content = str_replace('$', '$$', $content); 
        // 转换特殊字符,并将 Windows/DOS 换行符(\r\n)转化为 Unix 换行符(\n) 
        $content = str_replace("\r\n", "\n", htmlspecialchars($content)); 
        // 通过换行符来将各行分开进行处理(过滤空行) 
        $content = explode("\n", $content); 
        for ($i = 0; $i < count($content); $i++) { 
            // 过滤首尾空格 
            $content[$i] = trim($content[$i]); 
            // 如果去掉全角空格为空行,则设为空行,否则不对全角空格过滤。 
            if (str_replace(" ", "", $content[$i]) == "") $content[$i] = ""; 
        } 
        //合并各行,转化为 WML,并过滤掉空行 
        $content = str_replace("<p><br /></p>\n", "", "<p>".implode("<br /></p>\n<p>", $content)."<br /></p>\n"); 
        return $content; 

        
    function html2wml($content) { 
        // 过滤掉样式表和脚本 
        $content = preg_replace("/<style .*?<\/style>/is", "", $content); 
        $content = preg_replace("/<script .*?<\/script>/is", "", $content); 
        // 首先将各种可以引起换行的标签(如<br />、<p> 之类)替换成换行符"\n" 
        $content = preg_replace("/<br\s*\/?>/i", "\n", $content); 
        $content = preg_replace("/<\/?p>/i", "\n", $content); 
        $content = preg_replace("/<\/?td>/i", "\n", $content); 
        $content = preg_replace("/<\/?div>/i", "\n", $content); 
        $content = preg_replace("/<\/?blockquote>/i", "\n", $content); 
        $content = preg_replace("/<\/?li>/i", "\n", $content); 
        // 将"&nbsp;"替换为空格 
        $content = preg_replace("/\&nbsp\;/i", " ", $content); 
        // 某些不规范的网页中可能有"&nbsp",在普通网页中显示会按照"&nbsp;"显示,不会引起错误,但是在 WAP 中会原样显示,因此也要替换成空格。 
        $content = preg_replace("/\&nbsp/i", " ", $content); 
        // 过滤掉剩下的 HTML 标签 
        $content = strip_tags($content); 
        // 将 HTML 中的实体(entity)转化为它所对应的字符(WML 仅支持很有现的几个 entity),这里我转化的是中文网页,因此我指定了"GB2312"编码。 
        $content = html_entity_decode($content, ENT_QUOTES, "GB2312"); 
        // 过滤掉不能转化的实体(entity) 
        $content = preg_replace("/\&\#.*?\;/i", "", $content); 
        
        // 上面是将 HTML 网页内容转化为带换行的纯文本,下面是将这些纯文本转化为 WML。 
        return text2wml($content); 

    ?>


    收藏到:Del.icio.us




    Tag:web PHP
    引用地址:

    评论

  • 你是济南大学的吧,早有耳闻啊!

    来我的blog做客啊