PHP 字符串编码截取函数（兼容utf-8和gb2312）

phpsir 2009-05-02

代码如下：

//截取字符串长度。支持utf-8和gb2312编码。若为gb2312，先将其转为utf-8，在utf-8的基础上截取然后再转换回来 
function cut_string($str,$from=1,$length=10,$code='utf-8',$rear='...'){ 
    if($code!='utf-8'){//总是将字符串转为utf-8编码 
        $str=iconv($code,'utf-8',$str); 
    } 
    $str_len=mb_strlen($str,'utf-8');//字符串的长度 
    if($from>$str_len){//如果截取开始位置大于字符串长度，截取后面$length个 
        $from=$str_len-$length+1; 
        $from=($from<1?1:$from); 
    } 
    //兼容ucs-4编码 
    $i=0;//字节计数 
    $from_i=0;//开始截取的字节位置 
    $from_len=0;//开始截取的字符位置 
    $tag=true;//标志$from_len是否已经被赋值 
    for($temp_len=0;($temp_len-$from_len<$length)||$tag;$temp_len++){ 
        $byte_code=ord(substr($str,$i,1));//一个字节的编码 
        if($temp_len+1==$from){//记录开始截取的开始字节位置 
            $from_i=$i;$from_len=$temp_len;$tag=false; 
        } 
        if($byte_code>=0&&$byte_code<128){//字符是占用几个字节，utf-8是变长编码，根据每个字符的第一个字节可判断出该字符占几个字节 
            $i++; 
        } 
        if($byte_code>191&&$byte_code<224){ 
            $i+=2; 
        } 
        if($byte_code>223&&$byte_code<240){ 
            $i+=3; 
        } 
        if($byte_code>239&&$byte_code<248){ 
            $i+=4; 
        } 
        if($byte_code>248&&$byte_code<252){ 
            $i+=5; 
        } 
        if($byte_code>252&&$byte_code<255){ 
            $i+=6; 
        } 
    } 
    return iconv('utf-8',$code,substr($str,$from_i,$i-$from_i).$rear); 
}

: phpsir

相关推荐

Oracle字符集的设置

字符编码是一种法则，在数字与符号之间建立的对应关系。不同的国家有不同的语言，包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中，用数字97表达字符‘a‘与字符集相对应，常见的字符编码有ASCII，GBK，GB18030，Unicode等。字符集

81214051 0喜欢 / 0评论 2020-04-25

CentOS7设置中文字符集

字符编码是一种法则，在数字与符号之间建立的对应关系。不同的国家有不同的语言，包含的文字、标点符号、图形符号各有不同。例如在ASCII编码中，用数字97表达字符‘a‘与字符集相对应，常见的字符编码有ASCII，GBK，GB18030，Unicode等。字符集

84590091 0喜欢 / 0评论 2020-04-22

编码和解码

print # unicode --> gbk --> unicode --> gb2312

85271041 0喜欢 / 0评论 2020-02-13

彻底弄懂python编码

在编写python程序的过程中，中英文混用经常会出现编码问题。围绕此问题，本文首先介绍编码的含义及常用编码，随后列举几个python经常遇到的编码异常及解决方法，接着列举笔者在实践中遇到的异常出现的情景及原因，最后针对编码问题提出最佳实践。针对字符和数字的

82056521 0喜欢 / 0评论 2019-11-03

Linux 设置同时支持GBK（GB2312)和UTF-8编码

Apache中决定服务器编码的httpd.conf中AddDefaultCharset决定的，我设置为AddDefaultCharset utf-8，所以服务器默认是utf-8的；AddDefaultCharset utf-8上面有一段注释：。# Spec

Jiajinjin 0喜欢 / 0评论 2009-11-04

ARM开发板上iconv_open(“utf-8＂, ＂gb2312”) 调用失败的解决

应用程序代码如下：static int code_convert{ iconv_t cd; char **pin = &inbuf; char **pout = &outbuf;cd = iconv_open; if { perror;

赵丹icons逐LJ 0喜欢 / 0评论 2012-01-09

Android 与 HttpClient 通讯出现乱码问题的解决

Android 与 HttpClient 通讯出现乱码问题的解决1、Android -> Http Server 组件，比如servlet.第一种：在HttpEntity时提供编码，如：HttpEntity entity = new UrlEnco

清月 0喜欢 / 0评论 2011-11-03

Spring与Hibernate整合

我们之所以整合框架，就是因为它们整合在一起后会工作的更好，它们为各自提供了一些操作。我们整合Spring与Hibernate也不例外，就是因为Spring为Hibernate增加了以下内容：。Spring与Hibernate的集成先要确定配置文件的配置方式

SwingGUI 0喜欢 / 0评论 2012-03-25

设置vim 支持中文编码GB2312和Unicode编码UTF8

Vim语言设置,烦啊，编码可能一直是操作系统要处理的一个麻烦问题.我的Linux上有不少的gb2312 的文件.没法子,只有让Vim也支持他啦。如果你的系统你自己的主目录中有.vimrc就加入下面二行,如果没有,就建一个这个文件.记的保存哦.然后在用Vim

paopaocbg 0喜欢 / 0评论 2014-02-13

解决ubuntu环境下eclipse打开jar包源码乱码问题

ubuntu环境下，在eclipse中引用windows环境下所开发的jar包，打开源码时，所有的中文注释都成为乱码，原因是由于jar包在开发时，所采用的编码为GBK，而Ubuntu默认是不支持的，所以才会出现乱码。那么，需要怎样来解决呢？可以通过以下两个

心中要有一片海 0喜欢 / 0评论 2012-10-22

字符编码详解及由来(UNICODE,UTF-8,GBK)[转帖]

各种字符编码方式详解及由来-日志-yunlingzhi. 很久很久以前，有一群人，他们决定用8个可以开合的晶体管来组合成不同的状态，以表示世界上的万物。他们看到8个开关状态是好的，于是他们把这称为"字节"。等中国人们得到计算机时，已经没

chinesexj 0喜欢 / 0评论 2012-02-16

MySql中文乱码解决方案

说明: 在MYSQL中，如果使用缺省的字符集，在建库、建表时，默认使用的是latin1字符集，为ISO 8859-1西欧字符集。插入中文字符时，与之不匹配，就会出现乱码。

Enn的数据库 0喜欢 / 0评论 2011-08-22

ubuntu file encoding

建议以后编程序的时候，遇到默认编码为GB2312的大可以直接使用GBK进行解码为unicode字符串。

赵丹icons逐LJ 0喜欢 / 0评论 2011-05-24

ubuntu中gedit中文乱码

在终端或按alt+f2中输入：gconf-editor,点apps->gedit-2->preferences->encodings,修改auto_detected的值,增加GB2312,gbk,同时把这两者的位置提前到utf-8下面一行

87437616 0喜欢 / 0评论 2011-05-09

kubuntu 下面编码批量转换，能用的脚本

iconv -f gb2312 -t utf8 $i -o /tmp/iconv.tmp;

KUbuntu 0喜欢 / 0评论 2010-12-16

字符集编码Unicode ,gb2312 cp936

所谓趣味是指可以比较轻松地了解一些原来不清楚的概念，增进知识，类似于打RPG游戏的升级。整理这篇文章的动机是两个问题：。使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicodebigendian和UTF-8这几种编码方式间相互转换

paopaocbg 0喜欢 / 0评论 2010-10-21

windows7系统不能设置楷体gb2312字体的解决方法

今天刚上班，静下心来研究研究，首先进字体设置，再次检查，仿宋GB2312，没错，那好，咱换个字体，换个黑体，一切正常，和笔记本的效果一样。再设成楷体GB2312,症状一样。外事不决问GOOGLE，放狗一搜，一堆同样落难的弟兄啊，遍眼都是WIN 7无法显示仿

微软FixIt 0喜欢 / 0评论 2014-03-20

Vim在windows下乱码问题(更改GB2312为utf-8)来解决

Vim默认的编码是GB2312的，没utf-8给我们选，所以得我们自己来配置：具体配置如下：打开vim安装目录下的_vimrc，在头部加上几句配置语句就能搞定：

Legend 0喜欢 / 0评论 2013-06-30

Fedora使用问题六：geditor中文乱码解决

在打开windows分区下的文本文件，和下载下来的文本文件时会出乱码的情况，这种情况一般都是由于字符编码的源因。UTF-8的，所以我们最好把GBK,GB2312,之类的字符编码加上去。步骤是，在终端输入gconf-editor调出gconf-editor。

qiaosym 0喜欢 / 0评论 2010-07-07

UTF-8 GBK UTF8 GB2312 之间的区别和关系

是用以解决国际上字符的一种多字节编码，它对英文使用8位，中文使用24为来编码。UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如，如果是UTF8编码，则在外国人的英文IE上也

86981138 0喜欢 / 0评论 2012-03-02

从GB2312的页面转到UTF8页面出现乱码的解决方法

我最近开发的“红宝网络打字系统V9.1　”采用了UTF8编码，发而到互联网后，在采用了GB2312编码的网站超链接到打字系统时出现了乱码。经研究找了原因及解决方法。原因：如先打开GB2312页面，数据库按照GB2312读取数据库内容。而在此时您再打开UTF

fairystepwgl 0喜欢 / 0评论 2009-08-27

HTML，CSS，font-family：中文字体的英文名称（宋体微软雅黑）

Windows 中的中文字体。在默认情况下，也就是未自行安装新字体或者 Office 等文字处理软件的情况下，Windows 默认提供下列字体：。Windows XP/2000/2003/ME/NT 宋体/新宋体、黑体、楷体_GB2312、仿宋_GB231

whiteFJ 0喜欢 / 0评论 2016-03-24

nodejs gb2312、GBK中文乱码解决方法

iconv需要依赖native库，这样一来，在一些不支持native模块安装的虚拟主机和windows平台上，我们还是无法安心处理GBK编码。可以实现window下的转换，通过npm可以安装此模块，bufferhelper是一个操作buffer的加强类

goodyatou 0喜欢 / 0评论 2016-03-07

HTML，CSS，font-family：中文字体的英文名称（宋体微软雅黑）

Windows中的中文字体。在默认情况下，也就是未自行安装新字体或者Office等文字处理软件的情况下，Windows默认提供下列字体：。Vista之前的Windows中宋体/新宋体、黑体支持GBK1.0字符集，楷体_GB2312、仿宋_GB2312支持G

zuncle 0喜欢 / 0评论 2015-12-25

jsp GB2312乱码问题

由于刚开始学习java，对解决编码转换还不是很了解，所以花了一天的时间查找资料，实例等等。在项目中遇到用iso-8859-1的编码处理，包括数据库等都是，项目也是英文版面的，所以按道理没有中文的信息，但是市场部那边说也要加一个中文的查找功能，问题就出来了，

liusslove 0喜欢 / 0评论 2010-10-20

JS包含在HTML文件中正常，包含在ASPX文件中就报错

直接打开该修改后的html，错误消失；但在aspx.cs中指定使用gb2312，页面的运行就会乱码。

luffot 0喜欢 / 0评论 2014-01-09

java web 数据库中文乱码的问题

编写javaweb项目的时候曾碰到一个问题就是填写中文资料的时候，数据库接受的是？？？？？，中文乱码，由于jsp中文编码和默认的web服务器，浏览器编码不一致，查了一些资料后，我是这么做的：。1检查每个jsp的pagecharset=gb2312一致，

liuyiy 0喜欢 / 0评论 2013-12-04

Unicode、GBK、UTF-8、ASCII的编码简介

Java当中的编码，一直对java中的编码有些模糊，由于现网的一个中文乱码的问题，让我好好将java中的编码研究了一番，不敢独享拿出来show一下。都说java中的编码是Unicode，可以做到平台无关性，可是做java项目一年多了，根本没有见过Unico

oluckly 0喜欢 / 0评论 2010-06-20

编码Ascii;unicode; utf-8;utf-16;utf-32;gb2312;gbk

1bit=0/1 1个位数表示两种组合;1byte（字节） = 00000000 8个位数共256种组合对应十进制0-255；Ascii编码 0-127编码；由于1byte最多只有256种可能，当中国开始使用计算机的时候，已经没有可用编码；所以出现了gb2

butterflyfly00 0喜欢 / 0评论 2019-06-25

UTF-8 GBK UTF8 GB2312 之间的区别和关系

IETF的RFC2781和RFC3629以RFC的一贯风格，清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。但IETF负责维护的RFC是Internet上一切规范的基础。目前Windows的内核已经支持Unicode字符集，这样在内核上可以

88384758 0喜欢 / 0评论 2013-04-16

Spring集成FreeMarker中文出现乱码的解决办法（非contentType）

上网搜大部分是说在viewResolver中加入<property name="contentType" value="text/html;charset=gb2312"></property>

88251546 0喜欢 / 0评论 2008-07-27

[转]ISO8859-1、UTF-8 与GB2312

在下面的描述中，将以"中文"两个字为例，经查表可以知道其GB2312编码是"d6d0cec4"，Unicode编码为"4e2d6587"，UTF编码就是"e4b8ade69687&quo

82901332 0喜欢 / 0评论 2012-08-21

Java操作XML文件 dom4j 篇

在项目中，我们很多都用到了xml文件，无论是参数配置还是与其它系统的数据交互。今天就来讲一下Java 中使用dom4j来操作XML文件。

domino 0喜欢 / 0评论 2012-08-20

web前端 html和jsp 乱码解决

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

huanghuang 0喜欢 / 0评论 2012-05-27

PHP读mysql乱码

设置php编码：header("Content-Type:text/html;charset=GB2312");设置mysql编码：mysql_query("SETNAMES'GB2312';");

静心斋 0喜欢 / 0评论 2012-05-23

unicode 转gb2312

做项目的时候经常遇到unicode码的问题，比如json数据格式中的中文问题，从网上找了一段实例，整理下来，便于以后使用：。var str = '上海', unicode;

ahansban 0喜欢 / 0评论 2012-03-27

IE6下无法显示微软雅黑字体问题

按美工给的页面样式处理页面时，发现在IE6下微软雅黑显示为宋体，但是打开美工给的静态页面显示是OK的，而IE8和Chrome、Firefox神马的都没问题。但奇怪的是，这行代码只纠正了一部分字体显示，仍有部分设置为微软雅黑的字体倔强地显示为宋体，不知何故，

88467711 0喜欢 / 0评论 2011-12-20

Unicode和UTF系列（3）

简单来讲，这三者是这样一个关系：GB2312扩展便成了GBK,GBK扩展便成了GB18030。后者都对前者兼容。GB2312：采用2个字节。1个字节编码与ASCII兼容，2个字节编码与GBK兼容，4个字节主要是收录了少数民族的文字等。GB18030现在是国

89781232 0喜欢 / 0评论 2011-12-08

JSP的开发过程中出现的乱码问题

的中文乱码的问题及解决办法写出来供大家参考。对不同的WEB服务器和不同的JDK版本，处理结果就不一样。对不同的字符显示结果不同而导致的。行加上：<%@pagecontentType="text/html;charset=gb2312&quo

zwq 0喜欢 / 0评论 2011-10-24

关于GBK、GB2312、UTF8

UTF-8：Unicode Transformation Format-8bit，允许含BOM，但通常不含BOM。是用以解决国际上字符的一种多字节编码，它对英文使用8位，中文使用24为来编码。UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强

85271041 0喜欢 / 0评论 2011-06-15

jsp生成静态页面—1

为了减轻服务器压力，将原来的文章管理系统由JSP文件的从数据库中取数据显示改为由jsp生成静态html文件后直接访问html文件。首先应创建一个模板文件，文件名和文件后缀可以随意，但我一般常用的还是*.template，因此，这里就以template.te

zwq 0喜欢 / 0评论 2011-02-25

JQuery利用serialize提交中文信息乱码解决方案一种。

使用情况：当页面编码为GB2312时利用JQuery的serialize提交表单数据时会在服务器端产生乱码，产生原因是serialize利用encodeURIComponent对数据进行编码，利用escape则不会产生这个问题。

kwenLee 0喜欢 / 0评论 2011-02-17

linux 下的eclipse支持GBK

因为网上下载的很多源码是GBK编码的，这样导致我们在看源码注释的时候看的是中文乱码，而当我们想要修改编码方式时，发现没有GBK这一选项。代表安装成功了，然后就能在eclipse里面修改字符编码了，要是没有选项，自己输入GBK就行了。

yangliuhepanpan 0喜欢 / 0评论 2014-10-22

编码问题(UTF-8、gb2312、unicode)

相信大家很多人跟我一样，对于编码一直感觉云山雾罩，说知道吧？就知道gb2312是中文编码，一看见乱码，就知道是编码出了问题，但是是哪儿出问题，为什么出问题，除了蒙，还是蒙。尤其是弄好了之后，有人问：为什么呢。自己也不知道，就说：反正就是这样的，用什么编码就

AITECH 0喜欢 / 0评论 2012-02-14

MySQL字符集是什么？字符集的相关介绍

utf8mb4一个字符最多能存4字节，所以能支持更多的字符集；项目中常用utf8mb4存放emoji表情；latin1是8bit 字符集，但不能覆盖亚洲、非洲语言；unidoce是latin1的扩展，增加了亚洲、非洲常规语言支持，但仍不支持全部语言，且AS

椰风海韵 0喜欢 / 0评论 2018-12-11

Linux软件源码包的安装（Tarball的安装）

接触过Linux的人都知道要在Linux上安装软件通常使用rpm或yum，这两种工具的出现确实大大减少我们在Linux系统上安装软件的工作量，但是rpm及yum的安装的软件都是基于某种平台事先编译好的成品，这个成品中制作者考虑种种因素可能会对这个软件的功能

零度源码 0喜欢 / 0评论 2016-08-27

Linux文本处理工具grep和正则表达式及egrep与grep区别

文本处理工具grep，正则表达式在Linux学习过程中很容易出现困惑与障碍的地方，这里分享下学习这方面内容的一些感受。grep Global search REgular expression and Print out the line. 它由一类特殊字

luofuIT成长记录 0喜欢 / 0评论 2016-08-09

J2EE环境安装配置

◆SDK Software Develop kit, 以前JDK叫做Java software develop kit,后来出了1.2版本后就改名叫JDK了,省时省力，节约成本。◆JRE Java runtime environment 我们的最简单的H

greatji 0喜欢 / 0评论 2014-07-17

CentOS 6.4安装后网卡em改回eth的两种方法

今天我用mini的方式在Dell R710服务器上安装了CentOS 6.4系统，完成重启后ifconfig只能看到一个本地回环地址。由于不明白为什么会变成em，所以就找了些资料。最终有两种方式可以修改回eth形式。kernel: udev: rename

lunhuishizhe 0喜欢 / 0评论 2013-07-04

php输出全部gb2312编码内的汉字方法

php输出全部gb2312编码内的汉字，$area表示分区，$pos表示分区内所在位置。

MadGeek 0喜欢 / 0评论 2019-05-09