分类编程相关下的文章

Cold Lunar New Year

作者: 胡骊
时间: 2010-02-16
分类: 编程相关,生活碎语
评论

查了日历才知今天已经是2月16日了。农历新年的假期迷迷糊糊地渡过一半了。

过年前，突如其来的寒流弄得我不知所措。买了的新衣服（秋装）不能穿，Adidas的鞋还没买，情人节的礼物送不出手，Linux上的蓝牙驱动未安装成功，Android上不知道做个什么软件，《Thinking in Java》还没看…虽然习惯了做假期计划，但还没习惯实行假期计划。每天呆在被窝里发呆，任随时间飘过。

About Data ID

作者: 胡骊
时间: 2010-02-05
分类: 编程相关
评论

去年搞LAMP时，想过一个问题：关于数据库中数据ID选择UUID（或者类似UUID的GUID等），还是自增型（整数类型）？其实搞毕业设计时就想过了，但是那时受实习公司的影响，采用了UUID而放弃自增型。后来发现其实采用自增型ID也有其好处。

UUID是指在一台机器上生成的数字，它保证对在同一时空中的所有机器都是唯一的。UUID按照开放软件基金会（OSF）制定的标准计算，用到了以太网卡地址、纳秒级时间、芯片ID码和许多可能的数字。其主要由以下几部分的组合：当前日期和时间（UUID的第一个部分与时间有关，如果你在生成一个UUID之后，过几秒又生成一个UUID，则第一个部分不同，其余相同），时钟序列和全局唯一的IEEE机器识别号（如果有网卡，从网卡获得其MAC码，没有网卡以其他方式获得）。UUID的唯一缺陷在于生成的结果串会比较长。关于UUID这个标准使用最普遍的是微软的GUID（Globals Unique Identifiers）。（摘自本人毕业设计，其它参考：维基百科：UUID、UUID做主键，好还是不好？这是个问题。）

自增型ID（Autoincrement ID），从字面可以理解，自动增加的整数。

两者比较，UUID的优点是方便数据迁移、数据库集群等，缺点是占的空间比自增型ID大很多，查询效率可能比较低。自增型ID的优点是查询快、方便排序，缺点明显是不能保证数据库间ID的唯一性。

空间的问题，正如我同事经常说的，现在硬盘不值钱，存储空间不用考虑。相信银行的系统也不会随便仅仅挂个500GB的硬盘上去。

性能的问题，网上有人说拿200万条数据做测试对比，发现UUID的查询效率落后于自增型ID一个数量级。虽然随着CPU的发展，计算机的性能不能提升，但是对于大型数据库系统来说，效率很重要！没做过对比，我也不好说。

唯一性的问题，如果用自增型ID，做数据迁移或数据库集群时，就会带来灾难性的问题！有人说可以通过修改ID来解决，但数据关联都用到ID，ID一修改，关联就没了。如果约定自增型ID在不同数据库中的范围不同，是可以在一定程度上解决问题的，但数据一旦超出预计范围，那还是没解决问题。UUID就灵活多了，但网上有人说居然发现有UUID重复的情况，难以置信！

感觉对于我们开发的中小系统来说，还是UUID比较适合，毕竟数据量还不算庞大。

Goodbye, SUN!

作者: 胡骊
时间: 2010-01-24
分类: 编程相关
2 条评论

昨天看到消息说，Oracle终于通过欧盟的审查，同意其收购SUN。至此，2009年最大最受关注的并购落下帷幕，SUN也结束了27年的创业历程。

Java之父也在其Bolg上发悼文：
《So long, old friend...》

So long, old friend...

除了Java的未来，还有一个让人担心的问题是，MySQL的前途。

PS. 翻查了资料，当年（大概是2004吧），SUN推出过Java桌面系统，据说系统需要20分钟以上（不是普通人能接受囧！）。该系统就是Linux上“铺”个Java虚拟机，这想法被Google用来成就了Android。

Comet

作者: 胡骊
时间: 2009-12-02
分类: 编程相关
评论

今晚有个无知少女（不排除是人妖）在群里嚷着要谁给她个Ajax实现长连接的例子。对那女的没什么兴趣，但是她提的问题引起我的注意。

网上找到比较经典的文章：
Comet：基于 HTTP 长连接的“服务器推”技术

问了一下胖子，他说HTTP长连接的话，常用的是内嵌Flash作为客户端，而Ajax只能实现长轮询。

Installing CentOS 5.4 x86_64

作者: 胡骊
时间: 2009-11-16
分类: 编程相关
5 条评论

终于决心装个64位的Linux了。

首先由于光驱坏了（狂呼BenQ是垃圾！），所以装系统也要走点弯路——直接通过硬盘上的ISO文件来安装。由于Linux不认NTFS，而Fat32又不支持大于4GB的文件，所以只好再切个Ext3分区来放这个ISO文件。然后利用强大的Grub来启动安装程序。具体是：

1）从硬盘切割个Ext3分区出来，大约5GB就可以了。例如是第一个硬盘的扩展分区的第二个分区，即hd0,6。

2）把安装系统的ISO文件复制到刚切出来的分区下。

3）再把ISO文件里的isolinux文件夹下的initrd.img和vmlinuz文件解压出来，也放到刚切出来的分区下。

4）找个Grub装一下，或者什么“深山红叶”启动盘也有。

5）重启电脑，进入Grub，并按e进入编辑模式，输入以下命令，然后按b启动：（注意空格，这三行都有）

grub>root (hd0,6)
grub>kernel /vmlinuz
grub>initrd /initrd.img

6）然后熟悉的安装界面便出来了。

非常麻烦的方法，但是装系统时，速度飞快。装完系统后最郁闷的是要装一大堆软件。下次还是选择升级系统比较省事。

Richard Stallman

作者: 胡骊
时间: 2009-10-26
分类: 编程相关,生活碎语
评论

今天午休上网，偶然发现Richard Stallman在上星期六来珠海演讲的新闻。顿时惊呆了，反应过来时一股无奈的气流贯穿全身。这么难得的机会居然跟我擦身而过，成为本年度最大遗憾！

认识他，是看《OS Revolution（操作系统革命）》的其中一个收获。那时才知道，早在80年代，“开源运动”就由他发起。只是对freedom的不断追求，为了帮助人们更自由地使用自己的电脑，于是发起了GNU计划，提出GPL v1和v2，为电脑软件的发展作出巨大的贡献，很让我感动。

很想成为这样的人！即使路途遥远，但他的吸引力实在太大了。所以，今天觉得极其遗憾。

Portability

作者: 胡骊
时间: 2009-09-16
分类: 编程相关
评论

台风“巨爵”离去后，今晚又恢复如常的看书计划。《高质量程序设计艺术》来到第6章了，本章主要探讨程序的可移植性问题。

可移植性主要面对的几个难题是：操作系统、处理器体系结构、编译器与语言特性、图形界面环境、区域（如：显示多语言）、硬件设备与平台等方面的差异。提高程序的可移植性，主要就是解决以上几个难题。

解决可移植性的常用方法是使用一个代码层来对功能进行抽象，这实际上将差异性用一部分代码隔离了。例如：JavaScript的话，可以编写通用方法来获取屏幕大小，而该方法是通过判断不同浏览来调用不同的方法来实现。又例如：C/C++可以使用预处理。

本章用了较大的篇幅探讨了图形界面的问题。值得注意的有以下几点：

1）字符编码应该采用更通用、兼容性更高的UTF-8，而不是特定于某个区域的编码。虽然GB1080已经提高了其兼容性，但面向国际的话，还是很勉强。

2）程序/软件中的消息，应该与代码分离，作为独立的、容易替换的资源来处理，以简化其本地化的工作。

3）可移植GUI（图形用户界面）除了可以考虑建立可移植层（如建立统一的API，分别在Windows和X上封装实现该API，程序便可该API）、采用仿真层（好象就是WINE的做法）、基于可移植层的平台（如Java的Swing、SWT等）以外，还可以考虑使用HTTP/HTML或AJAX层来提供用户界面。

Program Optimization

作者: 胡骊
时间: 2009-09-10
分类: 编程相关
评论

首先，今天是个很特别的日子，因为很多情侣特意选择今天结婚（09年09月09日，有长长久久之意）。

废话说完。《高质量程序设计艺术》终于完成第5章了。第4章时间性能和第5章空间性能，其实可以合起来，就是程序优化的问题。首先，程序的时间性能跟空间性能，可以说是矛盾的，因为很多时候都是空间换时间，或者时间换空间。其次，程序优化，就有可能导致可移植性降低。所以，很多专家都认为，程序优化的首要准则是：不要优化（出自Michael A. Jackson）。当然，前提是该程序已经一个良好的程序（不懂怎么表达，反正就是好程序最好不要优化）。

优化的另一个指导思想是帕雷托法则（Pareto Principle）。本来是用在经济学问上的，而用在程序执行上表明，20%的代码通常占用了80%的执行时间。那么，只要找出这20%的代码，就可以对程序进行优化了。

优化的方法嘛，不外乎那几种：空间换时间、减少I/O操作、降低算法复杂度等等。

对于空间性能方面，由于涉及到硬件方面，所以主要是C/C++方面的问题。对于Java程序员来说，底层硬件都是不可见的，所以研究的意义不大。有个问题值得注意的，代码的长度，准确来说是编译后的文件（目标文件）大小，有时候跟执行效率有关。目标文件越小，占用内存空间就越小。

还有一个收获，认识了“内存对齐”。例如：在32位计算机中，一个char变量（占1个字节，即1 byte，也就是8位，8 bit）和一个long变量（占4个字节，即4 byte，也就是32位，32 bit）储存在一起。如果不进行内存对齐，要读取该long变量时，就要读取两个32位字的内容，再进行复杂的操作。但如果对齐后，读取该long变量就只要读取一个32位字的内容，没有复杂的操作，但这样就意味char变量后面紧跟着3个字节来实现对齐，就是有3个字节的内存空间浪费了。这是明显的空间换时间。同时这就知道了为什么内存容量总是32的倍数（因为32位的计算机每次处理32位数据或指令）。我估计下一代的计算机是64位（32的两倍），而不是40位、48位之类，是为了向下兼容。

PS. 可能近来睡眠不足，导致看书时精力不足（总是打瞌睡）。

Security of Program

作者: 胡骊
时间: 2009-09-07
分类: 编程相关
1 条评论

睡觉前总结一下今天看书的收获。

《高质量程序设计艺术（Code Quality: The Open Source Perspective）》已经看到第3章了。本章的内容仍然很精彩！

正如书中所说，软件安全性是一个复杂又独特的难题。

1、缓冲区溢出，一个恒久的入侵课题。以前看很多黑客文章（应该是黑客故事），一开场就说溢出，但就是不知道接着做什么。书中介绍的例子是首先使得程序溢出，使得程序的指针指向要执行的恶意代码所在的内存地址，然后恶意代码便可以执行了。虽然不太懂具体的做法，但是只要想到指针能被替换，就已经很唬人了。

PS. 就算是Java/.NET，声称对缓冲区溢出漏洞是免疫的（因为它们提供了数组边界检查机制），但使用对象数组实现的环形缓冲区也有可能出现缓冲区溢出。

2、文件替换。有些软件是在root权限下运行的，并且带有更改文件权限或删除文件操作。如果把这些软件运行时所操作的文件指向一些重要的系统文件，那后果是非常严重的。

3、不可信输入。这个最简单最有名的例子是SQL注入。很多时候，特别是登陆系统时，输入的用户名都没有过滤特殊字符，或者只是在页面上用JavaScript来过滤，到了服务器就直接组装成SQL语句来查询。这时候，如果用户名后加个“;”（分号），再加个恶意的SQL语句，本来一个语句就会当作两个语句来执行（一般的数据库系统都可以识别分号为一个SQL语句的结束符），后果就不说了。

4、木马。又是恒久的主题。书中提及的不是怎么上传木马程序并运行，而是说某些开源软件的代码如果在服务器上被修改过，那用户下载来编译运行后会带来灾难。即使绝大部分的开源代码都会提供验证码（如MD5、PGP签名等）来检验是否被修改过，但绝大部分的用户都不会去检验一下。

看完本章后，突然想起以前想买的那本《入侵的艺术》，于是去“卓越”看看（http://www.amazon.cn/mn/detailApp/ref=sr_1_1?_encoding=UTF8&s=books&qid=1252254843&asin=B0011CU4RU&sr=8-1）。看过试读后，感觉这本说在写小说似的，剧情很跟《越狱（第四季）》有点像。其实最难防的是，那人直接到你机房去。

对了，还有两个细微的地方要记一下：

1）Windows 的某文件夹下，有两个可执行文件aa.com和aa.exe。如果在命令状态执行aa，那默认会先找到aa.com并执行，而找不到aa.com才会找aa.exe来执行。

2）Windows有个环境变量叫ComSpec，用来设置命令行解释器。