socket是網絡之間節(jié)點通信的關鍵技術,關鍵是三部分
IP地址、協議、端口號
TCP/IP協議:
是目前世界上應用最為廣泛的協議,是以TCP和IP為基礎的不同層次上多個協議的集合,也成TCP/IP協議族、或TCP/IP協議棧
TCP:Transmission Control Protocol 傳輸控制協議
IP:Internet Protocol 互聯網協議
3、TCP/IP五層模型
應用層:HTTP、FTP、SMTP、Telnet等
傳輸層:TCP/IP
網絡層:
數據鏈路層:
物理層:網線、雙絞線、網卡等
下面的例子是模擬http請求,也就是桌面瀏覽器的基本功能,可以作為爬蟲功能的基礎
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStreamWriter;
import java.net.InetAddress;
import java.net.Socket;
import java.net.UnknownHostException;
import java.util.ArrayList;
/**
* 一個簡單的HTTP客戶端,發(fā)送HTTP請求,模擬瀏覽器 可打印服務器發(fā)送過來的HTTP消息
*/
public class HttpClient {
private static String encoding = "UTF-8";
public static void main(String[] args) {
try {
//訪問本機,如果訪問其他服務器,要改成其ip或者域名,其端口大部分是http協議的默認端口80。留意兩點,一是很多服務器的協議是https(加密的http協議),訪問方式不同;二是很多服務器有禁止爬蟲功能,會返回錯誤信息。
Socket s = new Socket("localhost", 8080);
OutputStreamWriter osw = new OutputStreamWriter(s.getOutputStream());
StringBuffer sb = new StringBuffer();
sb.append("GET /slsint_gd/reportview/reportViewList.jsp HTTP/1.1 ");
sb.append("Host: localhost:8088 ");
sb.append("Connection: Keep-Alive ");
// 注,這是關鍵的關鍵,這里一定要一個回車換行,表示消息頭完,不然服務器會等待
sb.append(" ");
osw.write(sb.toString());
osw.flush();
// --輸出服務器傳回的消息的頭信息
InputStream is = s.getInputStream();
String line = null;
int contentLength = 0;// 服務器發(fā)送回來的消息長度
// 讀取所有服務器發(fā)送過來的請求參數頭部信息
do {
line = readLine(is, 0);
// 如果有Content-Length消息頭時取出
if (line.startsWith("Content-Length")) {
contentLength = Integer.parseInt(line.split(":")[1].trim());
}
// 打印請求部信息
System.out.print(line);
// 如果遇到了一個單獨的回車換行,則表示請求頭結束
} while (!line.equals(" "));
// --輸消息的體
System.out.print(readLine(is, contentLength));
// 關閉流
is.close();
} catch (UnknownHostException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
/*
* 這里我們自己模擬讀取一行,因為如果使用API中的BufferedReader時,它是讀取到一個回車換行后
* 才返回,否則如果沒有讀取,則一直阻塞,直接服務器超時自動關閉為止,如果此時還使用BufferedReader
* 來讀時,因為讀到最后一行時,最后一行后不會有回車換行符,所以就會等待。如果使用服務器發(fā)送回來的
* 消息頭里的Content-Length來截取消息體,這樣就不會阻塞
*
* contentLe 參數 如果為0時,表示讀頭,讀時我們還是一行一行的返回;如果不為0,表示讀消息體,
* 時我們根據消息體的長度來讀完消息體后,客戶端自動關閉流,這樣不用先到服務器超時來關閉。
*/
private static String readLine(InputStream is, int contentLe) throws IOException {
ArrayList lineByteList = new ArrayList();
byte readByte;
int total = 0;
if (contentLe != 0) {
do {
readByte = (byte) is.read();
lineByteList.add(Byte.valueOf(readByte));
total++;
} while (total < contentLe);// 消息體讀還未讀完
} else {
do {
readByte = (byte) is.read();
lineByteList.add(Byte.valueOf(readByte));
} while (readByte != 10);
}
byte[] tmpByteArr = new byte[lineByteList.size()];
for (int i = 0; i < lineByteList.size(); i++) {
tmpByteArr[i] = ((Byte) lineByteList.get(i)).byteValue();
}
lineByteList.clear();
return new String(tmpByteArr, encoding);
}
}
下圖是一個公網網站的結果,返回了錯誤信息,禁止爬蟲的結果
